このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240128となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 深層学習における一対多のクリーンラベル画像カモフラージュ(OmClic)に基づくバックドア攻撃
One-to-Multiple Clean-Label Image Camouflage (OmClic) based Backdoor Attack on Deep Learning ( http://arxiv.org/abs/2309.04036v2 ) ライセンス: Link先を確認 | Guohong Wang, Hua Ma, Yansong Gao, Alsharif Abuadbba, Zhi Zhang, Wei Kang, Said F. Al-Sarawib, Gongxuan Zhang, Derek Abbott, | (参考訳) 画像カモフラージュを用いて、バックドアをDLモデルに埋め込むためのクリーンラベルの有毒画像を作成する。
しかし、1つの攻撃/投薬画像がDLモデルの単一入力サイズにしか適合しないという決定的な制限があり、DLモデルの複数の広く採用されている入力サイズを攻撃する際に、その攻撃予算を大幅に増加させる。
本研究は,複数のDLモデルの入力サイズ,すなわちOmClicを同時に適合させることができる攻撃画像の構築を提案する。
したがって、OmClicを通じて、ユーザが同じ攻撃予算(毒殺率のごく一部)でDLモデルをトレーニングするために、共通の入力サイズを選択するかに関わらず、常にバックドアを移植することができる。
多目的最適化として定式化されたカモフラージュアルゴリズムにより、M=5の入力サイズを1つの攻撃画像で同時にターゲットすることができる。
提案したOmClicは、様々な種類の画像を用いて、様々な設定で確実に成功することができる。
OmClicをベースとしたDLモデルへのバックドア挿入実験により,ユーザがランダムに入力サイズを選択した場合でも,高いバックドア性能(攻撃成功率とクリーンデータ精度)が達成可能であることが示された。
したがって、OmClicベースのバックドア攻撃予算は、最先端のカモフラージュベースのバックドア攻撃をベースラインとして、M$\times$に削減される。
重要なことに、OmClicベースの有毒な攻撃画像のセットは、バックドアインプラントのための異なるモデルアーキテクチャに転送可能である。
Image camouflage has been utilized to create clean-label poisoned images for implanting backdoor into a DL model. But there exists a crucial limitation that one attack/poisoned image can only fit a single input size of the DL model, which greatly increases its attack budget when attacking multiple commonly adopted input sizes of DL models. This work proposes to constructively craft an attack image through camouflaging but can fit multiple DL models' input sizes simultaneously, namely OmClic. Thus, through OmClic, we are able to always implant a backdoor regardless of which common input size is chosen by the user to train the DL model given the same attack budget (i.e., a fraction of the poisoning rate). With our camouflaging algorithm formulated as a multi-objective optimization, M=5 input sizes can be concurrently targeted with one attack image, which artifact is retained to be almost visually imperceptible at the same time. Extensive evaluations validate the proposed OmClic can reliably succeed in various settings using diverse types of images. Further experiments on OmClic based backdoor insertion to DL models show that high backdoor performances (i.e., attack success rate and clean data accuracy) are achievable no matter which common input size is randomly chosen by the user to train the model. So that the OmClic based backdoor attack budget is reduced by M$\times$ compared to the state-of-the-art camouflage based backdoor attack as a baseline. Significantly, the same set of OmClic based poisonous attack images is transferable to different model architectures for backdoor implant. | 翻訳日:2024-03-25 16:20:50 公開日:2024-01-28 |
# C Analyzer : Cプログラムのための静的プログラム解析ツール
C Analyzer : A Static Program Analysis Tool for C Programs ( http://arxiv.org/abs/2403.12973v1 ) ライセンス: Link先を確認 | Rajendra Kumar Solanki, | (参考訳) 私たちの時代には、世界がますますソフトウェアプログラムに依存していくにつれて、バグのない正しいプログラムを書くことが不可欠です。
形式的手法に基づくプログラム検証は、安全クリティカルシステムにおける実行時のエラーを検出し、人間の生活に悪影響を及ぼしたり、時間とお金を節約したりすることで、これを保証できる。
本研究は,Cプログラムの静的解析に抽象解釈技術を活用することを目的とする。
C Analyzerは、Cプログラムの静的解析のために開発されたツールである。
このC Analyzerの実装は、複数の抽象ドメインを使用するためのプラグアンドプレイドメインアーキテクチャを提供する。
C Analyzerは、Interval、Ocagon、Polyhedra、Bit Vectorの4つの抽象ドメインをサポートしている。
プログラム検証において,これらの異なる領域を必要な精度で利用する。
C Analyzerツールは、LLVM C/C++コンパイラのフロントエンドClang APIを使用して、所定のCプログラムの制御フローグラフ(CFG)を生成してトラバースする。
このツールは、CFGトラバーサル中のCFGの基本ブロックのステートメントに対する異なる抽象領域の不変量を生成する。
これらの不変量を用いて、0による割当、モジュラーゼロ、算術オーバーフローなど、プログラムのいくつかの特性を分析することができる。
また、ソースからソースへの変換ツールであるCIL(Common Intermediate Language)を使用して、いくつかのC構造体を論理演算子、スイッチ文、条件演算子をif-elseのラグに変換し、do-whileを変換し、ループを whileループに変換するといった単純な構造に変換する。
C Analyzerを使用すると、Cプログラムは宣言、代入、バイナリ操作(パラメータ、リレーショナル、ビットワイズシフトなど)、条件(if-else)、ループ( while, do while, for loop)、ネスト条件、ネストループなどを生成することができる。
現在、このツールは配列、構造、結合、ポインタ、関数呼び出しをサポートしていない。
In our times, when the world is increasingly becoming more dependent on software programs, writing bug-free, correct programs is crucial. Program verification based on formal methods can guarantee this by detecting run-time errors in safety-critical systems to avoid possible adverse impacts on human life and save time and money. This project work tries to leverage Abstract Interpretation techniques for static analysis of C programs. C Analyzer is a tool developed for static analysis of C programs. This implementation of C Analyzer provides a plug-and-play domain architecture for multiple abstract domains to be used. C Analyzer supports four abstract domains - Interval, Octagon, Polyhedra, and Bit Vector. We use these different domains for required precision in program verification. C Analyzer tool uses LLVM C/C++ compiler frontend Clang API to generate and traverse the Control Flow Graph (CFG) of a given C program. This tool generates invariants in different abstract domains for statements in basic blocks of CFG during CFG traversal. Using these invariants, some properties of a program, such as dividing by zero, modulus zero, arithmetic overflow, etc., can be analyzed. We also use a source-to-source transformation tool, CIL (Common Intermediate language), to transform some C constructs into simpler constructs, such as transforming logical operators, switch statements, and conditional operators into if-else ladders and transforming do-while and for loops into while loops. Using C Analyzer, C program constructs such as declarations, assignments, binary operations (arithmetic, relational, bitwise shift, etc.), conditions (if-else), loops (while, do while, for loop), nested conditions, and nested loops can be analyzed. Currently, this tool does not support arrays, structures, unions, pointers, or function calls. | 翻訳日:2024-03-25 07:27:10 公開日:2024-01-28 |
# 格子量子化器を用いたCRYSTALS-Kyber
CRYSTALS-Kyber With Lattice Quantizer ( http://arxiv.org/abs/2401.15534v1 ) ライセンス: Link先を確認 | Shuiyin Liu, Amin Sakzad, | (参考訳) M-LWE(Module Learning with Errors)ベースの鍵調整機構(KRM)は格子コードブックに従ってM-LWEサンプルを定量化する。
本稿では,任意の次元格子に対して有効であり,ディザのない任意のモジュラス$q$に対して有効である汎用的なM-LWEベースのKRMフレームワークについて述べる。
我々の主な成果は、M-LWEベースのKRMの復号化失敗率(DFR)の明示的な上限である。
この境界により、DFRと通信コストを同時に削減するために最適な格子量子化器を構築することができる。
さらに,Kyber と同じセキュリティパラメータ $(q,k,\eta_1,\eta_2)$ を用いた KRM スキームを提案する。
Kyberと比較すると、通信コストは最大36.47ドル%、DFRは最大2.99ドルまで削減される。
セキュリティの議論は、Kyberと同じだ。
Module Learning with Errors (M-LWE) based key reconciliation mechanisms (KRM) can be viewed as quantizing an M-LWE sample according to a lattice codebook. This paper describes a generic M-LWE-based KRM framework, valid for any dimensional lattices and any modulus $q$ without a dither. Our main result is an explicit upper bound on the decryption failure rate (DFR) of M-LWE-based KRM. This bound allows us to construct optimal lattice quantizers to reduce the DFR and communication cost simultaneously. Moreover, we present a KRM scheme using the same security parameters $(q,k,\eta_1,\eta_2)$ as in Kyber. Compared with Kyber, the communication cost is reduced by up to $36.47\%$ and the DFR is reduced by a factor of up to $2^{99}$. The security arguments remain the same as Kyber. | 翻訳日:2024-03-18 08:07:41 公開日:2024-01-28 |
# 制御された録音プリビレージを用いた音素ベースプロアクティブアンチイーブドロップ
Phoneme-Based Proactive Anti-Eavesdropping with Controlled Recording Privilege ( http://arxiv.org/abs/2401.15704v1 ) ライセンス: Link先を確認 | Peng Huang, Yao Wei, Peng Cheng, Zhongjie Ba, Li Lu, Feng Lin, Yang Wang, Kui Ren, | (参考訳) スマートデバイスの普及により、人々が盗聴されることへの懸念が高まる。
音声のプライバシーを高めるために,マイクロホンの非線形性を利用して音声レコーダーを難聴超音波で妨害する手法が近年研究されている。
しかし、既存の解はエネルギーマスキングにのみ依存する。
これらの単純な形状のノイズは、高エネルギー要求や音声強調技術によって容易に除去されるなど、いくつかの問題を引き起こす。
さらに、これらのソリューションのほとんどは認証された記録をサポートしておらず、使用シナリオを制限している。
本稿では,認証記録を保存しながら,マイクロホンを妨害できる効率的かつロバストなシステムを設計する。
具体的には,情報マスキングのアイデアを取り入れた新しい音素ベースノイズを提案する。
さらに,より広い範囲の騒音伝達戦略を最適化し,システムのハードウェアプロトタイプを実装した。
実験の結果,既存のシステムよりもはるかに優れている全音声認識システムにおいて,録音の認識精度を50%以下に抑えることができることがわかった。
The widespread smart devices raise people's concerns of being eavesdropped on. To enhance voice privacy, recent studies exploit the nonlinearity in microphone to jam audio recorders with inaudible ultrasound. However, existing solutions solely rely on energetic masking. Their simple-form noise leads to several problems, such as high energy requirements and being easily removed by speech enhancement techniques. Besides, most of these solutions do not support authorized recording, which restricts their usage scenarios. In this paper, we design an efficient yet robust system that can jam microphones while preserving authorized recording. Specifically, we propose a novel phoneme-based noise with the idea of informational masking, which can distract both machines and humans and is resistant to denoising techniques. Besides, we optimize the noise transmission strategy for broader coverage and implement a hardware prototype of our system. Experimental results show that our system can reduce the recognition accuracy of recordings to below 50\% under all tested speech recognition systems, which is much better than existing solutions. | 翻訳日:2024-03-18 08:07:41 公開日:2024-01-28 |
# スタイル転送による手続き的地形生成
Procedural terrain generation with style transfer ( http://arxiv.org/abs/2403.08782v1 ) ライセンス: Link先を確認 | Fabio Merizzi, | (参考訳) 本研究では,プロシージャ生成とニューラルスタイル転送を組み合わせた地形図作成手法を提案する。
当社のアプローチは,汎用性の向上,ハードウェア要件の低減,デザイナや開発者の創造的プロセスへの統合性の向上など,競合する生成モデルの代替手段として有効なものだと考えています。
提案手法では,多層スムーズなガウス雑音とパーリンアルゴリズムを用いて手続き型ノイズマップを生成する。
次に,実世界高度マップからの描画スタイルを改良したニューラルスタイル転送手法を用いる。
このアルゴリズム生成とニューラルプロセッシングの融合は、多様なだけでなく、現実世界のランドスケープの形態的特徴と密接に整合した地形を創出する可能性を秘めており、我々のプロセスは計算コストの低い一貫した地形構造を生成し、カスタマイズされた地図を作成する能力を提供する。
数値的な評価により、従来の手続き手法を超越して、地形形態を正確に再現するモデルの強化能力がさらに検証される。
In this study we introduce a new technique for the generation of terrain maps, exploiting a combination of procedural generation and Neural Style Transfer. We consider our approach to be a viable alternative to competing generative models, with our technique achieving greater versatility, lower hardware requirements and greater integration in the creative process of designers and developers. Our method involves generating procedural noise maps using either multi-layered smoothed Gaussian noise or the Perlin algorithm. We then employ an enhanced Neural Style transfer technique, drawing style from real-world height maps. This fusion of algorithmic generation and neural processing holds the potential to produce terrains that are not only diverse but also closely aligned with the morphological characteristics of real-world landscapes, with our process yielding consistent terrain structures with low computational cost and offering the capability to create customized maps. Numerical evaluations further validate our model's enhanced ability to accurately replicate terrain morphology, surpassing traditional procedural methods. | 翻訳日:2024-03-18 05:40:54 公開日:2024-01-28 |
# 深層強化学習を通した自律走行車:コミュニケーションと協力を学ぶ Autonomous Vehicle Patrolling Through Deep Reinforcement Learning: Learning to Communicate and Cooperate ( http://arxiv.org/abs/2402.10222v1 ) ライセンス: Link先を確認 | Chenhao Tong, Maria A. Rodriguez, Richard O. Sinnott | (参考訳) 自動運転車は、継続的な地域パトロール問題に向いている。
最適なパトロール戦略を見つけることは、風や風景のような未知の環境要因や、バッテリー寿命の制限やハードウェアの故障といった自動運転車の制約のために難しい可能性がある。
重要なことに、大きな地域をパトロールするには、複数のエージェントが集団で行動を調整する必要がある。
しかしながら、最適な調整戦略は、パトロール環境の複雑な性質のために手動で定義することがしばしば非自明である。
本稿では, 環境要因, エージェント制限, および3つの典型的な協力問題である衝突回避, 混雑回避, パトロール対象交渉に関するパトロール問題を考察する。
本稿では,強化型エージェント間学習(RIAL)法に基づくマルチエージェント強化学習ソリューションを提案する。
このアプローチにより、エージェントはパトロール中の障害の発生と発生を協調する独自の通信プロトコルを開発するように訓練される。
このソリューションはシミュレーション実験によって検証され、全体的なパトロール性能、衝突回避性能、バッテリリリチャージ戦略の効率、フォールトトレランスなど、さまざまな観点から最先端のパトロールソリューションと比較される。 Autonomous vehicles are suited for continuous area patrolling problems. Finding an optimal patrolling strategy can be challenging due to unknown environmental factors, such as wind or landscape; or autonomous vehicles' constraints, such as limited battery life or hardware failures. Importantly, patrolling large areas often requires multiple agents to collectively coordinate their actions. However, an optimal coordination strategy is often non-trivial to be manually defined due to the complex nature of patrolling environments. In this paper, we consider a patrolling problem with environmental factors, agent limitations, and three typical cooperation problems -- collision avoidance, congestion avoidance, and patrolling target negotiation. We propose a multi-agent reinforcement learning solution based on a reinforced inter-agent learning (RIAL) method. With this approach, agents are trained to develop their own communication protocol to cooperate during patrolling where faults can and do occur. The solution is validated through simulation experiments and is compared with several state-of-the-art patrolling solutions from different perspectives, including the overall patrol performance, the collision avoidance performance, the efficiency of battery recharging strategies, and the overall fault tolerance. | 翻訳日:2024-02-25 17:14:05 公開日:2024-01-28 |
# EventF2S:ニューロモルフィックフレンドリーアルゴリズムを用いた非同期・スパーススパイクAERフレームワーク EventF2S: Asynchronous and Sparse Spiking AER Framework using Neuromorphic-Friendly Algorithm ( http://arxiv.org/abs/2402.10078v1 ) ライセンス: Link先を確認 | Lakshmi Annamalai and Chetan Singh Thakur | (参考訳) バイオインスパイアされたアドレスイベント表現(AER)センサは、低消費電力、高空間性、高時間分解能により大きな人気を集めている。
スパイキングニューラルネットワーク(SNN)は、AERデータ処理に固有の選択肢となっている。
しかしながら、aer-snnパラダイムの統合は、リソース制約のあるアプリケーションの重要な要件である非同期処理、ニューロモルフィック互換性、スパーススパイクを十分に検討していない。
このギャップに対処するため,脳にインスパイアされたAER-SNNオブジェクト認識ソリューションを導入し,データエンコーダをファースト・トゥ・スパイク認識ネットワークに統合した。
視覚野のニューロンの機能に魅了され、我々は非同期でニューロモルフィックなハードウェアと互換性のあるソリューションを設計した。
さらに,最適なスパイクシグナリングを実現するために,ノイズ除去とファースト・トゥ・スパイク符号化の原理を適用し,計算コストを大幅に削減した。
実験により,提案手法は最先端の競争精度を達成するために計算コストを著しく削減することを示した。
提案したソリューションは,AERセンサの潜在能力を最大限活用する,非同期かつ費用対効果の高いAER認識システムを提供する。 Bio-inspired Address Event Representation (AER) sensors have attracted significant popularity owing to their low power consumption, high sparsity, and high temporal resolution. Spiking Neural Network (SNN) has become the inherent choice for AER data processing. However, the integration of the AER-SNN paradigm has not adequately explored asynchronous processing, neuromorphic compatibility, and sparse spiking, which are the key requirements of resource-constrained applications. To address this gap, we introduce a brain-inspired AER-SNN object recognition solution, which includes a data encoder integrated with a First-To-Spike recognition network. Being fascinated by the functionality of neurons in the visual cortex, we designed the solution to be asynchronous and compatible with neuromorphic hardware. Furthermore, we have adapted the principle of denoising and First-To-Spike coding to achieve optimal spike signaling, significantly reducing computation costs. Experimental evaluation has demonstrated that the proposed method incurs significantly less computation cost to achieve state-of-the-art competitive accuracy. Overall, the proposed solution offers an asynchronous and cost-effective AER recognition system that harnesses the full potential of AER sensors. | 翻訳日:2024-02-18 12:37:37 公開日:2024-01-28 |
# 都市共生型ロボットと対話する大規模融合・ラベル付き人間のポーズデータセットの実現に向けて Towards a large-scale fused and labeled dataset of human pose while interacting with robots in shared urban areas ( http://arxiv.org/abs/2402.10077v1 ) ライセンス: Link先を確認 | E. Sherafat and B. Farooq | (参考訳) 過去10年間で、自動運転配達ロボット(adr)は、eコマース需要の増加に対応して、従来の配達方法を変えてきた。
しかし, 共有都市部における歩行者の安全に移動するためのADRの準備は, 未解決の課題である。
このような環境において、歩行者との相互作用を理解する上で重要な研究ギャップがあると主張する。
Human Pose Estimationは、ポーズ予測や社会的に認識されたロボットの経路計画など、さまざまな下流アプリケーションにとって重要なステップストーンである。
しかし、共有都市部における人間とロボットの相互作用を捉えるリッチでポーズラベルのデータセットが存在しないことは、この目的を妨げている。
本稿では,このギャップを,歩行者追跡と同時局所化とマッピング(SLAM)に焦点を当てたMOT17とNCLTという2つのデータセットの再利用,融合,ラベル付けによって埋める。
その結果得られたユニークなデータセットは、屋内および屋外における何千もの人間とロボットのインタラクションシナリオを表している。
yolov7を活用し,人間のポーズと数値の出力と,手動アノテーションによる基礎的真理ポーズを提供する。
本研究では,従来のmpjpeメトリクスにおける距離バイアスを克服するために,境界ボックス次元を組み込んだ平均スケールドジョイントエラー(msje)と呼ばれる新しい人間のポーズ推定誤差メトリックを提案する。
YOLOv7は、両方のデータセットで人間のポーズを効果的に見積もっている。
しかし,MPJPEとMSJEはそれぞれ10.89と25.3と記録されているため,屋内や混在するシーンなど,特定のシナリオでは性能が低下する。
対照的に、YOLOv7は、単対人推定(NCLT seq2)と屋外シナリオ(MOT17 seq1)において、それぞれ5.29と3.38のMSJE値を達成する。 Over the last decade, Autonomous Delivery Robots (ADRs) have transformed conventional delivery methods, responding to the growing e-commerce demand. However, the readiness of ADRs to navigate safely among pedestrians in shared urban areas remains an open question. We contend that there are crucial research gaps in understanding their interactions with pedestrians in such environments. Human Pose Estimation is a vital stepping stone for various downstream applications, including pose prediction and socially aware robot path-planning. Yet, the absence of an enriched and pose-labeled dataset capturing human-robot interactions in shared urban areas hinders this objective. In this paper, we bridge this gap by repurposing, fusing, and labeling two datasets, MOT17 and NCLT, focused on pedestrian tracking and Simultaneous Localization and Mapping (SLAM), respectively. The resulting unique dataset represents thousands of real-world indoor and outdoor human-robot interaction scenarios. Leveraging YOLOv7, we obtained human pose visual and numeric outputs and provided ground truth poses using manual annotation. To overcome the distance bias present in the traditional MPJPE metric, this study introduces a novel human pose estimation error metric called Mean Scaled Joint Error (MSJE) by incorporating bounding box dimensions into it. Findings demonstrate that YOLOv7 effectively estimates human pose in both datasets. However, it exhibits weaker performance in specific scenarios, like indoor, crowded scenes with a focused light source, where both MPJPE and MSJE are recorded as 10.89 and 25.3, respectively. In contrast, YOLOv7 performs better in single-person estimation (NCLT seq 2) and outdoor scenarios (MOT17 seq1), achieving MSJE values of 5.29 and 3.38, respectively. | 翻訳日:2024-02-18 12:37:14 公開日:2024-01-28 |
# gai-based resume screeningにおける障害バイアスの同定と改善 Identifying and Improving Disability Bias in GAI-Based Resume Screening ( http://arxiv.org/abs/2402.01732v1 ) ライセンス: Link先を確認 | Kate Glazko, Yusuf Mohammed, Ben Kosa, Venkatesh Potluri, Jennifer Mankoff | (参考訳) ジェネレーティブAIの採用が進むにつれて、採用や採用といった領域も拡張されている。
しかし、バイアスの可能性を調べることなしに、これは障害のある人々を含む極端に人口に悪影響を及ぼす可能性がある。
この重要な懸念に対処するために,我々はchatgpt(特にgpt-4)に対して,新たなリーダーシップ賞,奨学金,パネルプレゼンテーション,および障害関連メンバーシップによって強化された同じ履歴書に対する履歴書のランク付けを依頼する,履歴書監査研究を行う。
GPT-4はこれらの拡張CVに対して偏見を示す。
さらに, この偏見は, DEI の原則と障害正義に基づいて, カスタム GPT を訓練することにより, 定量的に低減できることを示す。
また, GPT-4 は, バイアス決定を正当化し, さらなるバイアス軽減作業の方向性を提案するために, 直接的および間接的能力主義のタイプを定性的に分析する。
さらに,これらの正当性は,人間による実世界バイアス文を含む学習データから得られたものと考えられるので,人間のバイアスに対する理解と対処のための新たな道筋を示唆する。 As Generative AI rises in adoption, its use has expanded to include domains such as hiring and recruiting. However, without examining the potential of bias, this may negatively impact marginalized populations, including people with disabilities. To address this important concern, we present a resume audit study, in which we ask ChatGPT (specifically, GPT-4) to rank a resume against the same resume enhanced with an additional leadership award, scholarship, panel presentation, and membership that are disability related. We find that GPT-4 exhibits prejudice towards these enhanced CVs. Further, we show that this prejudice can be quantifiably reduced by training a custom GPTs on principles of DEI and disability justice. Our study also includes a unique qualitative analysis of the types of direct and indirect ableism GPT-4 uses to justify its biased decisions and suggest directions for additional bias mitigation work. Additionally, since these justifications are presumably drawn from training data containing real-world biased statements made by humans, our analysis suggests additional avenues for understanding and addressing human bias. | 翻訳日:2024-02-11 16:30:13 公開日:2024-01-28 |
# 教育計測におけるAIの統合: 項目応答理論データ生成におけるChatGPTの有効性 Integrating AI in Educational Measurement: ChatGPT's Efficacy in Item Response Theory Data Generation ( http://arxiv.org/abs/2402.01731v1 ) ライセンス: Link先を確認 | Hatice Gurdil, Yesim Beril Soguksu, Salih Salihoglu, Fatma Coskun | (参考訳) 本稿では,R言語を用いた項目応答理論(IRT)のデータ生成におけるChatGPTの有効性について検討する。
2パラメータロジスティックモデル(2plm)に着目し,chatgptが生成するデータセットを,一次元性や局所独立性といった複数のirt仮定に対して評価する。
この研究は、これらのデータセットと研究者が生成したデータセットを比較し、シミュレーション条件、バイアス、RMSE値のコンプライアンスを評価する。
その結果、ChatGPTアルゴリズムはIRTの仮定に固執したデータを生成することに成功したが、研究者が生成したアルゴリズムに比べ、アイテムパラメータのコンプライアンスに問題があることが示唆された。
この研究は、データ生成におけるChatGPTの可能性を強調しつつ、そのアウトプットを科学的研究に導く上での人間の専門知識の重要性を強調している。 This paper explores the efficacy of ChatGPT in generating data for Item Response Theory (IRT) using the R programming language. Focusing on the 2 Parameter Logistic Model (2PLM), it evaluates datasets produced by ChatGPT against several IRT assumptions like unidimensionality and local independence. The study compares these datasets with those generated by researchers, assessing compliance with simulation conditions, bias, and RMSE values. The results indicate that while ChatGPT algorithms successfully generate data adhering to IRT assumptions, they exhibit more issues with item parameter compliance compared to researcher-generated algorithms. This study highlights ChatGPT's potential in data generation, but also underscores the importance of human expertise in guiding its outputs for scientific research. | 翻訳日:2024-02-11 16:17:53 公開日:2024-01-28 |
# LLMの評価-医用画像からのマルチモーダル診断と症状解析 Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and Symptom Analysis ( http://arxiv.org/abs/2402.01730v1 ) ライセンス: Link先を確認 | Dimitrios P. Panagoulias, Maria Virvou and George A. Tsihrintzis | (参考訳) 大規模言語モデル(LLM)は最先端の人工知能技術であり、急速に進化し、医療診断の支援を約束している。
しかし、その帰納の正確さや正確さはまだ適切に評価されていない。
本研究では,(1)構造化相互作用によるマルチモーダルLCM評価と(2)先行相互作用によるデータに基づくドメイン固有分析という,新しい手法の2つの独立したステップを取り入れたLCM評価パラダイムを提案する。
本手法を用いて,(1)病理領域におけるマルチモーダル・マルチチョイス質問(mcqs)を用いたllm生成医療診断の正確性と正確性を評価し,(2)抽出結果の体系的かつ包括的な分析を行う。
gpt-4-vision-previewを画像とテキストの両方からなる複雑な医学的質問に応答するためにllmとして使用し,病理学の広い知識領域に含まれる様々な疾患,病態,化学物質,関連エンティティについて検討した。
GPT-4-Vision-Preview は, 約84 %の正しい診断結果を得た。
次に、画像メタデータ分析、名前付きエンティティ認識、知識グラフを含む分析的アプローチに従って、研究成果をさらに分析した。
GPT-4-Vision-Previewの弱さは、特定の知識経路で明らかにされ、特定の領域における欠点のさらなる理解につながった。
提案手法は gpt-4-vision-preview の使用に限らず,他の llm の有用性と正確性を評価するために同様の手法を適用でき,さらなる最適化により使用性が向上する。 Large language models (LLMs) constitute a breakthrough state-of-the-art Artificial Intelligence technology which is rapidly evolving and promises to aid in medical diagnosis. However, the correctness and the accuracy of their returns has not yet been properly evaluated. In this work, we propose an LLM evaluation paradigm that incorporates two independent steps of a novel methodology, namely (1) multimodal LLM evaluation via structured interactions and (2) follow-up, domain-specific analysis based on data extracted via the previous interactions. Using this paradigm, (1) we evaluate the correctness and accuracy of LLM-generated medical diagnosis with publicly available multimodal multiple-choice questions(MCQs) in the domain of Pathology and (2) proceed to a systemic and comprehensive analysis of extracted results. We used GPT-4-Vision-Preview as the LLM to respond to complex, medical questions consisting of both images and text, and we explored a wide range of diseases, conditions, chemical compounds, and related entity types that are included in the vast knowledge domain of Pathology. GPT-4-Vision-Preview performed quite well, scoring approximately 84\% of correct diagnoses. Next, we further analyzed the findings of our work, following an analytical approach which included Image Metadata Analysis, Named Entity Recognition and Knowledge Graphs. Weaknesses of GPT-4-Vision-Preview were revealed on specific knowledge paths, leading to a further understanding of its shortcomings in specific areas. Our methodology and findings are not limited to the use of GPT-4-Vision-Preview, but a similar approach can be followed to evaluate the usefulness and accuracy of other LLMs and, thus, improve their use with further optimization. | 翻訳日:2024-02-11 16:17:39 公開日:2024-01-28 |
# フェイクニュース緩和のためのハーネスリングネットワーク効果:自己刺激学習によるデバンカーの選択 Harnessing Network Effect for Fake News Mitigation: Selecting Debunkers via Self-Imitation Learning ( http://arxiv.org/abs/2402.03357v1 ) ライセンス: Link先を確認 | Xiaofei Xu, Ke Deng, Michael Dann, Xiuzhen Zhang | (参考訳) 本研究の目的は,偽ニュースがソーシャルネットワークに与える影響を最小限に抑えることにある。
これは強化学習問題であり、各段階で1人のユーザーが真のニュースを広めるために選択される。
課題は、個別のデバンカーの選択による「ネット」効果がソーシャルネットワーク上の相互に伝達される情報から識別できず、緩和努力による集団効果のみを観察できるエピソディック報酬である。
既存の自己免疫学習法(SIL)は, エピソードな報奨から学習する上で有望であるが, サンプル効率の低さから, 偽ニュース緩和の現実的応用に不適である。
偽ニュース緩和のためのより効果的なデバンカー選択方針を学ぶために,本研究は,偽ニュース緩和を目的とした2つの改善,すなわち,現在観察されている状態を同じキャンペーンから以前の状態と統合することで,"現実"環境状態をキャプチャする拡張状態表現から成る,否定的サンプリングと状態拡張型自己模倣学習を提案する。
2つのソーシャルネットワークでの実験では、標準的なGASILや最先端のフェイクニュース緩和モデルよりも優れたパフォーマンスが得られる。 This study aims to minimize the influence of fake news on social networks by deploying debunkers to propagate true news. This is framed as a reinforcement learning problem, where, at each stage, one user is selected to propagate true news. A challenging issue is episodic reward where the "net" effect of selecting individual debunkers cannot be discerned from the interleaving information propagation on social networks, and only the collective effect from mitigation efforts can be observed. Existing Self-Imitation Learning (SIL) methods have shown promise in learning from episodic rewards, but are ill-suited to the real-world application of fake news mitigation because of their poor sample efficiency. To learn a more effective debunker selection policy for fake news mitigation, this study proposes NAGASIL - Negative sampling and state Augmented Generative Adversarial Self-Imitation Learning, which consists of two improvements geared towards fake news mitigation: learning from negative samples, and an augmented state representation to capture the "real" environment state by integrating the current observed state with the previous state-action pairs from the same campaign. Experiments on two social networks show that NAGASIL yields superior performance to standard GASIL and state-of-the-art fake news mitigation models. | 翻訳日:2024-02-11 15:25:23 公開日:2024-01-28 |
# 非凸最適化のための局所条件下における確率勾配ハミルトンモンテカルロの漸近解析 Nonasymptotic analysis of Stochastic Gradient Hamiltonian Monte Carlo under local conditions for nonconvex optimization ( http://arxiv.org/abs/2002.05465v4 ) ライセンス: Link先を確認 | \"Omer Deniz Akyildiz, Sotirios Sabanis | (参考訳) 確率勾配ハミルトニアンモンテカルロ (sghmc) をwasserstein-2 距離の目標測度に収束させる非漸近解析をlog-concavityを仮定することなく提供する。
本分析では,SGHMCの局所的な条件下での重要な理論的特性を定量化し,その結果を著しく改善する。
特に、目標とSGHMCの法則の間のワッサーシュタイン-2距離がアルゴリズムのステップサイズによって一様に制御されていることを証明し、SGHMCがイテレーション数で一様に高精度な結果を提供できることを示す。
この分析により,局所条件下での非凸最適化問題に対する漸近的境界を求めることができ,SGHMCは非凸最適化器と見なすと,最もよく知られた速度で世界最小値に収束する。
この結果を用いて,スケーラブルベイズ推定と非漸近一般化境界に対する非漸近的境界を求める。 We provide a nonasymptotic analysis of the convergence of the stochastic gradient Hamiltonian Monte Carlo (SGHMC) to a target measure in Wasserstein-2 distance without assuming log-concavity. Our analysis quantifies key theoretical properties of the SGHMC as a sampler under local conditions which significantly improves the findings of previous results. In particular, we prove that the Wasserstein-2 distance between the target and the law of the SGHMC is uniformly controlled by the step-size of the algorithm, therefore demonstrate that the SGHMC can provide high-precision results uniformly in the number of iterations. The analysis also allows us to obtain nonasymptotic bounds for nonconvex optimization problems under local conditions and implies that the SGHMC, when viewed as a nonconvex optimizer, converges to a global minimum with the best known rates. We apply our results to obtain nonasymptotic bounds for scalable Bayesian inference and nonasymptotic generalization bounds. | 翻訳日:2024-02-02 20:21:40 公開日:2024-01-28 |
# メタ学習によるグラフニューラルネットワークの敵攻撃 Adversarial Attacks on Graph Neural Networks via Meta Learning ( http://arxiv.org/abs/1902.08412v2 ) ライセンス: Link先を確認 | Daniel Z\"ugner, Stephan G\"unnemann | (参考訳) グラフのディープラーニングモデルは、多くのタスクで最先端の技術を進歩させてきた。
近年の成功にもかかわらず、その堅牢性についてはほとんど知られていない。
離散グラフ構造を乱すノード分類のためのグラフニューラルネットワークのトレーニング時間攻撃について検討する。
私たちのコア原則は、メタグラディエントを使用して、トレーニング時間攻撃の根底にある二段階の問題を解決することです。
実験の結果,小さなグラフの摂動はグラフ畳み込みネットワークの性能を著しく低下させ,教師なしの埋め込みに移行することさえできることがわかった。
驚くべきことに、アルゴリズムが生成する摂動は、すべての関係情報を無視する単純なベースラインよりもパフォーマンスが悪くなるようにグラフニューラルネットワークを誤解させることができる。
私たちの攻撃は、ターゲットの分類器に関する知識やアクセスを前提としません。 Deep learning models for graphs have advanced the state of the art on many tasks. Despite their recent success, little is known about their robustness. We investigate training time attacks on graph neural networks for node classification that perturb the discrete graph structure. Our core principle is to use meta-gradients to solve the bilevel problem underlying training-time attacks, essentially treating the graph as a hyperparameter to optimize. Our experiments show that small graph perturbations consistently lead to a strong decrease in performance for graph convolutional networks, and even transfer to unsupervised embeddings. Remarkably, the perturbations created by our algorithm can misguide the graph neural networks such that they perform worse than a simple baseline that ignores all relational information. Our attacks do not assume any knowledge about or access to the target classifiers. | 翻訳日:2024-02-02 20:20:54 公開日:2024-01-28 |
# Dempster-Shafer理論を用いた結節解析におけるてんかん不確かさの治療 Treatment of Epistemic Uncertainty in Conjunction Analysis with Dempster-Shafer Theory ( http://arxiv.org/abs/2402.00060v1 ) ライセンス: Link先を確認 | Luis Sanchez and Massimiliano Vasile and Silvia Sanvido and Klaus Mertz and Christophe Taillan | (参考訳) 本稿では,CDM(Conjunction Data Messages)におけるてんかん不確実性のモデル化と,衝突の確率に対する信頼度に応じた協調事象の分類について述べる。
本論文で提案するアプローチは,デンプスター・シェーファー理論(dst)に基づき,観察されたcdmが未知の分布の族から引き出されるという仮定から始まったものである。
dvoetzky-kiefer-wolfowitz(dkw)の不等式は、cdmの時系列から始まった未知の分布の族上の強固な境界を構築するために用いられる。
DSt構造は、DKWの不等式で構築された確率ボックスから導出される。
DSt構造は、時系列に沿った各点におけるCDMの不確実性をカプセル化し、与えられた衝突確率の実現における信念と妥当性の計算を可能にする。
本稿で提案する方法論は,多くの実イベントにおいて検証され,欧州宇宙機関とフランス宇宙機関の既存プラクティスと比較される。 The paper presents an approach to the modelling of epistemic uncertainty in Conjunction Data Messages (CDM) and the classification of conjunction events according to the confidence in the probability of collision. The approach proposed in this paper is based on the Dempster-Shafer Theory (DSt) of evidence and starts from the assumption that the observed CDMs are drawn from a family of unknown distributions. The Dvoretzky-Kiefer-Wolfowitz (DKW) inequality is used to construct robust bounds on such a family of unknown distributions starting from a time series of CDMs. A DSt structure is then derived from the probability boxes constructed with DKW inequality. The DSt structure encapsulates the uncertainty in the CDMs at every point along the time series and allows the computation of the belief and plausibility in the realisation of a given probability of collision. The methodology proposed in this paper is tested on a number of real events and compared against existing practices in the European and French Space Agencies. | 翻訳日:2024-02-02 18:01:18 公開日:2024-01-28 |
# FengWu-GHR:Kilometerスケールの中距離気象予測の学習 FengWu-GHR: Learning the Kilometer-scale Medium-range Global Weather Forecasting ( http://arxiv.org/abs/2402.00059v1 ) ライセンス: Link先を確認 | Tao Han and Song Guo and Fenghua Ling and Kang Chen and Junchao Gong and Jingjia Luo and Junxia Gu and Kan Dai and Wanli Ouyang and Lei Bai | (参考訳) 地球大気動態のキロメータースケールのモデリングは、きめ細かい天気予報を可能にし、壊滅的な天候や気候活動のリスクを低減させる。
したがって、キロスケールのグローバル予測モデルの構築は、気象領域における継続的な追跡である。
過去数十年間、数値気象モデルの空間分解能を改善するための国際的な活動が活発に行われてきた。
それでも、高分解能数値モデルの開発は、計算資源のかなりの消費のため、長年にわたる課題である。
データ駆動グローバル天気予報モデルの最近の進歩は、再分析データをモデルトレーニングに活用し、数値モデルと同等あるいはそれ以上の予報スキルを実証している。
しかし、これらは全て再解析データの解像度によって制限されており、高解像度の予測を生成できない。
この研究は、0.09$^{\circ}$水平解像度で動く最初のデータ駆動グローバル天気予報モデルであるfengwu-ghrを提示する。
FengWu-GHRは、事前訓練された低解像度モデルから事前知識を継承することにより、MLベースの高解像度予測を操作するための扉を開く新しいアプローチを導入する。
2022年の天気予報は、FengWu-GHRがIFS-HRESよりも優れていることを示している。
さらに,FengWu-GHRの高分解能動作予測技術は,局面観測と極端事象のケーススタディで評価されている。 Kilometer-scale modeling of global atmosphere dynamics enables fine-grained weather forecasting and decreases the risk of disastrous weather and climate activity. Therefore, building a kilometer-scale global forecast model is a persistent pursuit in the meteorology domain. Active international efforts have been made in past decades to improve the spatial resolution of numerical weather models. Nonetheless, developing the higher resolution numerical model remains a long-standing challenge due to the substantial consumption of computational resources. Recent advances in data-driven global weather forecasting models utilize reanalysis data for model training and have demonstrated comparable or even higher forecasting skills than numerical models. However, they are all limited by the resolution of reanalysis data and incapable of generating higher-resolution forecasts. This work presents FengWu-GHR, the first data-driven global weather forecasting model running at the 0.09$^{\circ}$ horizontal resolution. FengWu-GHR introduces a novel approach that opens the door for operating ML-based high-resolution forecasts by inheriting prior knowledge from a pretrained low-resolution model. The hindcast of weather prediction in 2022 indicates that FengWu-GHR is superior to the IFS-HRES. Furthermore, evaluations on station observations and case studies of extreme events support the competitive operational forecasting skill of FengWu-GHR at the high resolution. | 翻訳日:2024-02-02 18:01:01 公開日:2024-01-28 |
# フィードバックパルス Feedback Pulses ( http://arxiv.org/abs/2402.00058v1 ) ライセンス: Link先を確認 | Vishesh Kaushik, Navin Khaneja | (参考訳) NMRパルスを設計するための新しいパラダイムがある。
パルス、フィードバックパルスと呼ぶ。
ブロードバンドの反転と励起が必要です。
多くのオフセットがあり、北極から始まり、それらを進化させ始めます。
ブロッホ球上で観測し、どのオフセットが最悪か(ほとんど南極から離れて)を確認する。
rf位相をオフセット(オフセット横磁化フェーズより先に\pi/2$)に変更し、そのオフセット周波数で照射し、しばらくの間、監視と繰り返しを行い、最悪のオフセットを探す。
オフセットに共鳴しているとき、私たちはうまくやっていますし、逆転しているときも、共振器から外れているときも、あまり傷つけません(ほとんど傷ついても、良いタイミングでオフセットに戻ります)。
監視と設定のプロセスによって、最終的にはすべてを南極とビンゴにプッシュすることで、反転パルスが発生します。
フィードバックはシミュレーションで実行されるが、最終的にはブロードバンド反転パルスが生成される。
広帯域励起では、y軸上のすべてのオフセット(原点周りで対称)から開始する。
フィードバックによって、彼らは南極へ押し寄せます。
相数$\pi$インクリメントで結果のシーケンスを後方に実行すると、励起パルスが得られます。
帯域選択励起パルスは、$y$軸のパスバンドと南極のストップバンドにオフセットを配置する。
フィードバックを使ってすべてを南極にプッシュする。
繰り返しますが、$\pi$インクリメンタルフェーズで後ろ向きに走って、バンド選択の興奮を得ます。
突然、シンプルで簡単になったのです。
本稿では,フィードバックパルスアルゴリズム,シミュレーション,実験を紹介する。 We have a new paradigm to design NMR pulses. Pulses, we call feedback pulses. We want broadband inversion and excitation. We have many offsets, start evolving them all starting from the north pole. Monitor them on the Bloch sphere, see which offset is worst (most away from south pole). Change the rf-phase to the offset ($\pi/2$ ahead of offset transverse magnetization phase) and irradiate at that offset frequency and evolve for some time and monitor and repeat, looking for worst offset. When we are on resonance to a offset, we are doing well, inverting it and when we are off resonant, we don't hurt much (even if hurt little, we will come back to the offset in good time). By the process of monitoring, and setting phase we eventually push everything to the south pole and bingo, we have an inversion pulse. Feedback is done in simulation, but what results in end is a broadband inversion pulse. For broadband excitation, start with all offsets (symmetric around origin) on y axis. By feedback push them to the south pole. When we run the resulting sequence backward with phases, $\pi$ incremented, we will get an excitation pulse. For band-selective excitation pulse put offsets in pass band on the $y$ axis and in the stop band on the south pole. Use feedback to push everything to the south pole. Again, run backwards with $\pi$ incremented phases, to get band selective excitation. Suddenly, we have it all, simple and easy. The paper, introduces the feedback pulse algorithm, simulations and experiments. | 翻訳日:2024-02-02 18:00:37 公開日:2024-01-28 |
# HGPROMPT:Few-shot Prompt Learningのための均質グラフと不均質グラフ HGPROMPT: Bridging Homogeneous and Heterogeneous Graphs for Few-shot Prompt Learning ( http://arxiv.org/abs/2312.01878v7 ) ライセンス: Link先を確認 | Xingtong Yu, Yuan Fang, Zemin Liu, Xinming Zhang | (参考訳) グラフニューラルネットワーク(GNN)とヘテロジニアスグラフニューラルネットワーク(HGNN)は、同質で異質なグラフ表現学習において顕著なテクニックであるが、エンドツーエンドの監視フレームワークにおけるパフォーマンスは、タスク固有の監視の可用性に大きく依存している。
ラベル付けコストを削減するため、自己教師付きプレテキストタスクの事前学習は一般的なパラダイムとなっているが、事前訓練されたモデルと下流タスクの間には、目的の相違から生じるギャップがしばしばある。
ギャップを埋めるために、特に数ショット設定では、事前訓練されたモデルを完全に微調整することなく、迅速な学習が有望な方向として上昇している。
グラフ上でのプロンプトベースの学習に関する初期の研究はあったが、主に同質グラフを扱っており、下流のアプリケーションでよく見られる不均一グラフを無視している。
本稿では,HGPROMPTを提案する。HGPROMPTは,事前学習タスクと下流タスクだけでなく,二重テンプレート設計による均質かつ異質なグラフを統一する新しい学習促進フレームワークである。
さらに,hgpromptのデュアルプロンプトを提案することで,特徴のばらつきだけでなく,タスク間の異種性の違いによって引き起こされるギャップを橋渡しする前に,下流タスクが最も重要視されるよう支援する。
最後に,HGPROMPTを3つの公開データセットの広範な実験により徹底的に評価・解析する。 Graph neural networks (GNNs) and heterogeneous graph neural networks (HGNNs) are prominent techniques for homogeneous and heterogeneous graph representation learning, yet their performance in an end-to-end supervised framework greatly depends on the availability of task-specific supervision. To reduce the labeling cost, pre-training on self-supervised pretext tasks has become a popular paradigm,but there is often a gap between the pre-trained model and downstream tasks, stemming from the divergence in their objectives. To bridge the gap, prompt learning has risen as a promising direction especially in few-shot settings, without the need to fully fine-tune the pre-trained model. While there has been some early exploration of prompt-based learning on graphs, they primarily deal with homogeneous graphs, ignoring the heterogeneous graphs that are prevalent in downstream applications. In this paper, we propose HGPROMPT, a novel pre-training and prompting framework to unify not only pre-training and downstream tasks but also homogeneous and heterogeneous graphs via a dual-template design. Moreover, we propose dual-prompt in HGPROMPT to assist a downstream task in locating the most relevant prior to bridge the gaps caused by not only feature variations but also heterogeneity differences across tasks. Finally, we thoroughly evaluate and analyze HGPROMPT through extensive experiments on three public datasets. | 翻訳日:2024-02-01 17:16:51 公開日:2024-01-28 |
# gaussian process regressionの直感的チュートリアル An Intuitive Tutorial to Gaussian Process Regression ( http://arxiv.org/abs/2009.10862v5 ) ライセンス: Link先を確認 | Jie Wang | (参考訳) このチュートリアルは、gaussian process regression (gpr)の直感的な紹介を提供することを目的としている。
GPRモデルは、表現の柔軟性と、予測に対する不確実性を定量化する固有の能力のために、機械学習アプリケーションで広く使用されている。
このチュートリアルは、多変量正規分布、カーネル、非パラメトリックモデル、関節および条件確率を含むガウス過程が構築する基本的な概念を説明することから始まる。
次に、GPRの簡潔な記述と標準GPRアルゴリズムの実装を提供する。
さらに、チュートリアルは最先端のガウスプロセスアルゴリズムを実装するためのパッケージをレビューする。
このチュートリアルは、機械学習に新しく、GPRの基本を明確に理解することを含む、幅広い聴衆にアクセスできる。 This tutorial aims to provide an intuitive introduction to Gaussian process regression (GPR). GPR models have been widely used in machine learning applications due to their representation flexibility and inherent capability to quantify uncertainty over predictions. The tutorial starts with explaining the basic concepts that a Gaussian process is built on, including multivariate normal distribution, kernels, non-parametric models, and joint and conditional probability. It then provides a concise description of GPR and an implementation of a standard GPR algorithm. In addition, the tutorial reviews packages for implementing state-of-the-art Gaussian process algorithms. This tutorial is accessible to a broad audience, including those new to machine learning, ensuring a clear understanding of GPR fundamentals. | 翻訳日:2024-01-31 20:14:28 公開日:2024-01-28 |
# 1つの頭部は2より優れている:命題決定ホーンの忘れに対する多項式制限 One head is better than two: a polynomial restriction for propositional definite Horn forgetting ( http://arxiv.org/abs/2009.07497v3 ) ライセンス: Link先を確認 | Paolo Liberatore | (参考訳) 論理的忘れは、命題ホルンの公式の単純な場合でさえ \np-完全であり、そのサイズを指数関数的に増やすことができる。
忘れる方法は、それぞれの変数を頭が変数である各節の本体に置き換えることである。
単頭の場合では多項式時間を取る: 各変数は少なくとも節の先頭である。
いくつかの公式は単頭ではなく、忘れるのを簡単にするために作られる。
単頭等価である。
本稿の最初の貢献は、単頭同値の意味論的特徴の研究である。
必要な条件は2つある。
公式が不等式であれば十分であり、2つの変数の集合はそれらの交叉と等価である場合に限り同値となる。
すべての非環式は同値である。
この記事の第二の貢献は、式を単頭回すための不完全なアルゴリズムである。
成功した場合、多項式時間で忘れることは可能となり、多項式サイズの公式を生成するが、それ以外は保証されない。
アルゴリズムは不等式で完備である。 Logical forgetting is \np-complete even in the simple case of propositional Horn formulae, and may exponentially increase their size. A way to forget is to replace each variable to forget with the body of each clause whose head is the variable. It takes polynomial time in the single-head case: each variable is at most the head of a clause. Some formulae are not single-head but can be made so to simplify forgetting. They are single-head equivalent. The first contribution of this article is the study of a semantical characterization of single-head equivalence. Two necessary conditions are given. They are sufficient when the formula is inequivalent: it makes two sets of variables equivalent only if they are also equivalent to their intersection. All acyclic formulae are inequivalent. The second contribution of this article is an incomplete algorithm for turning a formula single-head. In case of success, forgetting becomes possible in polynomial time and produces a polynomial-size formula, none of which is otherwise guaranteed. The algorithm is complete on inequivalent formulae. | 翻訳日:2024-01-31 20:14:17 公開日:2024-01-28 |
# ACCESS: 自動Webアクセシビリティ違反訂正のためのプロンプトエンジニアリング ACCESS: Prompt Engineering for Automated Web Accessibility Violation Corrections ( http://arxiv.org/abs/2401.16450v1 ) ライセンス: Link先を確認 | Calista Huang, Alyssa Ma, Suchir Vyasamudri, Eugenie Puype, Sayem Kamal, Juan Belza Garcia, Salar Cheema, Michael Lutz | (参考訳) 包括的かつユーザフレンドリな技術の必要性が高まる中、Webアクセシビリティは、視覚、聴覚、認知、運動障害を含む、障害のある個人に対するオンラインコンテンツへの平等なアクセスを確保するために不可欠である。
Webコンテンツアクセシビリティガイドライン(WCAG)やWebアクセシビリティイニシアチブ(W3C)のようなアクセシビリティガイドラインや標準が存在するにもかかわらず、90%以上のウェブサイトが必要なアクセシビリティ要件を満たしていない。
障害のあるWebユーザに対しては、Webページアクセシビリティエラーを自動的に修正するツールが必要である。
研究はアクセシビリティエラーを発見し、ターゲットにする方法を実証しているが、そのような違反を効果的に修正する研究は行われていない。
本稿では,ドキュメントオブジェクトモデル(dom)を基礎モデルでリアルタイムに修正することにより,web上のアクセシビリティ侵害を修正する新しい手法を提案する。
アクセシビリティエラー情報、大規模言語モデル(LLMs)、そして迅速なエンジニアリング技術を活用して、新しいベンチマークであるACCESSの修正後のアクセシビリティ違反エラーを51倍に削減した。
本研究は,インクルーシブWebコンテンツの方向性に対する価値あるアプローチを示し,Webアクセシビリティの自動化に向けた先進的な手法を探るための方向性を提供する。 With the increasing need for inclusive and user-friendly technology, web accessibility is crucial to ensuring equal access to online content for individuals with disabilities, including visual, auditory, cognitive, or motor impairments. Despite the existence of accessibility guidelines and standards such as Web Content Accessibility Guidelines (WCAG) and the Web Accessibility Initiative (W3C), over 90\% of websites still fail to meet the necessary accessibility requirements. For web users with disabilities, there exists a need for a tool to automatically fix web page accessibility errors. While research has demonstrated methods to find and target accessibility errors, no research has focused on effectively correcting such violations. This paper presents a novel approach to correcting accessibility violations on the web by modifying the document object model (DOM) in real time with foundation models. Leveraging accessibility error information, large language models (LLMs), and prompt engineering techniques, we achieved greater than a 51\% reduction in accessibility violation errors after corrections on our novel benchmark: ACCESS. Our work demonstrates a valuable approach toward the direction of inclusive web content, and provides directions for future research to explore advanced methods to automate web accessibility. | 翻訳日:2024-01-31 17:41:51 公開日:2024-01-28 |
# AI in Energy Digital Twining: グリーンシティのための強化学習に基づく適応型ディジタルツインモデル AI in Energy Digital Twining: A Reinforcement Learning-based Adaptive Digital Twin Model for Green Cities ( http://arxiv.org/abs/2401.16449v1 ) ライセンス: Link先を確認 | Lal Verda Cakir, Kubra Duran, Craig Thomson, Matthew Broadbent, and Berk Canberk | (参考訳) デジタルツイン(DT)は,持続的で効果的なスマート都市ソリューションの実現に不可欠である。
しかし、現在のDTモデリング技術は、これらのスマートシティ環境の動的性をサポートできない。
これは、従来のアプローチにおける適切なデータキャプチャの欠如が原因であり、不正確なモデリングと高いリソースとエネルギー消費の課題をもたらす。
このギャップを埋めるために、時空間グラフを探索し、Reinforcement Learning-based Adaptive Twining (RL-AT) 機構をDeep Q Networks (DQN) で提案する。
その結果,グリーンシティの進展に寄与し,正確性,同期性,資源最適化,エネルギー効率に有意義なメリットが示された。
その結果,時空間グラフはグラフデータベースを用いた場合,一貫した精度とクエリ性能を55%向上させることができることがわかった。
さらに,本モデルでは,オーバーヘッドを20%低減し,エネルギー消費量を25%削減して,適切なデータキャプチャを実現する。 Digital Twins (DT) have become crucial to achieve sustainable and effective smart urban solutions. However, current DT modelling techniques cannot support the dynamicity of these smart city environments. This is caused by the lack of right-time data capturing in traditional approaches, resulting in inaccurate modelling and high resource and energy consumption challenges. To fill this gap, we explore spatiotemporal graphs and propose the Reinforcement Learning-based Adaptive Twining (RL-AT) mechanism with Deep Q Networks (DQN). By doing so, our study contributes to advancing Green Cities and showcases tangible benefits in accuracy, synchronisation, resource optimization, and energy efficiency. As a result, we note the spatiotemporal graphs are able to offer a consistent accuracy and 55% higher querying performance when implemented using graph databases. In addition, our model demonstrates right-time data capturing with 20% lower overhead and 25% lower energy consumption. | 翻訳日:2024-01-31 17:41:27 公開日:2024-01-28 |
# LLM4SecHW: ハードウェアデバッグのためのドメイン固有大言語モデルを活用する LLM4SecHW: Leveraging Domain Specific Large Language Model for Hardware Debugging ( http://arxiv.org/abs/2401.16448v1 ) ライセンス: Link先を確認 | Weimin Fu, Kaichen Yang, Raj Gautam Dutta, Xiaolong Guo, Gang Qu | (参考訳) 本稿では,ドメイン固有大言語モデル(LLM)を利用したハードウェアデバッギングのための新しいフレームワーク LLM4SecHW を提案する。
様々なソフトウェア開発タスクの自動化におけるLLMの成功にもかかわらず、商用LLMの制約とドメイン固有のデータの不足により、ハードウェアセキュリティ領域におけるその応用は制限されてきた。
これらの課題に対処するために,我々は,オープンソースハードウェア設計の欠陥とその修正手順のデータセットを,バージョン管理データを利用してコンパイルするユニークなアプローチを提案する。
このデータセットは、ハードウェアのための機械学習モデルをトレーニングするための重要な基盤を提供する。
LLM4SecHWはこのデータセットに基づいて中規模のLCMを微調整し、ハードウェア設計におけるバグの特定と修正を可能にする。
この先駆的なアプローチは、他の研究分野におけるドメイン固有LLMの微調整に適用するための参照ワークフローを提供する。
各種オープンソースハードウェア設計における本システムの性能評価を行い,欠陥の正確な同定と修正の有効性を実証した。
私たちの研究は、ハードウェア設計の品質管理プロセスを自動化する新しい視点をもたらします。 This paper presents LLM4SecHW, a novel framework for hardware debugging that leverages domain specific Large Language Model (LLM). Despite the success of LLMs in automating various software development tasks, their application in the hardware security domain has been limited due to the constraints of commercial LLMs and the scarcity of domain specific data. To address these challenges, we propose a unique approach to compile a dataset of open source hardware design defects and their remediation steps, utilizing version control data. This dataset provides a substantial foundation for training machine learning models for hardware. LLM4SecHW employs fine tuning of medium sized LLMs based on this dataset, enabling the identification and rectification of bugs in hardware designs. This pioneering approach offers a reference workflow for the application of fine tuning domain specific LLMs in other research areas. We evaluate the performance of our proposed system on various open source hardware designs, demonstrating its efficacy in accurately identifying and correcting defects. Our work brings a new perspective on automating the quality control process in hardware design. | 翻訳日:2024-01-31 17:41:09 公開日:2024-01-28 |
# OMPGPT: OpenMPのための生成事前学習型トランスモデル OMPGPT: A Generative Pre-trained Transformer Model for OpenMP ( http://arxiv.org/abs/2401.16445v1 ) ライセンス: Link先を確認 | Le Chen, Arijit Bhattacharjee, Nesreen Ahmed, Niranjan Hasabnis, Gal Oren, Vy Vo, Ali Jannesari | (参考訳) 大型言語モデル(LLM)は、ChatGPTのようなモデルによってエピトーム化され、自然言語処理(NLP)の分野に革命をもたらした。
この傾向とともに、StarCoder、WizardCoder、CodeLlamaといったコードベースの大規模言語モデルが登場し、膨大なコードデータのリポジトリで広く訓練されている。
しかし、これらのモデルは設計に固有のもので、主にコード生成、コード補完、コメント生成などの生成タスク、および複数のプログラミング言語に対する一般的なサポートに焦点を当てている。
コードLLMの汎用能力は多くのプログラマにとって有用であるが、ハイパフォーマンスコンピューティング(HPC)の領域はより狭く、より小さく、よりドメイン固有のLMをよりスマートに選択できる。
本稿では,OpenMPプラグマ生成のための言語モデル固有の強みを巧みに活用する新しいモデルであるOMPGPTを紹介する。
さらに、我々は、OMPGPTの有効性を高めるために設計された革新的な戦略であるチェーン・オブ・OMPを作成するために、NLPドメインからの迅速なエンジニアリング技術を採用し、適応する。
OMPGPTはOpenMPタスクに特化している既存の大規模言語モデルよりも優れており、HPC環境の典型的なハードウェア制約とより密に一致している。
我々は、言語モデルの利点とHPCタスクの特定の要求を結びつけるために、我々の貢献を重要な橋と考えます。
OMPGPTの成功は、より広い範囲のHPCタスクに適用可能性と適応性を示唆し、計算効率と有効性の分野における新たな道を開くという確固たる基盤を築いている。 Large language models (LLMs), as epitomized by models like ChatGPT, have revolutionized the field of natural language processing (NLP). Along with this trend, code-based large language models such as StarCoder, WizardCoder, and CodeLlama have emerged, trained extensively on vast repositories of code data. Yet, inherent in their design, these models primarily focus on generative tasks like code generation, code completion, and comment generation, and general support for multiple programming languages. While the generic abilities of code LLMs are useful for many programmers, the area of high-performance computing (HPC) has a narrower set of requirements that make a smaller and more domain-specific LM a smarter choice. This paper introduces OMPGPT, a novel model meticulously designed to harness the inherent strengths of language models for OpenMP pragma generation. Furthermore, we adopt and adapt prompt engineering techniques from the NLP domain to create chain-of-OMP, an innovative strategy designed to enhance OMPGPT's effectiveness. Our extensive evaluations demonstrate that OMPGPT outperforms existing large language models specialized in OpenMP tasks and maintains a notably smaller size, aligning it more closely with the typical hardware constraints of HPC environments. We consider our contribution as a pivotal bridge, connecting the advantage of language models with the specific demands of HPC tasks. The success of OMPGPT lays a solid foundation, suggesting its potential applicability and adaptability to a wider range of HPC tasks, thereby opening new avenues in the field of computational efficiency and effectiveness. | 翻訳日:2024-01-31 17:40:52 公開日:2024-01-28 |
# 人間-エージェント協調における人間体験の促進:正の人間利得に基づく人間中心モデリングアプローチ Enhancing Human Experience in Human-Agent Collaboration: A Human-Centered Modeling Approach Based on Positive Human Gain ( http://arxiv.org/abs/2401.16444v1 ) ライセンス: Link先を確認 | Yiming Gao, Feiyu Liu, Liang Wang, Zhenjie Lian, Dehua Zheng, Weixuan Wang, Wenjin Yang, Siqin Li, Xianliang Wang, Wenhui Chen, Jing Dai, Qiang Fu, Wei Yang, Lanxiao Huang, Wei Liu | (参考訳) 既存のゲームai研究は、主にエージェントがゲームに勝つ能力を高めることに重点を置いているが、これは本来、エージェントとコラボレーションするときに人間がより良い経験を得られるものではない。
例えば、エージェントはコラボレーションを支配し、意図しないまたは有害な行動を示し、人間のパートナーにとって経験不足につながる。
言い換えれば、ほとんどのゲームAIエージェントは「自己中心」な方法でモデル化されている。
本稿では,人間の体験向上を目的とした協調エージェントのための「人間中心型」モデリング手法を提案する。
具体的には、タスク中に達成される目標として、人間の経験をモデル化する。
エージェントは、エージェントの本来の能力(例えば勝利ゲーム)を維持しながら、人間がこれらの目標を達成する度合いを高めることを学ぶべきである。
そこで本研究では,RLHG(Reinforcement Learning from Human Gain)アプローチを提案する。
RLHGのアプローチは「ベースライン」を導入し、これは人間が目的を達成できる範囲に対応し、エージェントが目標を達成する際に効果的に人間を強化する行動を学ぶよう促す。
本研究では,マルチプレイヤーオンラインバトルアリーナ(moba)ゲーム「王の栄誉」におけるrlhgエージェントの評価を行い,実世界の人間エージェントテストを行った。
客観的なパフォーマンスと主観的好みの両方の結果、rlhgエージェントは参加者により良いゲーム体験を提供する。 Existing game AI research mainly focuses on enhancing agents' abilities to win games, but this does not inherently make humans have a better experience when collaborating with these agents. For example, agents may dominate the collaboration and exhibit unintended or detrimental behaviors, leading to poor experiences for their human partners. In other words, most game AI agents are modeled in a "self-centered" manner. In this paper, we propose a "human-centered" modeling scheme for collaborative agents that aims to enhance the experience of humans. Specifically, we model the experience of humans as the goals they expect to achieve during the task. We expect that agents should learn to enhance the extent to which humans achieve these goals while maintaining agents' original abilities (e.g., winning games). To achieve this, we propose the Reinforcement Learning from Human Gain (RLHG) approach. The RLHG approach introduces a "baseline", which corresponds to the extent to which humans primitively achieve their goals, and encourages agents to learn behaviors that can effectively enhance humans in achieving their goals better. We evaluate the RLHG agent in the popular Multi-player Online Battle Arena (MOBA) game, Honor of Kings, by conducting real-world human-agent tests. Both objective performance and subjective preference results show that the RLHG agent provides participants better gaming experience. | 翻訳日:2024-01-31 17:40:24 公開日:2024-01-28 |
# UXの負債: ユーザが支払っている間にデベロッパが請求する UX Debt: Developers Borrow While Users Pay ( http://arxiv.org/abs/2104.06908v2 ) ライセンス: Link先を確認 | Sebastian Baltes and Veronika Dashuber | (参考訳) 技術的負債はソフトウェア専門家の間でよく知られたメタファーとなり、開発中のショートカットがどのようにソフトウェアプロジェクトの負担を蓄積し重荷になるかを示しています。
従来の技術的負債の概念では、ソフトウェア開発者は、開発時間の短期的なスピードアップのために、ソフトウェアシステムの保守性と拡張性から借用する。
将来的には、長い開発時間という形で利息を払うのは彼らなのです。
一方、ユーザエクスペリエンス(UX)の負債は、使用性の不足を犠牲にして開発をスピードアップするためのショートカットに重点を置いています。
ほとんどの研究はコード中心の技術的負債を考慮し、実装に焦点を当てている。
この記事では、よく見過ごされるソフトウェアシステムのUX負債に対する意識を高め、ソースコードからユーザへと焦点を移したいと考えています。
私たちは、コード中心、アーキテクチャ中心、プロセス中心のUX負債の3つのクラスを概説しました。
専門的な調査では、コード中心のUX負債とプロセス中心のUX負債が最強のサポートを受けながら、これらのクラスを検証しました。
参加者のフィードバックを議論し,ソフトウェア開発チームがユーザ向けアプリケーションのux負債を軽減する方法について推奨する。 Technical debt has become a well-known metaphor among software professionals, illustrating how shortcuts taken during development can accumulate and become a burden for software projects. In the traditional notion of technical debt, software developers borrow from the maintainability and extensibility of a software system for a short-term speed up in development time. In the future, they are the ones who pay the interest in form of longer development times. User experience (UX) debt, on the other hand, focuses on shortcuts taken to speed up development at the expense of subpar usability, thus mainly borrowing from user efficiency. Most research considers code-centric technical debt, focusing on the implementation. With this article, we want to build awareness for the often overlooked UX debt of software systems, shifting the focus from the source code towards users. We outline three classes of UX debt that we observed in practice: code-centric, architecture-centric, and process-centric UX debt. In an expert survey, we validated those classes, with code-centric and process-centric UX debt getting the strongest support. We discuss our participants' feedback and present recommendations on how software development teams can mitigate UX debt in their user-facing applications. | 翻訳日:2024-01-31 01:27:58 公開日:2024-01-28 |
# 1次摂動による逆転型防御の改善 Improving Transformation-based Defenses against Adversarial Examples with First-order Perturbations ( http://arxiv.org/abs/2103.04565v3 ) ライセンス: Link先を確認 | Haimin Zhang, Min Xu | (参考訳) ディープニューラルネットワークは、さまざまな機械学習タスクにうまく適用されている。
しかし、研究では、ニューラルネットワークは敵の攻撃を受けやすいことが示されている。
これは、ニューラルネットワークベースのインテリジェントシステムに対する潜在的な脅威を公開する。
ニューラルネットワークによって出力される正しい結果の確率は、非予測クラスラベルで生成された小さな一階摂動を逆の例に適用することで増加する。
本研究は, 対向性強靭性を改善するために, 対向性摂動に対処する手法を提案する。
提案手法では,複数のクラスラベルをランダムに選択し,選択したラベルに対して小さな1次摂動を生成する。
生成された摂動は一緒に加えられ、指定された空間にクランプされる。
得られた摂動は、最終的に対向例に追加され、この例に含まれる対向的摂動に対処する。
提案手法は推定時に適用され,モデルの再トレーニングや微調整は不要である。
提案手法をCIFAR-10とCIFAR-100で実験的に検証した。
以上の結果から,本手法はいくつかの変換方式による防御手法の防御性能を効果的に向上することを示す。 Deep neural networks have been successfully applied in various machine learning tasks. However, studies show that neural networks are susceptible to adversarial attacks. This exposes a potential threat to neural network-based intelligent systems. We observe that the probability of the correct result outputted by the neural network increases by applying small first-order perturbations generated for non-predicted class labels to adversarial examples. Based on this observation, we propose a method for counteracting adversarial perturbations to improve adversarial robustness. In the proposed method, we randomly select a number of class labels and generate small first-order perturbations for these selected labels. The generated perturbations are added together and then clamped onto a specified space. The obtained perturbation is finally added to the adversarial example to counteract the adversarial perturbation contained in the example. The proposed method is applied at inference time and does not require retraining or finetuning the model. We experimentally validate the proposed method on CIFAR-10 and CIFAR-100. The results demonstrate that our method effectively improves the defense performance of several transformation-based defense methods, especially against strong adversarial examples generated using more iterations. | 翻訳日:2024-01-31 01:27:39 公開日:2024-01-28 |
# 顔からの一貫した知識蒸留による眼内埋め込み学習 Periocular Embedding Learning with Consistent Knowledge Distillation from Face ( http://arxiv.org/abs/2012.06746v3 ) ライセンス: Link先を確認 | Yoon Gyo Jung, Jaewoo Park, Cheng Yaw Low, Jacky Chen Long Chai, Leslie Ching Ow Tiong, Andrew Beng Jin Teoh | (参考訳) 眼の周辺部である眼周囲の生体計測は、特に顔が隠されたり隠されたりした場合、顔の代替となる。
しかし、実際には、単眼の生体計測は、特に野生環境では、最も有意な顔の特徴を捉え、識別情報を欠いている。
これらの問題に対処するため,我々は知識蒸留を用いて顔から識別情報を伝達し,骨幹ネットワークの訓練を支援する。
具体的には,顔画像の埋め込み学習に活用するが,身元確認や検証には顔画像のみを利用する。
本研究では,予測層と特徴層にまたがる顔と眼球ネットワーク間の一貫性を課す,一貫性のある知識蒸留(ckd)を提案する。
予測層における一貫性により,(1)顔画像から大域的識別関係情報の抽出,(2)顔ネットワークから骨幹ネットワークへの効果的な情報伝達が可能となる。
特に、一貫性は予測ユニットを定式化し、顔画像の深いクラス間関係情報を抽出し記憶する。
3) 特徴層一貫性は, 同一性に無関係な属性に対して, ペリオクチュアルな特徴を堅牢にする。
CKDは、単独の眼周囲ネットワークに力を与え、野生における眼周囲認識のための堅牢な識別的埋め込みを作り出す。
我々は,ckdにおける蒸留機構の核となる原理を理論的に実証的に検証し,ckdがラベル平滑化と同値であることを発見した。
広範な実験により、ckdは標準のperiocular recognition benchmarkデータセットで最先端の結果を達成できることが判明した。 Periocular biometric, the peripheral area of the ocular, is a collaborative alternative to the face, especially when the face is occluded or masked. However, in practice, sole periocular biometric capture the least salient facial features, thereby lacking discriminative information, particularly in wild environments. To address these problems, we transfer discriminatory information from the face to support the training of a periocular network by using knowledge distillation. Specifically, we leverage face images for periocular embedding learning, but periocular alone is utilized for identity identification or verification. To enhance periocular embeddings by face effectively, we proposeConsistent Knowledge Distillation (CKD) that imposes consistency between face and periocular networks across prediction and feature layers. We find that imposing consistency at the prediction layer enables (1) extraction of global discriminative relationship information from face images and (2) effective transfer of the information from the face network to the periocular network. Particularly, consistency regularizes the prediction units to extract and store profound inter-class relationship information of face images. (3) The feature layer consistency, on the other hand, makes the periocular features robust against identity-irrelevant attributes. Overall, CKD empowers the sole periocular network to produce robust discriminative embeddings for periocular recognition in the wild. We theoretically and empirically validate the core principles of the distillation mechanism in CKD, discovering that CKD is equivalent to label smoothing with a novel sparsity-oriented regularizer that helps the network prediction to capture the global discriminative relationship. Extensive experiments reveal that CKD achieves state-of-the-art results on standard periocular recognition benchmark datasets. | 翻訳日:2024-01-31 01:27:14 公開日:2024-01-28 |
# VoGE:Gaussian Ellipsoidsを用いた分析合成のための微分ボリュームレンダ VoGE: A Differentiable Volume Renderer using Gaussian Ellipsoids for Analysis-by-Synthesis ( http://arxiv.org/abs/2205.15401v3 ) ライセンス: Link先を確認 | Angtian Wang, Peng Wang, Jian Sun, Adam Kortylewski, Alan Yuille | (参考訳) ガウスの再構成カーネルは、1990年にWestoverによって提案され、90年代にコンピュータグラフィックスコミュニティによって研究されている。
一方、現在の最先端(sota)微分可能レンダラであるliu et al.(2019)では、ラスタライズを使用して各画像ピクセルの三角形や点を収集し、ビュー距離に基づいてブレンドする。
本稿では,ボリュームガウス再構成カーネルを幾何学的プリミティブとして利用するVoGEを提案する。
VoGEレンダリングパイプラインはレイトレーシングを使用して最も近いプリミティブを捕捉し、光線に沿った体積密度分布に基づいて混合する。
本稿では,VoGEを用いて効率よくレンダリングを行うために,体積密度集約と粗大な描画戦略に関する近似クローズフォーム解を提案する。
最後に、PyTorch3Dと比較して、競合するレンダリング速度でリアルタイムレベルのレンダリングを可能にするVoGEのCUDA実装を提供する。
定量的・定性的な実験では,物体のポーズ推定や形状・テクスチャの適合性,咬合推論など,様々な視覚課題に適用すると,vogeがsotaに勝ることが示された。
VoGEライブラリとデモは、https://github.com/Angtian/VoGEで公開されている。 The Gaussian reconstruction kernels have been proposed by Westover (1990) and studied by the computer graphics community back in the 90s, which gives an alternative representation of object 3D geometry from meshes and point clouds. On the other hand, current state-of-the-art (SoTA) differentiable renderers, Liu et al. (2019), use rasterization to collect triangles or points on each image pixel and blend them based on the viewing distance. In this paper, we propose VoGE, which utilizes the volumetric Gaussian reconstruction kernels as geometric primitives. The VoGE rendering pipeline uses ray tracing to capture the nearest primitives and blends them as mixtures based on their volume density distributions along the rays. To efficiently render via VoGE, we propose an approximate closeform solution for the volume density aggregation and a coarse-to-fine rendering strategy. Finally, we provide a CUDA implementation of VoGE, which enables real-time level rendering with a competitive rendering speed in comparison to PyTorch3D. Quantitative and qualitative experiment results show VoGE outperforms SoTA counterparts when applied to various vision tasks, e.g., object pose estimation, shape/texture fitting, and occlusion reasoning. The VoGE library and demos are available at: https://github.com/Angtian/VoGE. | 翻訳日:2024-01-31 01:20:24 公開日:2024-01-28 |
# コーンビームCT画像再構成に先立つ大視野画像の安定的最適化 Stable Optimization for Large Vision Model Based Deep Image Prior in Cone-Beam CT Reconstruction ( http://arxiv.org/abs/2203.12476v2 ) ライセンス: Link先を確認 | Minghui Wu, Yangdi Xu, Yingying Xu, Guangwei Wu, Qingqing Chen, Hongxiang Lin | (参考訳) 最近、LVM(Large Vision Model)は医療画像のタスクにおいて大きな可能性を示しており、訓練に大量のデータを必要とするにもかかわらず、スパースビューコーンビームCT(CBCT)の画像強調を可能にする可能性がある。
一方、Deep Image Prior(DIP)は、訓練されていないニューラルネットワークを効果的にガイドし、トレーニングデータなしで高品質のCBCT画像を生成する。
しかし、元のDIP法は、よく定義されたフォワードモデルと大容量バックボーンネットワークに依存しており、収束が難しいことが知られている。
本稿では,スパースビューCBCTのためのフォワードモデルフリーLVMベースDIPモデルの安定最適化手法を提案する。
提案手法は,(1)参照画像と出力画像の複数解像度における知覚特徴の類似性を測定するマルチスケール知覚損失(MSPL)と,(2)MSPLの反復軌道を安定化させる再重み付け機構からなる。
ワンショット最適化は、MSPLを安定的にリウェイトし、LVMを最適化するために使用される。
SPAREとWalnutの2つの公開データセットに対するアプローチを評価した。
その結果、画像品質メトリクスと視覚化の両方が大幅に改善され、ストレークアーティファクトの削減が示された。
ソースコードは要求に応じて入手できる。 Large Vision Model (LVM) has recently demonstrated great potential for medical imaging tasks, potentially enabling image enhancement for sparse-view Cone-Beam Computed Tomography (CBCT), despite requiring a substantial amount of data for training. Meanwhile, Deep Image Prior (DIP) effectively guides an untrained neural network to generate high-quality CBCT images without any training data. However, the original DIP method relies on a well-defined forward model and a large-capacity backbone network, which is notoriously difficult to converge. In this paper, we propose a stable optimization method for the forward-model-free, LVM-based DIP model for sparse-view CBCT. Our approach consists of two main characteristics: (1) multi-scale perceptual loss (MSPL) which measures the similarity of perceptual features between the reference and output images at multiple resolutions without the need for any forward model, and (2) a reweighting mechanism that stabilizes the iteration trajectory of MSPL. One shot optimization is used to simultaneously and stably reweight MSPL and optimize LVM. We evaluate our approach on two publicly available datasets: SPARE and Walnut. The results show significant improvements in both image quality metrics and visualization that demonstrates reduced streak artifacts. The source code is available upon request. | 翻訳日:2024-01-31 01:18:05 公開日:2024-01-28 |
# 事前学習言語モデルの地理的適応 Geographic Adaptation of Pretrained Language Models ( http://arxiv.org/abs/2203.08565v3 ) ライセンス: Link先を確認 | Valentin Hofmann, Goran Glava\v{s}, Nikola Ljube\v{s}i\'c, Janet B. Pierrehumbert, Hinrich Sch\"utze | (参考訳) 事前学習された言語モデル(plm)は、多くの言語知識を持っていることが示されているが、既存の研究は言語外知識をほとんど無視している。
ここでは,地理言語学的な知識,すなわち言語における地理的変動に関する知識を調べることにより,このギャップを解消する。
マルチタスク学習環境において,言語モデルと位置情報予測を結合する中間学習ステップであるgeoadaptationを導入する。
我々は,3つの地理的領域から言語群をカバーし,詳細な(教師なし)位置情報予測,ゼロショット(教師なし)位置情報予測,微調整言語識別,ゼロショット言語識別,方言特徴のゼロショット予測の5つのタスクで評価する。
ジオアダプテーション(Geoadaptation, ジオアダプテーション)は, 言語モデルのみを用いて適用したPLM(特にゼロショット予測タスク)を一貫して上回り, 位置情報予測と言語識別のための2つのベンチマークで新たな最先端結果を得る。
さらに, ジオアダプテーションの有効性は, PLMの表現空間を地理的に再現する能力に起因していることを示す。 While pretrained language models (PLMs) have been shown to possess a plethora of linguistic knowledge, the existing body of research has largely neglected extralinguistic knowledge, which is generally difficult to obtain by pretraining on text alone. Here, we contribute to closing this gap by examining geolinguistic knowledge, i.e., knowledge about geographic variation in language. We introduce geoadaptation, an intermediate training step that couples language modeling with geolocation prediction in a multi-task learning setup. We geoadapt four PLMs, covering language groups from three geographic areas, and evaluate them on five different tasks: fine-tuned (i.e., supervised) geolocation prediction, zero-shot (i.e., unsupervised) geolocation prediction, fine-tuned language identification, zero-shot language identification, and zero-shot prediction of dialect features. Geoadaptation is very successful at injecting geolinguistic knowledge into the PLMs: the geoadapted PLMs consistently outperform PLMs adapted using only language modeling (by especially wide margins on zero-shot prediction tasks), and we obtain new state-of-the-art results on two benchmarks for geolocation prediction and language identification. Furthermore, we show that the effectiveness of geoadaptation stems from its ability to geographically retrofit the representation space of the PLMs. | 翻訳日:2024-01-31 01:17:18 公開日:2024-01-28 |
# 遅延ディリクレ変分オートエンコーダを用いたハイパースペクトルレンズアンミキシング Hyperspectral Pixel Unmixing with Latent Dirichlet Variational Autoencoder ( http://arxiv.org/abs/2203.01327v4 ) ライセンス: Link先を確認 | Kiran Mantripragada and Faisal Z. Qureshi | (参考訳) ハイパースペクトル画素 {\it unmixing} の手法を提案する。
提案手法は,(1) 量の分布をディリクレ分布として符号化し,(2) のスペクトルを多変量正規分布として表現できると仮定する。
この方法は、ディリクレボトルネック層が存在量をモデル化する変分オートエンコーダ設定において、存在量推定とエンドメンバー抽出の問題を解決し、デコーダがエンドメンバー抽出を行う。
提案手法は,1つ以上の参加者の線形結合である画素を含む合成データに対してのみモデルを訓練するトランスファーラーニングパラダイムを利用することができる。
この場合、アメリカ地質調査所のスペクトルライブラリーからエンドメンバー(spectra)を検索する。
このように訓練されたモデルは、その後、合成データを生成するために使用されるエンドメンバーのサブセットを含む「実データ」のピクセルアンミックスを実行するために使うことができる。
このモデルは、いくつかのベンチマーク(Cuprite、Urban Hydice、Samson)で最先端の結果を得る。
また,ハイパースペクトル画素アンミックス法の研究に使用できる新しい合成データセットontech-hsi-syn-21を提案する。
提案するモデルの転送学習能力を,CuupriteとOnTech-HSI-Syn-21データセットで示す。
要約すると, 農業, 林業, 鉱物学, 材料分析, 医療など, 様々な分野の画素を解き放つために, 提案手法を適用することができる。
さらに,「現実」データに存在するエンドメンバーを用いて生成した合成データに基づいてモデルをトレーニングするトランスファー学習パラダイムを活用することで,学習のためのラベル付きデータの必要性を緩和する。 We present a method for hyperspectral pixel {\it unmixing}. The proposed method assumes that (1) {\it abundances} can be encoded as Dirichlet distributions and (2) spectra of {\it endmembers} can be represented as multivariate Normal distributions. The method solves the problem of abundance estimation and endmember extraction within a variational autoencoder setting where a Dirichlet bottleneck layer models the abundances, and the decoder performs endmember extraction. The proposed method can also leverage transfer learning paradigm, where the model is only trained on synthetic data containing pixels that are linear combinations of one or more endmembers of interest. In this case, we retrieve endmembers (spectra) from the United States Geological Survey Spectral Library. The model thus trained can be subsequently used to perform pixel unmixing on "real data" that contains a subset of the endmembers used to generated the synthetic data. The model achieves state-of-the-art results on several benchmarks: Cuprite, Urban Hydice and Samson. We also present new synthetic dataset, OnTech-HSI-Syn-21, that can be used to study hyperspectral pixel unmixing methods. We showcase the transfer learning capabilities of the proposed model on Cuprite and OnTech-HSI-Syn-21 datasets. In summary, the proposed method can be applied for pixel unmixing a variety of domains, including agriculture, forestry, mineralogy, analysis of materials, healthcare, etc. Additionally, the proposed method eschews the need for labelled data for training by leveraging the transfer learning paradigm, where the model is trained on synthetic data generated using the endmembers present in the "real" data. | 翻訳日:2024-01-31 01:16:53 公開日:2024-01-28 |
# 最適化適応重要サンプラーのグローバル収束 Global convergence of optimized adaptive importance samplers ( http://arxiv.org/abs/2201.00409v2 ) ライセンス: Link先を確認 | \"Omer Deniz Akyildiz | (参考訳) 一般提案とモンテカルロ統合を行うために最適化された適応的重要サンプラー(oais)を解析した。
そこで,本研究では,提案手法と目標値と提案値との間の$\chi^2$-divergenceを用いて,サンプリング重要度の平均二乗誤差(mse)とバイアスをスケールし,$\chi^2$-divergenceのグローバル最適化を行うスキームを開発した。
この量が指数関数的家族提案の凸であることは知られているが、一般提案のケースは公然とした問題である。
確率勾配ランゲヴィン力学(SGLD)の漸近境界を$\chi^2$-divergence の大域最適化に利用し、非凸最適化文献の最近の結果を利用して MSE の漸近境界を導出することにより、このギャップを埋める。
結果のAISスキームは、一様時間である明確な理論的保証を有する。 We analyze the optimized adaptive importance sampler (OAIS) for performing Monte Carlo integration with general proposals. We leverage a classical result which shows that the bias and the mean-squared error (MSE) of the importance sampling scales with the $\chi^2$-divergence between the target and the proposal and develop a scheme which performs global optimization of $\chi^2$-divergence. While it is known that this quantity is convex for exponential family proposals, the case of the general proposals has been an open problem. We close this gap by utilizing the nonasymptotic bounds for stochastic gradient Langevin dynamics (SGLD) for the global optimization of $\chi^2$-divergence and derive nonasymptotic bounds for the MSE by leveraging recent results from non-convex optimization literature. The resulting AIS schemes have explicit theoretical guarantees that are uniform-in-time. | 翻訳日:2024-01-31 01:15:03 公開日:2024-01-28 |
# プロポルトイド Proportoids ( http://arxiv.org/abs/2210.01751v6 ) ライセンス: Link先を確認 | Christian Anti\'c | (参考訳) 類比は、類比推論の核となる「$a$ is to $b$ what $c$ is to $d$''」の形の表現である。
本稿では,20年前Yves Lepageによって始められた,公理的伝統における類比の数学的基礎に寄与する。
このために、プロポルトイドを 4-項の類似比例関係 $a:b::c:d$ を満たす集合として導入し、異なる種類の比例保存写像とそれらの性質を研究する。 Analogical proportions are expressions of the form ``$a$ is to $b$ what $c$ is to $d$'' at the core of analogical reasoning. This paper contributes to the mathematical foundations of analogical proportions in the axiomatic tradition as initiated by Yves Lepage two decades ago. For this we introduce proportoids as sets endowed with a 4-ary analogical proportion relation $a:b::c:d$ satisfying a suitable set of axioms and study different kinds of proportion-preserving mappings and relations and their properties. | 翻訳日:2024-01-31 01:06:27 公開日:2024-01-28 |
# DiSCoMaT: 材料科学論文における表からの遠隔監視合成抽出 DiSCoMaT: Distantly Supervised Composition Extraction from Tables in Materials Science Articles ( http://arxiv.org/abs/2207.01079v4 ) ライセンス: Link先を確認 | Tanishq Gupta, Mohd Zaki, Devanshi Khatsuriya, Kausik Hira, N. M. Anoop Krishnan, Mausam | (参考訳) 科学分野(例えば、材料科学、食品、栄養学、燃料)のkbのキュレーションにおいて重要な要素は、同分野が発表した研究論文の表からの情報抽出である。
この方向の研究を容易にするために、材料科学論文の表から材料の組成(例えば、ガラス)を抽出するnlpタスクを新たに定義する。
例えば、構成に言及する表は、非常に多様な構造を持ち、字幕や全紙のテキストは、表のデータとともに組み込まれなければならない、数字、化学化合物、合成表現の正規言語は、モデルに組み込まれなければならない。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
また、複数のグラフニューラルネットワークと複数のタスク固有の正規表現、特徴、制約を組み合わせた、強力なベースラインディスコマットも提示する。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。 A crucial component in the curation of KB for a scientific domain (e.g., materials science, foods & nutrition, fuels) is information extraction from tables in the domain's published research articles. To facilitate research in this direction, we define a novel NLP task of extracting compositions of materials (e.g., glasses) from tables in materials science papers. The task involves solving several challenges in concert, such as tables that mention compositions have highly varying structures; text in captions and full paper needs to be incorporated along with data in tables; and regular languages for numbers, chemical compounds and composition expressions must be integrated into the model. We release a training dataset comprising 4,408 distantly supervised tables, along with 1,475 manually annotated dev and test tables. We also present a strong baseline DISCOMAT, that combines multiple graph neural networks with several task-specific regular expressions, features, and constraints. We show that DISCOMAT outperforms recent table processing architectures by significant margins. | 翻訳日:2024-01-31 01:03:26 公開日:2024-01-28 |
# 適応型ロボットと人間表現 Aligning Robot and Human Representations ( http://arxiv.org/abs/2302.01928v2 ) ライセンス: Link先を確認 | Andreea Bobu, Andi Peng, Pulkit Agrawal, Julie Shah, Anca D. Dragan | (参考訳) 例えば、コーヒーマグカップを運ぶ場合、ロボットはその動作において移動効率やマグの向きを考えることができる。
しかし、もしロボットに人々のために行動させたいなら、その表現は単なる機能的なものではなく、人間の関心を反映したものでなければならない。
現在の学習アプローチは、ロボットが学習した表現が人間の表現を捉えないような、表現の不一致に苦しむのを観察する。
我々は,人間はロボット性能の究極的な評価者であるため,下流の課題の学習に加えて,学習した表現と人間との整合性を重視しなければならないことを示唆する。
ロボット工学における現在の表現学習アプローチは、表現アライメントの目的がいかにうまく達成されているかの観点から研究されるべきである。
我々は、問題を数学的に定義し、その鍵デシデラタを特定し、この形式の中に現在の方法を導入する。
オープンな課題を探求するための今後の方向性を提案して結論付けます。 To act in the world, robots rely on a representation of salient task aspects: for example, to carry a coffee mug, a robot may consider movement efficiency or mug orientation in its behavior. However, if we want robots to act for and with people, their representations must not be just functional but also reflective of what humans care about, i.e. they must be aligned. We observe that current learning approaches suffer from representation misalignment, where the robot's learned representation does not capture the human's representation. We suggest that because humans are the ultimate evaluator of robot performance, we must explicitly focus our efforts on aligning learned representations with humans, in addition to learning the downstream task. We advocate that current representation learning approaches in robotics should be studied from the perspective of how well they accomplish the objective of representation alignment. We mathematically define the problem, identify its key desiderata, and situate current methods within this formalism. We conclude by suggesting future directions for exploring open challenges. | 翻訳日:2024-01-31 00:55:33 公開日:2024-01-28 |
# im-iad:工業用画像異常検出ベンチマーク IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing ( http://arxiv.org/abs/2301.13359v5 ) ライセンス: Link先を確認 | Guoyang Xie, Jinbao Wang, Jiaqi Liu, Jiayi Lyu, Yong Liu, Chengjie Wang, Feng Zheng, Yaochu Jin | (参考訳) 画像異常検出(英: Image Anomaly Detection, IAD)は、産業生産におけるコンピュータビジョンの課題である。
近年、多くの高度なアルゴリズムが報告されているが、その性能は様々なIM設定でかなり低下している。
IMベンチマークの統一が欠如していることは、実世界のアプリケーションにおけるIDAメソッドの開発と利用を妨げることを認識している。
さらに,一様ベンチマークを使わずにIADアルゴリズムを解析することは困難である。
この問題を解決するために,本研究では,様々なレベルの監視(教師なしと教師なし),学習パラダイム(ショットショット,連続ラベル,ノイズラベル),効率(メモリ使用量と推論速度)を含む,アルゴリズムの性能を評価するための一様imベンチマークを提案する。
次に,一様設定の7つの主要データセット上の19のアルゴリズムを含む総合的画像異常検出ベンチマーク(im-iad)を構築する。
IM-IADに関する大規模な実験(17,017件)は、IADアルゴリズムの再設計や選択に関する詳細な洞察を提供する。
さらに、IM-IADベンチマークは既存のアルゴリズムに挑戦し、今後の研究方向性を提案する。
再現性とアクセシビリティを向上させるため、IM-IADのソースコードはhttps://github.com/M-3LAB/IM-IAD.comにアップロードされる。 Image anomaly detection (IAD) is an emerging and vital computer vision task in industrial manufacturing (IM). Recently, many advanced algorithms have been reported, but their performance deviates considerably with various IM settings. We realize that the lack of a uniform IM benchmark is hindering the development and usage of IAD methods in real-world applications. In addition, it is difficult for researchers to analyze IAD algorithms without a uniform benchmark. To solve this problem, we propose a uniform IM benchmark, for the first time, to assess how well these algorithms perform, which includes various levels of supervision (unsupervised versus fully supervised), learning paradigms (few-shot, continual and noisy label), and efficiency (memory usage and inference speed). Then, we construct a comprehensive image anomaly detection benchmark (IM-IAD), which includes 19 algorithms on seven major datasets with a uniform setting. Extensive experiments (17,017 total) on IM-IAD provide in-depth insights into IAD algorithm redesign or selection. Moreover, the proposed IM-IAD benchmark challenges existing algorithms and suggests future research directions. To foster reproducibility and accessibility, the source code of IM-IAD is uploaded on the website, https://github.com/M-3LAB/IM-IAD. | 翻訳日:2024-01-31 00:55:16 公開日:2024-01-28 |
# CI-GNN:脳ネットワークに基づく精神診断のためのグランガー因果グラフニューラルネットワーク CI-GNN: A Granger Causality-Inspired Graph Neural Network for Interpretable Brain Network-Based Psychiatric Diagnosis ( http://arxiv.org/abs/2301.01642v3 ) ライセンス: Link先を確認 | Kaizhong Zheng, Shujian Yu, Badong Chen | (参考訳) 近年、脳ネットワークに基づく精神医学診断にグラフニューラルネットワーク(GNN)のパワーを活用する傾向があり、これはまた、使用済みのGNNの決定行動を完全に理解するために精神科医が緊急に必要であることを意味している。
しかしながら、既存のgnn説明者は、十分に訓練されたgnnを説明するために別の解釈モデルを作成する必要があるポストホックであるか、抽出された説明と決定との因果関係を考慮していないため、説明自体がスプリアス相関を含み、弱い忠実さに苦しむ。
本研究では,その決定に因果関係のある最も影響力のある部分グラフ(例えば,大うつ病患者や健常なコントロールなど)を,補助的解釈ネットワークの訓練なしで識別可能な,組み込みの解釈モデルであるgranger causality-inspired graph neural network(ci-gnn)を提案する。
CI-GNNは、それぞれ、条件付き相互情報(CMI)制約によって正規化されたグラフ変動オートエンコーダフレームワークの下で、元のグラフの因果的側面と非因果的側面をエンコードする非絡み合った部分グラフレベルの表現 {\alpha} と \b{eta} を学習する。
因果関係の把握におけるCMI規制の有効性を理論的に正当化する。
また,3つのベースラインGNNと4つの最先端GNNの合成データと3つの大規模脳疾患データセットに対するCI-GNNの性能を実証的に評価した。
CI-GNNのソースコードと実装の詳細はGitHubリポジトリで無償公開されている(https://github.com/ZKZ-Brain/CI-GNN/)。 There is a recent trend to leverage the power of graph neural networks (GNNs) for brain-network based psychiatric diagnosis, which,in turn, also motivates an urgent need for psychiatrists to fully understand the decision behavior of the used GNNs. However, most of the existing GNN explainers are either post-hoc in which another interpretive model needs to be created to explain a well-trained GNN, or do not consider the causal relationship between the extracted explanation and the decision, such that the explanation itself contains spurious correlations and suffers from weak faithfulness. In this work, we propose a granger causality-inspired graph neural network (CI-GNN), a built-in interpretable model that is able to identify the most influential subgraph (i.e., functional connectivity within brain regions) that is causally related to the decision (e.g., major depressive disorder patients or healthy controls), without the training of an auxillary interpretive network. CI-GNN learns disentangled subgraph-level representations {\alpha} and \b{eta} that encode, respectively, the causal and noncausal aspects of original graph under a graph variational autoencoder framework, regularized by a conditional mutual information (CMI) constraint. We theoretically justify the validity of the CMI regulation in capturing the causal relationship. We also empirically evaluate the performance of CI-GNN against three baseline GNNs and four state-of-the-art GNN explainers on synthetic data and three large-scale brain disease datasets. We observe that CI-GNN achieves the best performance in a wide range of metrics and provides more reliable and concise explanations which have clinical evidence.The source code and implementation details of CI-GNN are freely available at GitHub repository (https://github.com/ZKZ-Brain/CI-GNN/). | 翻訳日:2024-01-31 00:53:42 公開日:2024-01-28 |
# 不均一応答を伴う回帰における強識別性とパラメータ学習 Strong identifiability and parameter learning in regression with heterogeneous response ( http://arxiv.org/abs/2212.04091v2 ) ライセンス: Link先を確認 | Dat Do, Linh Do, XuanLong Nguyen | (参考訳) 回帰の混合は、非常に不確実で不均一な反応変数に対する回帰学習のための強力なモデルのクラスである。
このモデルクラスのパラメータは、いくつかの共変数が与えられた場合の応答のリッチな予測モデルであるだけでなく、データ集団の不均一性に関する有用な情報も提供します。
本稿では,厳密かつ過適合な条件下での回帰モデルの有限混合モデルにおいて生じる,強識別可能性,条件密度およびパラメータ推定の収束率,ベイズ後方収縮挙動の条件について検討する。
この理論は、関係関数の共通選択や、実践者が採用する条件分布の族に適用できる。
本稿では,本論文で報告されているいくつかの一般的な回帰混合モデルに見られるパラメータ学習行動について,シミュレーション研究とデータ図解を提供する。 Mixtures of regression are a powerful class of models for regression learning with respect to a highly uncertain and heterogeneous response variable of interest. In addition to being a rich predictive model for the response given some covariates, the parameters in this model class provide useful information about the heterogeneity in the data population, which is represented by the conditional distributions for the response given the covariates associated with a number of distinct but latent subpopulations. In this paper, we investigate conditions of strong identifiability, rates of convergence for conditional density and parameter estimation, and the Bayesian posterior contraction behavior arising in finite mixture of regression models, under exact-fitted and over-fitted settings and when the number of components is unknown. This theory is applicable to common choices of link functions and families of conditional distributions employed by practitioners. We provide simulation studies and data illustrations, which shed some light on the parameter learning behavior found in several popular regression mixture models reported in the literature. | 翻訳日:2024-01-31 00:53:04 公開日:2024-01-28 |
# 量子カオスと時間の矢印 Quantum chaos and the arrow of time ( http://arxiv.org/abs/2212.03914v7 ) ライセンス: Link先を確認 | Nilakash Sorokhaibam | (参考訳) 古典物理学は、熱力学の第2法則の形で時間の矢印を与える。
しかし、時空の矢印の量子的起源の明確な写真は今のところ不足している。
本文では,量子カオス系において時間矢印が発生することを示す。
カオス的でもある孤立量子系では、系が摂動するとエントロピーの変化は非負であることが示されている。
このことは、固有状態熱化仮説(ETH)における対角線外項に新たな深い制約をもたらすことを示す。
可積分系の場合、第二法則は有限摂動の後に一般化されたギブスアンサンブルに熱化しないため、真ではない。 Classical physics provides an arrow of time in the form of the second law of thermodynamics. But a clear picture of the quantum origin of the arrow of time has been lacking so far. In this letter, we show that an arrow of time arises in quantum chaotic systems. We show that, for an isolated quantum system which is also chaotic, the change in entropy is non-negative when the system is perturbed. We show that this gives rise to a new profound constraint on the off-diagonal terms in eigenstate thermalization hypothesis (ETH) statement. In case of an integrable system, the second law does not hold true because the system does not thermalize to a generalized Gibbs ensemble after a finite perturbation. | 翻訳日:2024-01-31 00:52:47 公開日:2024-01-28 |
# プロキシ変数を用いた因果効果の部分的同定 Partial Identification of Causal Effects Using Proxy Variables ( http://arxiv.org/abs/2304.04374v3 ) ライセンス: Link先を確認 | AmirEmad Ghassami, Ilya Shpitser, Eric Tchetgen Tchetgen | (参考訳) 近位因果推論は,非測定的共起の存在下での因果効果を評価するためのフレームワークとして最近提案されている。
因果効果のポイント同定には、いわゆる治療と結果共起プロキシ変数を用いて、隠れた要因に対する潜在的な結果や治療変数の依存性と、観察されたプロキシの対応する機能とを一致させるブリッジ関数を識別する。
ブリッジ関数による因果効果の特異な同定は、以前は完全性条件として定式化された要件である隠蔽因子にプロキシが十分関連していることを要求する。
しかし、完全性は経験的にテストできないことがよく知られており、ブリッジ関数は明確に定義されているかもしれないが、単一のタイプのプロキシが利用可能であることによって表される完全性不足は、ブリッジ関数の識別の可能性を著しく制限し、因果効果をもたらす可能性がある。
本稿では,完全性を必要としない部分同定法を提案し,橋梁関数の同定の必要性を解消する。
すなわち,橋梁機能やそれに対応する因果効果の識別に十分な情報がない場合でも,観察されていない共同創設者のプロキシを利用して結果に対する治療の因果効果の境界を得ることができる。
我々の境界は観測データ分布の非スムース汎関数である。
その結果、推論の文脈では、最初は境界の滑らかな近似を提供する。
その後、近似境界におけるブートストラップ信頼区間を利用する。
さらに,類似した部分的識別結果を,プロキシが利用可能な隠れメディエータに限定した関連設定で確立する。 Proximal causal inference is a recently proposed framework for evaluating causal effects in the presence of unmeasured confounding. For point identification of causal effects, it leverages a pair of so-called treatment and outcome confounding proxy variables, to identify a bridge function that matches the dependence of potential outcomes or treatment variables on the hidden factors to corresponding functions of observed proxies. Unique identification of a causal effect via a bridge function crucially requires that proxies are sufficiently relevant for hidden factors, a requirement that has previously been formalized as a completeness condition. However, completeness is well-known not to be empirically testable, and although a bridge function may be well-defined, lack of completeness, sometimes manifested by availability of a single type of proxy, may severely limit prospects for identification of a bridge function and thus a causal effect; therefore, potentially restricting the application of the proximal causal framework. In this paper, we propose partial identification methods that do not require completeness and obviate the need for identification of a bridge function. That is, we establish that proxies of unobserved confounders can be leveraged to obtain bounds on the causal effect of the treatment on the outcome even if available information does not suffice to identify either a bridge function or a corresponding causal effect of interest. Our bounds are non-smooth functionals of the observed data distribution. As a consequence, in the context of inference, we initially provide a smooth approximation of our bounds. Subsequently, we leverage bootstrap confidence intervals on the approximated bounds. We further establish analogous partial identification results in related settings where identification hinges upon hidden mediators for which proxies are available. | 翻訳日:2024-01-30 23:09:39 公開日:2024-01-28 |
# 平行拡散モデルに基づくスパースビューコーンビーム乳房CT Parallel Diffusion Model-based Sparse-view Cone-beam Breast CT ( http://arxiv.org/abs/2303.12861v3 ) ライセンス: Link先を確認 | Wenjun Xia, Hsin Wu Tseng, Chuang Niu, Wenxiang Cong, Xiaohua Zhang, Shaohua Liu, Ruola Ning, Srinivasan Vedantham, Ge Wang | (参考訳) 乳がんは世界でもっとも一般的ながんであり、早期発見はその死亡率の低下と生活の質の改善に不可欠である。
乳房CT(dedicated breast Computed tomography)スキャナーは、マンモグラフィーやトモシンセシスより画質が良いが、放射線線量が高い。
がん検診のための胸部CTを可能にするためには、ALARAの原則によれば、画像の品質を損なうことなく、放射線線量を最小限に抑えることが課題だ。
近年,低用量CT,特に軽度CTなど,様々なタスクにおいてディープラーニングが顕著に成功している。
現在, 拡散モデルではCT再建技術の現状が示されている。
拡散モデルを用いた胸部CT再構成法を開発するために,胸部コーンビームCT再構成における大きな記憶要件と拡散モデルの計算コストに対処する革新について報告する。
具体的には,画像領域とプロジェクション領域におけるサブボリュームベーススパースビュー乳房ct画像再構成のための並列フレームワークとしてddpm(cutting-edge denoising diffusion probabilistic model)を変換した。
この新しいアプローチは、プロジェクションとイメージデータを二重領域で相乗的に処理する2つの異なるDDPMモデルの同時トレーニングを含む。
実験により, 本手法は, 標準放射線線量の半分から3分の1の競争再建性能を実現することを明らかにした。
この進歩は、高分解能の高分解能乳房再建のための拡散型モデルのエキサイティングな可能性を示し、望ましくは乳癌検診と診断を再定義する。 Breast cancer is the most prevalent cancer among women worldwide, and early detection is crucial for reducing its mortality rate and improving quality of life. Dedicated breast computed tomography (CT) scanners offer better image quality than mammography and tomosynthesis in general but at higher radiation dose. To enable breast CT for cancer screening, the challenge is to minimize the radiation dose without compromising image quality, according to the ALARA principle (as low as reasonably achievable). Over the past years, deep learning has shown remarkable successes in various tasks, including low-dose CT especially few-view CT. Currently, the diffusion model presents the state of the art for CT reconstruction. To develop the first diffusion model-based breast CT reconstruction method, here we report innovations to address the large memory requirement for breast cone-beam CT reconstruction and high computational cost of the diffusion model. Specifically, in this study we transform the cutting-edge Denoising Diffusion Probabilistic Model (DDPM) into a parallel framework for sub-volume-based sparse-view breast CT image reconstruction in projection and image domains. This novel approach involves the concurrent training of two distinct DDPM models dedicated to processing projection and image data synergistically in the dual domains. Our experimental findings reveal that this method delivers competitive reconstruction performance at half to one-third of the standard radiation doses. This advancement demonstrates an exciting potential of diffusion-type models for volumetric breast reconstruction at high-resolution with much-reduced radiation dose and as such hopefully redefines breast cancer screening and diagnosis. | 翻訳日:2024-01-30 23:06:31 公開日:2024-01-28 |
# 類似性 Similarity ( http://arxiv.org/abs/2302.10096v5 ) ライセンス: Link先を確認 | Christian Anti\'c | (参考訳) 一見遠く離れた物体間の類似点の検出と利用は、間違いなく重要な人間の能力である。
本稿では、要素の重要な性質を一般化の集合がエンコードする観察に基づいて、抽象代数的および定性的正当化に基づく類似性の概念である「textit{from the ground up」を開発する。
このように定義される類似性は数学的性質に訴える。
普遍代数学の基本的な概念のみを用いて第一原理から類似性の概念を構築し、その妥当性を読者に納得させることで、モデル理論型を通して自然に一階論理に組み込むことができることを示す。 Detecting and exploiting similarities between seemingly distant objects is without doubt an important human ability. This paper develops \textit{from the ground up} an abstract algebraic and qualitative justification-based notion of similarity based on the observation that sets of generalizations encode important properties of elements. We show that similarity defined in this way has appealing mathematical properties. As we construct our notion of similarity from first principles using only elementary concepts of universal algebra, to convince the reader of its plausibility, we show that it can be naturally embedded into first-order logic via model-theoretic types. | 翻訳日:2024-01-30 23:04:50 公開日:2024-01-28 |
# 一般グラフ上の自己反発ランダムウォーク --非線形マルコフ連鎖による最小サンプリング変動の実現 Self-Repellent Random Walks on General Graphs -- Achieving Minimal Sampling Variance via Nonlinear Markov Chains ( http://arxiv.org/abs/2305.05097v3 ) ライセンス: Link先を確認 | Vishwaraj Doshi, Jie Hu and Do Young Eun | (参考訳) 一般非向グラフのような離散状態空間上のランダムウォークを考えると、ランダムウォーカーはマルコフ連鎖モンテカルロ (mcmc) 手順の形でサンプリングと近傍探索を通じてネットワークトポロジー上の対象量を近似するように設計されている。
目的とする確率分布に対応するマルコフ連鎖が与えられた場合、過去に頻繁に訪れたノードに遷移する可能性が低く、滅多に訪れないノードに遷移する可能性が低い自己反発ランダムウォーク(SRRW)を設計する。
正の実 {\alpha} でパラメータ化された SRRW のクラスに対して、過程の経験的分布は、基礎となるマルコフ連鎖核の標的(定常的)分布にほぼ確実に収束することを示す。
すると、中心極限定理を提供し、生成する漸近共分散行列の正確な形を導出し、より強い忌避性を持つsrrw( larger {\alpha})が常により小さい漸近共分散(英語版)(loewner order of co-variance matrice)となることを示すことができる。
特に、SRRW駆動のMCMCアルゴリズムでは、漸近サンプリング分散の減少はO(1/{\alpha})の次数であり、最終的には0となる。
最後に, 理論結果に補完する数値シミュレーションを行い, srrwのバージョンと時間とともに増加する {\alpha} を実験的に実験し, より大きな {\alpha} による漸近的分散の利点と, より小さな {\alpha} を持つsrrwのより高速な混合特性を経験的に観測した。 We consider random walks on discrete state spaces, such as general undirected graphs, where the random walkers are designed to approximate a target quantity over the network topology via sampling and neighborhood exploration in the form of Markov chain Monte Carlo (MCMC) procedures. Given any Markov chain corresponding to a target probability distribution, we design a self-repellent random walk (SRRW) which is less likely to transition to nodes that were highly visited in the past, and more likely to transition to seldom visited nodes. For a class of SRRWs parameterized by a positive real {\alpha}, we prove that the empirical distribution of the process converges almost surely to the the target (stationary) distribution of the underlying Markov chain kernel. We then provide a central limit theorem and derive the exact form of the arising asymptotic co-variance matrix, which allows us to show that the SRRW with a stronger repellence (larger {\alpha}) always achieves a smaller asymptotic covariance, in the sense of Loewner ordering of co-variance matrices. Especially for SRRW-driven MCMC algorithms, we show that the decrease in the asymptotic sampling variance is of the order O(1/{\alpha}), eventually going down to zero. Finally, we provide numerical simulations complimentary to our theoretical results, also empirically testing a version of SRRW with {\alpha} increasing in time to combine the benefits of smaller asymptotic variance due to large {\alpha}, with empirically observed faster mixing properties of SRRW with smaller {\alpha}. | 翻訳日:2024-01-30 22:57:06 公開日:2024-01-28 |
# 可能な政策イテレーション Feasible Policy Iteration ( http://arxiv.org/abs/2304.08845v2 ) ライセンス: Link先を確認 | Yujie Yang, Zhilong Zheng, Shengbo Eben Li, Jingliang Duan, Jingjing Liu, Xianyuan Zhan, Ya-Qin Zhang | (参考訳) 安全強化学習(RL)は、制約付き最適制御問題(OCP)において最適方針とその実現可能な領域を見つけることを目的としている。
実現可能性と最適性を同時に確保することが大きな課題である。
既存の方法は、制約された最適化アルゴリズムでOCPを直接解決しようとするか、不安定なトレーニングプロセスと満足できない実現可能性をもたらすか、過度に小さな実行可能領域のポリシーを制限するかのいずれかで、過度の保守性を犠牲にして最適性を犠牲にする。
この課題に対処するため,本論文では,実現可能な領域が単調に拡張して最大値に収束し,状態値関数が単調に改善し,最適値に収束することを保証する,ファシブルポリシー反復と呼ばれる間接安全RLフレームワークを提案する。
我々は、実現可能領域内の制約減衰関数(cdf)の制約の下で状態値関数を最大化し、実行可能領域外のcdfを同時に最小化する、領域毎のポリシー改善というポリシー更新原則を考案する。
この更新方式により、状態値関数は実現可能な領域における状態ワイドを単調に増加させ、CDFは状態空間全体の状態ワイドを単調に減少させる。
我々はCDFが危険ベルマン方程式の解に収束するのに対し、状態値関数は実現可能なベルマン方程式の解に収束することを示す。
前者は最大実現可能な領域を表し、後者は最適状態値関数を示す。
実験の結果,従来の制御タスクにおいて,精度の高い領域で,安全でほぼ最適なポリシを学習できることが確認された。
また、Safety Gymのベースライン(あるいは同等の)よりもパフォーマンスが向上した制約違反も少ない。 Safe reinforcement learning (RL) aims to find the optimal policy and its feasible region in a constrained optimal control problem (OCP). Ensuring feasibility and optimality simultaneously has been a major challenge. Existing methods either attempt to solve OCPs directly with constrained optimization algorithms, leading to unstable training processes and unsatisfactory feasibility, or restrict policies in overly small feasible regions, resulting in excessive conservativeness with sacrificed optimality. To address this challenge, we propose an indirect safe RL framework called feasible policy iteration, which guarantees that the feasible region monotonically expands and converges to the maximum one, and the state-value function monotonically improves and converges to the optimal one. We achieve this by designing a policy update principle called region-wise policy improvement, which maximizes the state-value function under the constraint of the constraint decay function (CDF) inside the feasible region and minimizes the CDF outside the feasible region simultaneously. This update scheme ensures that the state-value function monotonically increases state-wise in the feasible region and the CDF monotonically decreases state-wise in the entire state space. We prove that the CDF converges to the solution of the risky Bellman equation while the state-value function converges to the solution of the feasible Bellman equation. The former represents the maximum feasible region and the latter manifests the optimal state-value function. Experiments show that our algorithm learns strictly safe and near-optimal policies with accurate feasible regions on classic control tasks. It also achieves fewer constraint violations with performance better than (or comparable to) baselines on Safety Gym. | 翻訳日:2024-01-30 22:53:19 公開日:2024-01-28 |
# マスキング言語モデルに基づくテキスト逆例検出 Masked Language Model Based Textual Adversarial Example Detection ( http://arxiv.org/abs/2304.08767v3 ) ライセンス: Link先を確認 | Xiaomei Zhang, Zhaoxi Zhang, Qi Zhong, Xufei Zheng, Yanjun Zhang, Shengshan Hu, Leo Yu Zhang | (参考訳) 敵攻撃は、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。
入力をわずかに修正することで、電流モデルを誤って予測することができる。
近年、多くの研究が、逆例は通常の例のデータ多様体から逸脱する傾向を示し、一方、事前学習されたマスキング言語モデルは通常のNLPデータの多様体に適合することを示した。
マスク付き言語モデルを用いた対向検出手法を提案するために,マスク付き言語モデルによって誘導される多様体の変化を探索することにより,正規例と対向例とを明確に区別可能な信号を生成できる,新しいテキスト対向的サンプル検出手法であるMasked Language Model-based Detection (MLMD)を提案する。
MLMDは、敵防衛のためのプラグ・アンド・プレイの使用法(すなわち、犠牲者モデルを再訓練する必要がない)を備えており、分類タスク、犠牲者モデルのアーキテクチャ、そして防御された攻撃方法には依存しない。
我々は、様々なベンチマークテキストデータセット、広く研究された機械学習モデル、および最先端(sota)敵対的攻撃(合計3*4*4 = 48$設定)でmlmdを評価する。
実験の結果, MLMDはAG-NEWS, IMDB, SST-2データセット上で, 0.984, 0.967, 0.901の検出精度で高い性能が得られることがわかった。
さらに、MLMDは、検出精度およびF1スコアにおけるSOTA検出防御よりも優れているか、少なくとも同等である。
逆例のオフマンフォールドの仮定に基づく多くの防衛の中で、この研究は多様体の変化を捉えるための新しい角度を提供する。
この作業のコードは \url{https://github.com/mlmddetection/mlmddetection} で公開されている。 Adversarial attacks are a serious threat to the reliable deployment of machine learning models in safety-critical applications. They can misguide current models to predict incorrectly by slightly modifying the inputs. Recently, substantial work has shown that adversarial examples tend to deviate from the underlying data manifold of normal examples, whereas pre-trained masked language models can fit the manifold of normal NLP data. To explore how to use the masked language model in adversarial detection, we propose a novel textual adversarial example detection method, namely Masked Language Model-based Detection (MLMD), which can produce clearly distinguishable signals between normal examples and adversarial examples by exploring the changes in manifolds induced by the masked language model. MLMD features a plug and play usage (i.e., no need to retrain the victim model) for adversarial defense and it is agnostic to classification tasks, victim model's architectures, and to-be-defended attack methods. We evaluate MLMD on various benchmark textual datasets, widely studied machine learning models, and state-of-the-art (SOTA) adversarial attacks (in total $3*4*4 = 48$ settings). Experimental results show that MLMD can achieve strong performance, with detection accuracy up to 0.984, 0.967, and 0.901 on AG-NEWS, IMDB, and SST-2 datasets, respectively. Additionally, MLMD is superior, or at least comparable to, the SOTA detection defenses in detection accuracy and F1 score. Among many defenses based on the off-manifold assumption of adversarial examples, this work offers a new angle for capturing the manifold change. The code for this work is openly accessible at \url{https://github.com/mlmddetection/MLMDdetection}. | 翻訳日:2024-01-30 22:52:48 公開日:2024-01-28 |
# ai言語病理学者の台頭: スライド画像分類における二段階学習の検討 The Rise of AI Language Pathologists: Exploring Two-level Prompt Learning for Few-shot Weakly-supervised Whole Slide Image Classification ( http://arxiv.org/abs/2305.17891v2 ) ライセンス: Link先を確認 | Linhao Qu, Xiaoyuan Luo, Kexue Fu, Manning Wang, Zhijian Song | (参考訳) 本稿では,FSWCと表記される病的全スライド画像(WSI)分類における弱教師あり学習の概念を紹介する。
大規模言語モデルであるGPT-4の即時学習と活用に基づく解を提案する。
WSIはサイズが大きすぎて処理用のパッチに分割する必要があるため、WSI分類は一般的に多重インスタンス学習(MIL)問題としてアプローチされる。
この文脈では、各wsiはバッグと見なされ、得られたパッチはインスタンスとして扱われる。
FSWCの目的は、バッグとインスタンスの両方を限られた数のラベル付きバッグで分類することである。
従来の数発の学習問題とは異なり、FSWCはMILフレームワーク内のバッグラベルが弱いため、さらなる課題を提起している。
下流部における視覚言語モデル(v-lモデル)の最近の成果から着想を得て,言語先行知識を取り入れ,病理学に適した2段階のプロンプトラーニングミルフレームワークを提案する。
具体的には、CLIPを利用して各パッチのインスタンス機能を抽出し、これらのインスタンス機能をバッグ機能に集約するプロンプト誘導プーリング戦略を導入します。
その後,少数のラベル付きバッグを用いて,バッグの特徴に基づく数発のプロンプト学習を行う。
提案手法では,GPT-4を質問応答モードで活用し,インスタンスレベルとバッグレベルの両方で言語事前知識を取得し,インスタンスレベルとバッグレベルの言語プロンプトに統合する。
さらに、言語プロンプトの学習可能なコンポーネントは、利用可能な数少ないラベル付きデータを使用してトレーニングされる。
乳がん,肺癌,頸部癌を含む3つのWSIデータセットについて広範な実験を行い,バッグおよび事例分類における提案手法の顕著な性能を示した。
すべてのコードは利用可能です。 This paper introduces the novel concept of few-shot weakly supervised learning for pathology Whole Slide Image (WSI) classification, denoted as FSWC. A solution is proposed based on prompt learning and the utilization of a large language model, GPT-4. Since a WSI is too large and needs to be divided into patches for processing, WSI classification is commonly approached as a Multiple Instance Learning (MIL) problem. In this context, each WSI is considered a bag, and the obtained patches are treated as instances. The objective of FSWC is to classify both bags and instances with only a limited number of labeled bags. Unlike conventional few-shot learning problems, FSWC poses additional challenges due to its weak bag labels within the MIL framework. Drawing inspiration from the recent achievements of vision-language models (V-L models) in downstream few-shot classification tasks, we propose a two-level prompt learning MIL framework tailored for pathology, incorporating language prior knowledge. Specifically, we leverage CLIP to extract instance features for each patch, and introduce a prompt-guided pooling strategy to aggregate these instance features into a bag feature. Subsequently, we employ a small number of labeled bags to facilitate few-shot prompt learning based on the bag features. Our approach incorporates the utilization of GPT-4 in a question-and-answer mode to obtain language prior knowledge at both the instance and bag levels, which are then integrated into the instance and bag level language prompts. Additionally, a learnable component of the language prompts is trained using the available few-shot labeled data. We conduct extensive experiments on three real WSI datasets encompassing breast cancer, lung cancer, and cervical cancer, demonstrating the notable performance of the proposed method in bag and instance classification. All codes will be available. | 翻訳日:2024-01-30 22:45:19 公開日:2024-01-28 |
# 人間システムコラボレーションによるNLP問題の解決--議論に基づくアプローチ Solving NLP Problems through Human-System Collaboration: A Discussion-based Approach ( http://arxiv.org/abs/2305.11789v2 ) ライセンス: Link先を確認 | Masahiro Kaneko, Graham Neubig, Naoaki Okazaki | (参考訳) 人間は共通の問題を解決するために協力し、議論し、説明し、同意し、同意する。
同様に、タスクの解決時にシステムが人間と議論できる場合、システムの性能と信頼性を改善することができる。
従来の説明可能性に関する研究では, 相互に意見交換を行うのではなく, システムが予測を行い, 人間が質問することしか不可能であった。
本研究では,対話による予測を議論・洗練するシステムのためのデータセットと計算フレームワークの構築を目的としている。
実験により,提案するシステムは,自然言語推論タスクにおいて,最大25ポイントの精度向上を図ることができることを示す。 Humans work together to solve common problems by having discussions, explaining, and agreeing or disagreeing with each other. Similarly, if a system can have discussions with humans when solving tasks, it can improve the system's performance and reliability. In previous research on explainability, it has only been possible for the system to make predictions and for humans to ask questions about them rather than having a mutual exchange of opinions. This research aims to create a dataset and computational framework for systems that discuss and refine their predictions through dialogue. Through experiments, we show that the proposed system can have beneficial discussions with humans improving the accuracy by up to 25 points in the natural language inference task. | 翻訳日:2024-01-30 22:41:40 公開日:2024-01-28 |
# 有限サイズ貯留層に結合した量子ドットの確率的熱力学 Stochastic thermodynamics of a quantum dot coupled to a finite-size reservoir ( http://arxiv.org/abs/2307.06679v2 ) ライセンス: Link先を確認 | Saulo V. Moreira, Peter Samuelsson, Patrick P. Potts | (参考訳) 有限サイズの貯水池に結合したナノスケールシステムでは, システムと貯水池間の熱交換により貯留温度が変動する可能性がある。
これまでのところ、そのような系における熱、仕事、エントロピー生成の確率的熱力学的解析は欠落している。
ここでは、有限サイズの電子貯水池に結合した単一レベルの量子ドットトンネルを解析することにより、このギャップを埋める。
系のダイナミクスは、貯水池の変動温度に依存するマルコフマスター方程式によって記述される。
揺らぎ定理に基づき、熱力学的に一貫した統計的記述をもたらす適切なエントロピー生成を同定する。
本研究では,有限サイズ貯留層スジラードエンジンの作業結果を分析し,結果を示す。 In nano-scale systems coupled to finite-size reservoirs, the reservoir temperature may fluctuate due to heat exchange between the system and the reservoirs. To date, a stochastic thermodynamic analysis of heat, work and entropy production in such systems is however missing. Here we fill this gap by analyzing a single-level quantum dot tunnel coupled to a finite-size electronic reservoir. The system dynamics is described by a Markovian master equation, depending on the fluctuating temperature of the reservoir. Based on a fluctuation theorem, we identify the appropriate entropy production that results in a thermodynamically consistent statistical description. We illustrate our results by analyzing the work production for a finite-size reservoir Szilard engine. | 翻訳日:2024-01-30 22:33:55 公開日:2024-01-28 |
# 有限次元スピングラスの量子アニールにおける横磁化における量子一階遷移の回避可能性の証明 Proof of avoidability of the quantum first-order transition in transverse magnetization in quantum annealing of finite-dimensional spin glasses ( http://arxiv.org/abs/2307.00791v2 ) ライセンス: Link先を確認 | Mizuki Yamaguchi, Naoto Shiraishi, Koji Hukushima | (参考訳) 任意の有限次元スピン系に対する適切な量子アニールは、逆磁化における量子一階転移を持たないことが厳密に示されている。
この結果は有限次元スピングラスシステムに適用でき、基底状態探索問題は解くのが難しいことが知られている。
したがって、逆磁化における量子一階遷移は、量子アニールにおける組合せ最適化問題の難しさにより致命的ではないことが強く示唆されている。 It is rigorously shown that an appropriate quantum annealing for any finite-dimensional spin system has no quantum first-order transition in transverse magnetization. This result can be applied to finite-dimensional spin-glass systems, where the ground state search problem is known to be hard to solve. Consequently, it is strongly suggested that the quantum first-order transition in transverse magnetization is not fatal to the difficulty of combinatorial optimization problems in quantum annealing. | 翻訳日:2024-01-30 22:33:44 公開日:2024-01-28 |
# 高次元線形回帰における統一伝達学習モデル Unified Transfer Learning Models in High-Dimensional Linear Regression ( http://arxiv.org/abs/2307.00238v3 ) ライセンス: Link先を確認 | Shuo Shuo Liu | (参考訳) トランスファーラーニングは,(1)ターゲットデータが少ないが,ソースデータが十分である,(2)ソースとターゲットデータの分布が不均一である,といった現代データ解析において重要な役割を担っている。
本稿では,トランスファー可能な変数とソースデータの両方を検出可能な,UTransと呼ばれる解釈可能な統合トランスファー学習モデルを開発する。
具体的には、推定誤差境界を確立し、対象データのみを持つものよりも境界が低いことを示す。
また,非変換データを排除するための仮説検証に基づくソース検出アルゴリズムを提案する。
複数の実験において,UTransを既存のアルゴリズムと比較した。
UTransは,解釈可能性を維持しつつ,既存の手法よりもはるかに低い推定誤差と予測誤差が得られることを示す。
最終的に、米国の世代間移動データに適用し、提案したアルゴリズムを従来の機械学習アルゴリズムと比較する。 Transfer learning plays a key role in modern data analysis when: (1) the target data are scarce but the source data are sufficient; (2) the distributions of the source and target data are heterogeneous. This paper develops an interpretable unified transfer learning model, termed as UTrans, which can detect both transferable variables and source data. More specifically, we establish the estimation error bounds and prove that our bounds are lower than those with target data only. Besides, we propose a source detection algorithm based on hypothesis testing to exclude the nontransferable data. We evaluate and compare UTrans to the existing algorithms in multiple experiments. It is shown that UTrans attains much lower estimation and prediction errors than the existing methods, while preserving interpretability. We finally apply it to the US intergenerational mobility data and compare our proposed algorithms to the classical machine learning algorithms. | 翻訳日:2024-01-30 22:33:38 公開日:2024-01-28 |
# フィルタ正規形における分離性問題のSPC状態への還元 A reduction of the separability problem to SPC states in the filter normal form ( http://arxiv.org/abs/2306.17803v2 ) ライセンス: Link先を確認 | Daniel Cariello | (参考訳) 近年, 部分的転位の条件下では正な状態(正の係数状態を持つ対称状態, あるいは単にSPC状態と呼ばれる)の分離性問題に対する解法が, 一般には絡み合いに光を当てることが示唆された。
ここでは、そのような解が問題を完全に解決することを示す。
$ \mathcal{M}_k\otimes\mathcal{M}_m$ の状態が与えられたとき、同じシュミット数を持つ $ \mathcal{M}_{k+m}\otimes\mathcal{M}_{k+m}$ の SPC 状態を構築する。
このタイプの状態はその型を保持するフィルター正規形式に置かれることが知られている。
$\mathcal{M}_k\otimes\mathcal{M}_m$ の分離性問題の解は、$\mathcal{M}_{k+m}\otimes\mathcal{M}_{k+m}$ のフィルター正規形におけるSPC状態の同じ問題を解くことで得られる。
このspc状態は、$ \mathbb{c}^{k+m}\otimes\mathbb{c}^{k+m}$の対称部分空間上の射影に任意に近づけることができる。
$ \mathcal{M}_s\otimes\mathcal{M}_t$ $(s+t\leq k+m)$ の絡み合いを理解するために必要なすべての情報は、その射影の周りの小さなボールの中に置かれる。
また、任意の状態 $\gamma\in\mathcal{M}_n\otimes\mathcal{M}_n$ のシュミット数は、フリップ作用素と可換であり、そのプロジェクションの周りの小さな球の内部にあるような$\lfloor\frac{n}{2}\rfloor$ を超えることができない。 It was recently suggested that a solution to the separability problem for states that remain positive under partial transpose composed with realignment (the so-called symmetric with positive coefficients states or simply SPC states) could shed light on entanglement in general. Here we show that such a solution would solve the problem completely. Given a state in $ \mathcal{M}_k\otimes\mathcal{M}_m$, we build a SPC state in $ \mathcal{M}_{k+m}\otimes\mathcal{M}_{k+m}$ with the same Schmidt number. It is known that this type of state can be put in the filter normal form retaining its type. A solution to the separability problem in $\mathcal{M}_k\otimes\mathcal{M}_m$ could be obtained by solving the same problem for SPC states in the filter normal form within $\mathcal{M}_{k+m}\otimes\mathcal{M}_{k+m}$. This SPC state can be built arbitrarily close to the projection on the symmetric subspace of $ \mathbb{C}^{k+m}\otimes\mathbb{C}^{k+m}$. All the information required to understand entanglement in $ \mathcal{M}_s\otimes\mathcal{M}_t$ $(s+t\leq k+m)$ lies inside an arbitrarily small ball around that projection. We also show that the Schmidt number of any state $\gamma\in\mathcal{M}_n\otimes\mathcal{M}_n$ which commutes with the flip operator and lies inside a small ball around that projection cannot exceed $\lfloor\frac{n}{2}\rfloor$. | 翻訳日:2024-01-30 22:33:00 公開日:2024-01-28 |
# To Spike or Not To Spike:Deep Learning Accelerationのデジタルハードウェアの展望 To Spike or Not To Spike: A Digital Hardware Perspective on Deep Learning Acceleration ( http://arxiv.org/abs/2306.15749v5 ) ライセンス: Link先を確認 | Fabrizio Ottati, Chang Gao, Qinyu Chen, Giovanni Brignone, Mario R. Casu, Jason K. Eshraghian, Luciano Lavagno | (参考訳) ディープラーニングモデルの規模が拡大するにつれて、コンピュータビジョンから自然言語処理に至るまでの領域で競争力が高まる一方で、メモリとコンピューティングのパワーがますます必要になるため、効率が犠牲になる。
生物学的脳のパワー効率は、いかなる大規模ディープラーニング(DL)モデルよりも優れており、ニューロモルフィックコンピューティングは、スパイクベースの情報処理のような脳の操作を模倣し、DLモデルの効率を向上させる。
効率的な情報伝達、高密度神経インターコネクト、計算と記憶の同時配置といった脳の利点にもかかわらず、利用可能な生物学的基質は生物学的脳の進化を厳しく制限している。
電子ハードウェアは同じ制約を持たないため、スパイクニューラルネットワーク(sns)のモデル化はパズルの1つのピースを明らかにする可能性があるが、sns sの効率的なハードウェアバックエンドの設計にはさらなる調査が必要である。
そのため、いつ新しいハードウェアを設計しながら脳を見るのが賢明なのか、いつ無視されるべきなのか?
そこで本研究では,ANNとSNNのデジタルハードウェアアクセラレーション技術とプラットフォームを定量的に比較する。
その結果、次の知見が得られます。
(i)現在、ANNは静的データをより効率的に処理している。
(II) イベントベースカメラやシリコンコチェリーなどのニューロモルフィックセンサーが生成するデータを対象としたアプリケーションには、これらのセンサの挙動が自然にSNNパラダイムに適合する可能性があるため、さらなる調査が必要である。
3) SNN と ANN を組み合わせたハイブリッドアプローチは, 最適解の導出につながる可能性があり, ハードウェアレベルでは, 効率と損失最適化の両面から検討すべきである。 As deep learning models scale, they become increasingly competitive from domains spanning from computer vision to natural language processing; however, this happens at the expense of efficiency since they require increasingly more memory and computing power. The power efficiency of the biological brain outperforms any large-scale deep learning ( DL ) model; thus, neuromorphic computing tries to mimic the brain operations, such as spike-based information processing, to improve the efficiency of DL models. Despite the benefits of the brain, such as efficient information transmission, dense neuronal interconnects, and the co-location of computation and memory, the available biological substrate has severely constrained the evolution of biological brains. Electronic hardware does not have the same constraints; therefore, while modeling spiking neural networks ( SNNs) might uncover one piece of the puzzle, the design of efficient hardware backends for SNN s needs further investigation, potentially taking inspiration from the available work done on the artificial neural networks ( ANNs) side. As such, when is it wise to look at the brain while designing new hardware, and when should it be ignored? To answer this question, we quantitatively compare the digital hardware acceleration techniques and platforms of ANNs and SNN s. As a result, we provide the following insights: (i) ANNs currently process static data more efficiently, (ii) applications targeting data produced by neuromorphic sensors, such as event-based cameras and silicon cochleas, need more investigation since the behavior of these sensors might naturally fit the SNN paradigm, and (iii) hybrid approaches combining SNN s and ANNs might lead to the best solutions and should be investigated further at the hardware level, accounting for both efficiency and loss optimization. | 翻訳日:2024-01-30 22:32:09 公開日:2024-01-28 |
# 信頼できる3dシーン知覚のためのプログレッシブ・マルチステップ容積確率学習 One at a Time: Progressive Multi-step Volumetric Probability Learning for Reliable 3D Scene Perception ( http://arxiv.org/abs/2306.12681v4 ) ライセンス: Link先を確認 | Bohan Li, Yasheng Sun, Jingxin Dong, Zheng Zhu, Jinming Liu, Xin Jin, Wenjun Zeng | (参考訳) マルチビューステレオ(MVS)やセマンティック・シーン・コンプリート(SSC)といったシーン認識タスクにおいて,信頼性の高い3次元ボリューム表現が果たす重要な役割について多くの研究がなされている。
通常は3d確率ボリュームを幾何学的対応で直接構築し、1回のフォワードパスでシーン知覚タスクを完全に取り組もうとする。
しかし、このような単一ステップの解法では、特に予期せぬ閉塞や複雑な光反射といった困難な領域において、正確で説得力のある体積確率を学ぶことが困難になる。
そこで本稿では,複雑な3次元容積表現学習を生成段階の系列に分解し,高精細かつ信頼性の高いシーン知覚を実現する。
強い生成拡散モデルにより達成された最近の進歩を踏まえ,拡散過程における容積確率の漸進的改善を目的とした,VPDと呼ばれる多段階学習フレームワークを導入する。
多視点ステレオ(mvs)やセマンティクスシーン補完(ssc)を含むシーン知覚タスクに関する広範な実験を行い,信頼性の高いボリューム表現の学習における本手法の有効性を検証した。
注目すべきなのは、sscタスクでは、semantickittiデータセット上のlidarベースのメソッドを初めて越えた成果です。 Numerous studies have investigated the pivotal role of reliable 3D volume representation in scene perception tasks, such as multi-view stereo (MVS) and semantic scene completion (SSC). They typically construct 3D probability volumes directly with geometric correspondence, attempting to fully address the scene perception tasks in a single forward pass. However, such a single-step solution makes it hard to learn accurate and convincing volumetric probability, especially in challenging regions like unexpected occlusions and complicated light reflections. Therefore, this paper proposes to decompose the complicated 3D volume representation learning into a sequence of generative steps to facilitate fine and reliable scene perception. Considering the recent advances achieved by strong generative diffusion models, we introduce a multi-step learning framework, dubbed as VPD, dedicated to progressively refining the Volumetric Probability in a Diffusion process. Extensive experiments are conducted on scene perception tasks including multi-view stereo (MVS) and semantic scene completion (SSC), to validate the efficacy of our method in learning reliable volumetric representations. Notably, for the SSC task, our work stands out as the first to surpass LiDAR-based methods on the SemanticKITTI dataset. | 翻訳日:2024-01-30 22:31:35 公開日:2024-01-28 |
# NLPモデルのドメインシフトに対するロバスト性の測定 Measuring the Robustness of NLP Models to Domain Shifts ( http://arxiv.org/abs/2306.00168v4 ) ライセンス: Link先を確認 | Nitay Calderon, Naveh Porat, Eyal Ben-David, Alexander Chapanin, Zorik Gekhman, Nadav Oved, Vitaly Shalumov, Roi Reichart | (参考訳) 既存のドメインロバストネス(dr)の研究は、異なるセットアップ、タスクの多様性の欠如、そして、少数ショット学習のような最近の能力に関する研究不足に苦しめられている。
さらに,d.d.測定の一般的な実践は,この像をさらに曖昧にする可能性がある。
現在の研究はチャレンジセットに焦点を当てており、ソースドロップ(sd:source in-domain performance)のみに依存しています。
しかしながら、ドメイン内のパフォーマンスの劣化を測定するターゲットドロップ(TD)は、補完的な視点として使用すべきである。
本研究では,分類,QA,生成を含む7つのNLPタスクからなるベンチマークを開発した。
本ベンチマークでは,自然領域シフトに着目し,SDとTDの両方を計測する。
18の細調整モデルと数ショットモデルにまたがる14,000以上のドメインシフトを含む包括的な研究は、両方のモデルタイプがドメインシフト時に低下することを示している。
微調整のモデルはドメイン内では優れているが、少数ショットのLLMはドメインを超越し、堅牢性が向上する。
さらに、真のDRチャレンジではなく、難しいドメインにシフトすることで、大きなSDを説明できることがわかりました。
したがって、TDはDRを評価するための信頼性の高い計量である。 Existing research on Domain Robustness (DR) suffers from disparate setups, lack of task variety, and scarce research on recent capabilities such as few-shot learning. Furthermore, we claim that the common practice of measuring DR might further obscure the picture. Current research focuses on challenge sets and relies solely on the Source Drop (SD): Using the source in-domain performance as a reference point for degradation. However, the Target Drop (TD), which measures degradation from the target in-domain performance, should be used as a complementary point of view. In this study, we developed a benchmark comprised of seven NLP tasks, including classification, QA, and generation. Our benchmark focuses on natural topical domain shifts and enables measuring both the SD and the TD. Our comprehensive study, involving over 14,000 domain shifts across 18 fine-tuned and few-shot models, shows that both model types suffer from drops upon domain shifts. While fine-tuned models excel in-domain, few-shot LLMs often surpass them cross-domain, showing better robustness. In addition, we found that a large SD can be explained by shifting to a harder domain rather than by a genuine DR challenge. Thus, the TD is a more reliable metric for assessing DR. | 翻訳日:2024-01-30 22:29:16 公開日:2024-01-28 |
# ヒッグス真空がゼロの可視宇宙の双対として実現される隠れたセクタダークマター Hidden Sector Dark Matter Realized as a Twin of the Visible Universe With Zero Higgs Vacuum Expectation ( http://arxiv.org/abs/2308.08107v5 ) ライセンス: Link先を確認 | Stephen L. Adler | (参考訳) 宇宙は2つの同一の粒子集合とゲージ相互作用を含み、ヒッグスポテンシャルによって異なる重力によってのみ結合する。
基礎となる対称性のため、非結合時の2つのセクタは非零相と零ヒッグス真空期待相の境界にあるヒッグスポテンシャルを持つと仮定する。
2つのセクター間の結合を断ち切ることで、あるセクターにおけるヒッグスポテンシャルを非ゼロヒッグス期待領域に(可視セクターを)押し込み、もう一方セクターにおけるヒッグスポテンシャルをゼロヒッグス期待領域に(暗セクターを)押し込むことができる。
ダークセクターで最小の質量のバリオンは、自ら相互作用するダークマター粒子の候補となる。 We propose that the universe contains two identical sets of particles and gauge interactions, coupling only through gravitation, which differ by their Higgs potentials. We postulate that because of underlying symmetries, the two sectors when uncoupled have Higgs potentials that lie at the boundary between phases with nonzero and zero Higgs vacuum expectation. Turning on the coupling between the two sectors can break the degeneracy, pushing the Higgs potential in one sector into the domain of nonzero Higgs expectation (giving the visible sector), and pushing the Higgs potential in the other sector into the domain of zero Higgs expectation (giving the dark sector). The least massive baryon in the dark sector will then be a candidate self-interacting dark matter particle. | 翻訳日:2024-01-30 22:21:26 公開日:2024-01-28 |
# 各種環境におけるシングルライギッド・ボディ特性の適応的追跡 Adaptive Tracking of a Single-Rigid-Body Character in Various Environments ( http://arxiv.org/abs/2308.07491v3 ) ライセンス: Link先を確認 | Taesoo Kwon, Taehong Gu, Jaewon Ahn, Yoonsang Lee | (参考訳) DeepMimic[Peng et al. 2018]の導入以来、その後の研究は様々なシナリオでシミュレートされた動きのレパートリーの拡大に焦点を当ててきた。
本研究では,この目標に対する代替手法を提案する。この手法は,物体の単一文字のシミュレーションに基づく深層強化学習手法である。
中心運動力学モデル(CDM)を用いて、全体特性を単一の剛体(SRB)として表現し、基準運動を追跡するためのポリシーを訓練することにより、追加の学習を必要とせず、様々な未観測環境変化や制御遷移に適応可能なポリシーを得ることができる。
状態空間と行動空間の次元が減少しているため、学習プロセスはサンプル効率が良い。
最終全体運動は、シミュレートされたSRBキャラクタの状態に基づいて、物理的に妥当な方法で運動的に生成される。
SRBシミュレーションは、二次プログラミング(QP)問題として定式化され、ポリシーは、SRBキャラクタが参照動作に従うことができるアクションを出力する。
われわれは,超ポータブルノートパソコン上で30分以内に効率よくトレーニングし,不均一な地形を走ったり,箱を押したり,学習方針間の遷移など,学習中に経験されていない環境に対処できることを実証した。 Since the introduction of DeepMimic [Peng et al. 2018], subsequent research has focused on expanding the repertoire of simulated motions across various scenarios. In this study, we propose an alternative approach for this goal, a deep reinforcement learning method based on the simulation of a single-rigid-body character. Using the centroidal dynamics model (CDM) to express the full-body character as a single rigid body (SRB) and training a policy to track a reference motion, we can obtain a policy that is capable of adapting to various unobserved environmental changes and controller transitions without requiring any additional learning. Due to the reduced dimension of state and action space, the learning process is sample-efficient. The final full-body motion is kinematically generated in a physically plausible way, based on the state of the simulated SRB character. The SRB simulation is formulated as a quadratic programming (QP) problem, and the policy outputs an action that allows the SRB character to follow the reference motion. We demonstrate that our policy, efficiently trained within 30 minutes on an ultraportable laptop, has the ability to cope with environments that have not been experienced during learning, such as running on uneven terrain or pushing a box, and transitions between learned policies, without any additional learning. | 翻訳日:2024-01-30 22:21:07 公開日:2024-01-28 |
# mental-llm:オンラインテキストデータによるメンタルヘルス予測のための大規模言語モデル活用 Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data ( http://arxiv.org/abs/2307.14385v4 ) ライセンス: Link先を確認 | Xuhai Xu, Bingsheng Yao, Yuanzhe Dong, Saadia Gabriel, Hong Yu, James Hendler, Marzyeh Ghassemi, Anind K. Dey, Dakuo Wang | (参考訳) 大規模言語モデル(LLM)の進歩は、様々なアプリケーションに力を与えてきた。
しかし、精神保健分野におけるLSMの能力の理解と向上に関して、研究には依然として大きなギャップがある。
本稿では,アルパカ,アルパカ-ロラ,FLAN-T5,GPT-3.5,GPT-4などのオンラインテキストデータを用いて,メンタルヘルス予測タスクにおける複数のLCMの総合評価を行う。
我々は、ゼロショットプロンプト、少数ショットプロンプト、命令微調整など幅広い実験を行っている。
結果は、ゼロショットと数ショットのプロンプトによるメンタルヘルスタスクのためのLLMの性能は、有望だが限定的であることを示している。
さらに重要なことは、命令の微調整が全てのタスクに対するLLMの性能を同時に向上させることを示すことである。
当社の「メンタル・アルパカ」と「メンタル・フラン・t5」は、gpt-3.5(25倍と15倍)のベストプロンプトデザインを10.9%上回り、gpt-4(250倍と150倍)のベストを4.8%上回った。
彼らはまた、最先端のタスク特化言語モデルと同等に機能する。
また,llmsのメンタルヘルス推論能力に関する探索的なケーススタディを実施し,gpt-4などのモデルが有望であることを示す。
本研究は,精神保健業務におけるLCMの能力を高めるための行動ガイドラインのセットにまとめる。
また、人種的偏見や性別的偏見など、現実世界のメンタルヘルス設定において、デプロイ可能性を達成する前に重要な制限を強調します。
この研究に付随する重要な倫理的リスクを強調します。 Advances in large language models (LLMs) have empowered a variety of applications. However, there is still a significant gap in research when it comes to understanding and enhancing the capabilities of LLMs in the field of mental health. In this work, we present a comprehensive evaluation of multiple LLMs on various mental health prediction tasks via online text data, including Alpaca, Alpaca-LoRA, FLAN-T5, GPT-3.5, and GPT-4. We conduct a broad range of experiments, covering zero-shot prompting, few-shot prompting, and instruction fine-tuning. The results indicate a promising yet limited performance of LLMs with zero-shot and few-shot prompt designs for mental health tasks. More importantly, our experiments show that instruction finetuning can significantly boost the performance of LLMs for all tasks simultaneously. Our best-finetuned models, Mental-Alpaca and Mental-FLAN-T5, outperform the best prompt design of GPT-3.5 (25 and 15 times bigger) by 10.9% on balanced accuracy and the best of GPT-4 (250 and 150 times bigger) by 4.8%. They further perform on par with the state-of-the-art task-specific language model. We also conduct an exploratory case study on LLMs' capability on mental health reasoning tasks, illustrating the promising capability of certain models such as GPT-4. We summarize our findings into a set of action guidelines for potential methods to enhance LLMs' capability for mental health tasks. Meanwhile, we also emphasize the important limitations before achieving deployability in real-world mental health settings, such as known racial and gender bias. We highlight the important ethical risks accompanying this line of research. | 翻訳日:2024-01-30 22:19:56 公開日:2024-01-28 |
# ハパックス速度モデルによるZipf法則とヒープ法則の補正 Corrections of Zipf's and Heaps' Laws Derived from Hapax Rate Models ( http://arxiv.org/abs/2307.12896v4 ) ライセンス: Link先を確認 | {\L}ukasz D\k{e}bowski | (参考訳) この記事では、ハファックスの割合の体系的なモデル、すなわち一度起こる単語に基づいて、Zipfの法則とHeaps法則の修正を紹介する。
1つは標準urnモデルで、短いテキストの限界周波数分布は、与えられた長いテキストから単語トークンが盲目的にサンプリングされたかのように見えると予測する。
第2の仮定は、ハプクスレートがテキスト長の単純な関数であると仮定する。
定数モデル、デービスモデル、線型モデル、ロジスティックモデルという4つの関数が議論されている。
このロジスティックモデルが最も適していることが示されている。 The article introduces corrections to Zipf's and Heaps' laws based on systematic models of the proportion of hapaxes, i.e., words that occur once. The derivation rests on two assumptions: The first one is the standard urn model which predicts that marginal frequency distributions for shorter texts look as if word tokens were sampled blindly from a given longer text. The second assumption posits that the hapax rate is a simple function of the text length. Four such functions are discussed: the constant model, the Davis model, the linear model, and the logistic model. It is shown that the logistic model yields the best fit. | 翻訳日:2024-01-30 22:18:42 公開日:2024-01-28 |
# ライドバーグ原子の暗経路を通る幾何学的量子ゲート Geometric quantum gates via dark paths in Rydberg atoms ( http://arxiv.org/abs/2307.07148v2 ) ライセンス: Link先を確認 | Zhu-yao Jin and Jun Jing | (参考訳) 断熱ホロノミック量子ゲートは高速で頑丈である。
それでも、系統的なエラーが支配的になると、断熱ゲートよりも脆弱であることが判明した。
外部ノイズのない系統的誤りを部分的に緩和するために用いられたダークパススキームに触発されて、オフ共振駆動下でのリドバーグ-リドバーグ相互作用を用いた非断熱ホロノミック$n$-qubitゲートの普遍的な集合を構築した。
レイドベルク原子系の有効4レベル構成に基づいて、改良された非線形ホロノミック幾何ゲートは、全パラメトリック範囲における系統的誤差と外部ノイズの両方に対して明確なレジリエンスを示す。
本研究では, 従来の制御原子と標的原子との超強相互作用による非線形ホロノミック量子計算を, 対象原子上の駆動場の変形によって補償する。
このアイデアはホロノミック変換に関する深い理解をもたらす。
さらに、我々のスキームは、$N$に対してコンパクトでスケールフリーである。
3量子ビットゲートは2量子ビットゲートよりもエラーの影響を受けにくいことが興味深い。 Nonadiabatic holonomic quantum gates are high-speed and robust. Nevertheless, they were found to be more fragile than the adiabatic gates when systematic errors become dominant. Inspired by the dark-path scheme that was used to partially relieve the systematic error in the absence of external noise, we construct a universal set of nonadiabatic holonomic $N$-qubit gates using the Rydberg-Rydberg interaction between atoms under off-resonant driving. Based on an effective four-level configuration in the Rydberg-atom system, the modified nonadiabatic holonomic geometric gates present a clear resilience to both systematic error in the whole parametric range and external noise. In our scheme, the conventional ultrastrong interaction between control atoms and the target atom for the nonadiabatic holonomic quantum computation is compensated by the detuning of the driving fields on the target atom. That idea yields a deeper understanding about the holonomic transformation. Moreover, our scheme is compact and scale-free with respect to $N$. It is interesting to find that the three-qubit gate is less susceptible to errors than the double-qubit one. | 翻訳日:2024-01-30 22:17:51 公開日:2024-01-28 |
# 強化学習支援進化アルゴリズム:調査と研究の機会 Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and Research Opportunities ( http://arxiv.org/abs/2308.13420v3 ) ライセンス: Link先を確認 | Yanjie Song, Yutong Wu, Yangyang Guo, Ran Yan, P. N. Suganthan, Yue Zhang, Witold Pedrycz, Swagatam Das, Rammohan Mallipeddi, Oladayo Solomon Ajani. Qiang Feng | (参考訳) 進化的アルゴリズム(EA)は、自然進化の原理に基づく確率的探索手法のクラスであり、様々な実世界の最適化問題における例外的な性能を広く評価されている。
世界中の研究者が様々なEAを提案しているが、収束速度の低下や一般化能力の低下など、いくつかの制限が残っている。
その結果,アルゴリズム構造,演算子,探索パターンなどの改良を積極的に探求し,最適化性能の向上を図っている。
EAフレームワークのコンポーネントとして統合された強化学習(RL)は、近年、優れたパフォーマンスを示している。
本稿では、強化学習支援進化アルゴリズム(RL-EA)と呼ばれる進化アルゴリズムへの強化学習の統合に関する総合的な調査を行う。
まず,強化学習の概念的概要と進化的アルゴリズムから始める。
RL-EAの分類法を提供する。
その後、RL-EA統合手法、RL-EAが採用したRL-EA支援戦略、および既存文献による適用について論じる。
RL支援手順は、ソリューション生成、学習可能な目的関数、アルゴリズム/オペレータ/サブポピュレーション選択、パラメータ適応、その他の戦略を含む実装された機能に応じて分割される。
さらに,RL-EAにおけるRLの属性設定について述べる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示し、迅速な比較研究を容易にする。
最後に,今後の研究の方向性について分析する。 Evolutionary algorithms (EA), a class of stochastic search methods based on the principles of natural evolution, have received widespread acclaim for their exceptional performance in various real-world optimization problems. While researchers worldwide have proposed a wide variety of EAs, certain limitations remain, such as slow convergence speed and poor generalization capabilities. Consequently, numerous scholars actively explore improvements to algorithmic structures, operators, search patterns, etc., to enhance their optimization performance. Reinforcement learning (RL) integrated as a component in the EA framework has demonstrated superior performance in recent years. This paper presents a comprehensive survey on integrating reinforcement learning into the evolutionary algorithm, referred to as reinforcement learning-assisted evolutionary algorithm (RL-EA). We begin with the conceptual outlines of reinforcement learning and the evolutionary algorithm. We then provide a taxonomy of RL-EA. Subsequently, we discuss the RL-EA integration method, the RL-assisted strategy adopted by RL-EA, and its applications according to the existing literature. The RL-assisted procedure is divided according to the implemented functions including solution generation, learnable objective function, algorithm/operator/sub-population selection, parameter adaptation, and other strategies. Additionally, different attribute settings of RL in RL-EA are discussed. In the applications of RL-EA section, we also demonstrate the excellent performance of RL-EA on several benchmarks and a range of public datasets to facilitate a quick comparative study. Finally, we analyze potential directions for future research. | 翻訳日:2024-01-30 22:08:10 公開日:2024-01-28 |
# 大規模言語モデルに対するベイズ低位適応 Bayesian Low-rank Adaptation for Large Language Models ( http://arxiv.org/abs/2308.13111v4 ) ライセンス: Link先を確認 | Adam X. Yang, Maxime Robeyns, Xi Wang, Laurence Aitchison | (参考訳) 低ランク適応(LoRA)は、大規模言語モデル(LLM)のコスト効率の高い微調整のための新しいパラダイムとして登場した。
しかし、微調整LPMは、特に小さなデータセットで微調整された場合、過信されることが多い。
ベイズ的手法は、不確実性を推定する固有の能力を持ち、過信を緩和し校正を強化する強力なツールとして機能する。
本稿では,LoRAパラメータにベイズ的アプローチを適用するLaplace-LoRAを提案する。
特に、Laplace-LoRAは、LoRAパラメータの後方にLaplace近似を適用し、微調整LDMの校正を大幅に改善した。 Low-rank adaptation (LoRA) has emerged as a new paradigm for cost-efficient fine-tuning of large language models (LLMs). However, fine-tuned LLMs often become overconfident especially when fine-tuned on small datasets. Bayesian methods, with their inherent ability to estimate uncertainty, serve as potent tools to mitigate overconfidence and enhance calibration. In this work, we introduce Laplace-LoRA, which applies a Bayesian approach to the LoRA parameters. Specifically, Laplace-LoRA applies a Laplace approximation to the posterior over the LoRA parameters, considerably improving the calibration of fine-tuned LLMs. | 翻訳日:2024-01-30 22:07:45 公開日:2024-01-28 |
# HypBO:専門家の仮説によるブラックボックス科学実験の加速 HypBO: Accelerating Black-Box Scientific Experiments Using Experts' Hypotheses ( http://arxiv.org/abs/2308.11787v3 ) ライセンス: Link先を確認 | Abdoulatif Cisse, Xenophon Evangelopoulos, Sam Carruthers, Vladimir V. Gusev, Andrew I. Cooper | (参考訳) ロボットと自動化は、材料発見のような難易度の高い多変量科学的な問題を解決するための膨大な加速を提供する。
ベイズ最適化(BO)は、ターゲット関数/プロパティの分析形式が知られていないタスクで繁栄する、一般的なサンプル効率最適化エンジンとして登場した。
ここでは,専門家の人間知識を仮説として活用し,化学空間の有望な領域へのベイズ探索をより迅速に行う。
従来の手法では、既存の実験的な測定から導かれた基礎的な分布を使用していた。
また、そのような分布は複雑な仮説を捉えることができない。
提案手法はHypBOと呼ばれ,ヒトの仮説を用いて改良された種子サンプルを生成する。
発芽しない種子は自動的に割引され、有望な種子はサロゲートモデルデータを増やすために使用され、より良いインフォームドサンプリングが達成される。
このプロセスは、二段階最適化フレームワークで組織されたグローバル対ローカル検索方式で継続される。
本手法は,様々な合成機能上での性能を検証し,専門家仮説を用いることで検索性能が著しく向上する実化学設計タスクにおいて,その実用性を示す。 Robotics and automation offer massive accelerations for solving intractable, multivariate scientific problems such as materials discovery, but the available search spaces can be dauntingly large. Bayesian optimization (BO) has emerged as a popular sample-efficient optimization engine, thriving in tasks where no analytic form of the target function/property is known. Here, we exploit expert human knowledge in the form of hypotheses to direct Bayesian searches more quickly to promising regions of chemical space. Previous methods have used underlying distributions derived from existing experimental measurements, which is unfeasible for new, unexplored scientific tasks. Also, such distributions cannot capture intricate hypotheses. Our proposed method, which we call HypBO, uses expert human hypotheses to generate improved seed samples. Unpromising seeds are automatically discounted, while promising seeds are used to augment the surrogate model data, thus achieving better-informed sampling. This process continues in a global versus local search fashion, organized in a bilevel optimization framework. We validate the performance of our method on a range of synthetic functions and demonstrate its practical utility on a real chemical design task where the use of expert hypotheses accelerates the search performance significantly. | 翻訳日:2024-01-30 22:06:37 公開日:2024-01-28 |
# 自由不連続回帰:インターネット遮断の経済効果への適用 Free Discontinuity Regression: With an Application to the Economic Effects of Internet Shutdowns ( http://arxiv.org/abs/2309.14630v2 ) ライセンス: Link先を確認 | Florian Gunsilius and David Van Dijcke | (参考訳) 回帰関数の不連続性は重要な洞察を明らかにすることができる。
地理的な設定のような多くの文脈において、そのような不連続性は多変量であり、事前性が不明である。
回帰面を分割することで不連続の位置と大きさを推定する非パラメトリック回帰法を提案する。
この推定子はムムフォード・シャー汎函数の凸緩和に基づいており、同定と収束を確立する。
われわれは、インドにおけるインターネットの閉鎖が経済活動の25~35%の減少をもたらし、これまでの予測を大幅に上回り、デジタル経済にとってそのような閉鎖の真のコストに新たな光を当てたことを示している。 Discontinuities in regression functions can reveal important insights. In many contexts, like geographic settings, such discontinuities are multivariate and unknown a priori. We propose a non-parametric regression method that estimates the location and size of discontinuities by segmenting the regression surface. This estimator is based on a convex relaxation of the Mumford-Shah functional, for which we establish identification and convergence. We use it to show that an internet shutdown in India resulted in a reduction of economic activity by 25--35%, greatly surpassing previous estimates and shedding new light on the true cost of such shutdowns for digital economies globally. | 翻訳日:2024-01-30 21:57:24 公開日:2024-01-28 |
# ニューラルネットワークの大規模バッチトレーニング一般化のためのlarsの再訪 Revisiting LARS for Large Batch Training Generalization of Neural Networks ( http://arxiv.org/abs/2309.14053v3 ) ライセンス: Link先を確認 | Khoi Do, Duong Nguyen, Hoa Nguyen, Long Tran-Thanh, and Quoc-Viet Pham | (参考訳) 本稿では,階層型適応スケーリング比(lars)を用いた大規模バッチトレーニング手法について検討し,知見を明らかにする。
ウォームアップを伴うLARSアルゴリズムは、冗長比のスケーリングのため、早期にシャープな最小化器に閉じ込められる傾向にある。
さらに、後者のフェーズの急激な低下により、ディープニューラルネットワークは、アーリーフェーズの鋭い最小化器を効果的にナビゲートすることを制限している。
これらの結果に基づき,初期段階におけるロバストトレーニングのために,ウォームアップを構成可能なシグモイド様関数に置き換える新しいアルゴリズムであるtime varying lars (tvlars)を提案する。
TVLARSは勾配探索を早期に促進し、急激な最適化器を超え、後段の堅牢性のために徐々にLARSに移行する。
広範囲な実験により、TVLARSはLARSとLAMBを一貫して上回り、分類シナリオは最大で2倍改善されている。
特に, 自己指導型学習では, LARS と LAMB が支配的であり, 性能は最大 10 % 向上した。 This paper explores Large Batch Training techniques using layer-wise adaptive scaling ratio (LARS) across diverse settings, uncovering insights. LARS algorithms with warm-up tend to be trapped in sharp minimizers early on due to redundant ratio scaling. Additionally, a fixed steep decline in the latter phase restricts deep neural networks from effectively navigating early-phase sharp minimizers. Building on these findings, we propose Time Varying LARS (TVLARS), a novel algorithm that replaces warm-up with a configurable sigmoid-like function for robust training in the initial phase. TVLARS promotes gradient exploration early on, surpassing sharp optimizers and gradually transitioning to LARS for robustness in later phases. Extensive experiments demonstrate that TVLARS consistently outperforms LARS and LAMB in most cases, with up to 2\% improvement in classification scenarios. Notably, in all self-supervised learning cases, TVLARS dominates LARS and LAMB with performance improvements of up to 10\%. | 翻訳日:2024-01-30 21:57:12 公開日:2024-01-28 |
# 差分プライベートFew-Shot生成によるプライバシー保護型インコンテキスト学習 Privacy-Preserving In-Context Learning with Differentially Private Few-Shot Generation ( http://arxiv.org/abs/2309.11765v2 ) ライセンス: Link先を確認 | Xinyu Tang, Richard Shin, Huseyin A. Inan, Andre Manoel, Fatemehsadat Mireshghallah, Zinan Lin, Sivakanth Gopi, Janardhan Kulkarni, Robert Sim | (参考訳) 本研究では,大規模言語モデル(LLM)を用いたテキスト内学習(ICL)の課題をプライベートデータセット上で検討する。
このシナリオは、LSMがプロンプトで示したプライベートな例をリークしたり、取り消したりする可能性があるため、プライバシー上のリスクを引き起こす。
本稿では,個人データセットから形式的差分プライバシー(DP)保証付き複数ショットを合成的に生成するアルゴリズムを提案し,実効性のあるICLを実現することを実証的に示す。
我々は、標準ベンチマークで広範な実験を行い、アルゴリズムをプライベートでないICLやゼロショットソリューションと比較する。
以上の結果から,我々のアルゴリズムは強力なプライバシレベルを持つ競合性能を達成できることを示す。
これらの結果は、幅広いアプリケーションに対するプライバシ保護を備えたICLの新たな可能性を開くものだ。 We study the problem of in-context learning (ICL) with large language models (LLMs) on private datasets. This scenario poses privacy risks, as LLMs may leak or regurgitate the private examples demonstrated in the prompt. We propose a novel algorithm that generates synthetic few-shot demonstrations from the private dataset with formal differential privacy (DP) guarantees, and show empirically that it can achieve effective ICL. We conduct extensive experiments on standard benchmarks and compare our algorithm with non-private ICL and zero-shot solutions. Our results demonstrate that our algorithm can achieve competitive performance with strong privacy levels. These results open up new possibilities for ICL with privacy protection for a broad range of applications. | 翻訳日:2024-01-30 21:54:49 公開日:2024-01-28 |
# XY相互作用による省エネルギー量子回路の合成 Synthesis of Energy-Conserving Quantum Circuits with XY interaction ( http://arxiv.org/abs/2309.11051v2 ) ライセンス: Link先を確認 | Ge Bai and Iman Marvian | (参考訳) 我々は、$\sqrt{iSWAP}$ゲートとより一般的には、XX+YY相互作用だけで実現可能なエンタングルゲートから構築された量子回路について研究する。
そのようなゲートは計算基底における状態のハミング重みを保ち、つまり z 軸周りの回転に対応する大域 u(1) 対称性を尊重する。
同様に、系内の各キュービットの内在的ハミルトニアンがパウリZ作用素であると仮定すると、系全体のエネルギーは保存される。
我々は,z軸まわりの単一ビット回転の有無にかかわらず,XX+YY相互作用を用いて所望のエネルギー保存ユニタリを実現する回路を効率的に合成する方法を開発した。
興味深いことに、cczゲートやfredkinゲートのような一般的なエネルギー保存ユニタリを2つのローカルエネルギー保存ゲートで実装するには、アンシラキュービットを使用する必要がある。
z軸まわりのシングルキュービット回転が許容される場合、このスキームは1つのアンシラキュービットのみを必要とするが、xx+yy相互作用のみの場合、2つのアンシラキュービットが必要である。
正確な実現に加えて、近似現実化についても検討し、$\sqrt{iSWAP}$ gates と 2 個の補助量子ビットの列のみを用いて一般エネルギー保存ユニタリをいかに合成できるかを示し、ソロヴィ・キタエフの定理を通じて有界な小さな誤差を持つ。
我々の方法は、XX+YY相互作用ではなく、ハイゼンベルク交換相互作用のような計算ベースでは対角的でない他のエネルギー保存2体相互作用にアクセスできる場合、エネルギー保存ユニタリの合成にも応用できる。
量子コンピューティング、量子熱力学、量子時計の文脈におけるこれらの回路の応用について簡単に述べる。 We study quantum circuits constructed from $\sqrt{iSWAP}$ gates and, more generally, from the entangling gates that can be realized with the XX+YY interaction alone. Such gates preserve the Hamming weight of states in the computational basis, which means they respect the global U(1) symmetry corresponding to rotations around the z axis. Equivalently, assuming that the intrinsic Hamiltonian of each qubit in the system is the Pauli Z operator, they conserve the total energy of the system. We develop efficient methods for synthesizing circuits realizing any desired energy-conserving unitary using XX+YY interaction with or without single-qubit rotations around the z-axis. Interestingly, implementing generic energy-conserving unitaries, such as CCZ and Fredkin gates, with 2-local energy-conserving gates requires the use of ancilla qubits. When single-qubit rotations around the z-axis are permitted, our scheme requires only a single ancilla qubit, whereas with the XX+YY interaction alone, it requires 2 ancilla qubits. In addition to exact realizations, we also consider approximate realizations and show how a general energy-conserving unitary can be synthesized using only a sequence of $\sqrt{iSWAP}$ gates and 2 ancillary qubits, with arbitrarily small error, which can be bounded via the Solovay-Kitaev theorem. Our methods are also applicable for synthesizing energy-conserving unitaries when, rather than the XX+YY interaction, one has access to any other energy-conserving 2-body interaction that is not diagonal in the computational basis, such as the Heisenberg exchange interaction. We briefly discuss the applications of these circuits in the context of quantum computing, quantum thermodynamics, and quantum clocks. | 翻訳日:2024-01-30 21:54:38 公開日:2024-01-28 |
# Selenite: 大規模言語モデルから取り除かれた包括的概要を備えたオンラインセンスメイキング Selenite: Scaffolding Online Sensemaking with Comprehensive Overviews Elicited from Large Language Models ( http://arxiv.org/abs/2310.02161v4 ) ライセンス: Link先を確認 | Michael Xieyang Liu, Tongshuang Wu, Tianying Chen, Franklin Mingzhe Li, Aniket Kittur, Brad A. Myers | (参考訳) 不慣れなドメインでのセンス作成は困難であり、さまざまな基準に関して異なる選択肢を比較するためにかなりのユーザ努力を必要とする。
以前の調査やフォーマティブな調査では、前もって有用な基準を含む情報空間の概観を読むことで、人々が恩恵を受けることが分かった。
しかし、既存のセンスメイキングツールは、"コールドスタート"の問題に苦しむ -- これらの概要を生成して共有するには、以前のユーザからの重要なインプットを必要とするだけでなく、このような概要もバイアスと不完全であることが判明します。
本研究では,Large Language Models (LLMs) を推論機や知識検索機として活用し,ユーザの感覚形成過程を飛躍させるための選択肢と基準の包括的概要を自動生成する新しいシステムであるSeleniteを紹介する。
次に、Seleniteは、ユーザーが慣れていない情報を体系的かつパーソナライズされた方法で見つけ、読み、ナビゲートするのを助ける。
3つの研究を通して,Seleniteは正確かつ高品質な概要を確実に生成し,ユーザの情報処理を著しく促進し,全体的な理解とセンスメイキング体験を効果的に改善した。 Sensemaking in unfamiliar domains can be challenging, demanding considerable user effort to compare different options with respect to various criteria. Prior research and our formative study found that people would benefit from reading an overview of an information space upfront, including the criteria others previously found useful. However, existing sensemaking tools struggle with the "cold-start" problem -- it not only requires significant input from previous users to generate and share these overviews, but such overviews may also turn out to be biased and incomplete. In this work, we introduce a novel system, Selenite, which leverages Large Language Models (LLMs) as reasoning machines and knowledge retrievers to automatically produce a comprehensive overview of options and criteria to jumpstart users' sensemaking processes. Subsequently, Selenite also adapts as people use it, helping users find, read, and navigate unfamiliar information in a systematic yet personalized manner. Through three studies, we found that Selenite produced accurate and high-quality overviews reliably, significantly accelerated users' information processing, and effectively improved their overall comprehension and sensemaking experience. | 翻訳日:2024-01-30 21:44:36 公開日:2024-01-28 |
# one goで教師なしのモーションセグメンテーション:ビデオ上のスムーズな長期モデル Unsupervised motion segmentation in one go: Smooth long-term model over a video ( http://arxiv.org/abs/2310.01040v2 ) ライセンス: Link先を確認 | Etienne Meunier and Patrick Bouthemy | (参考訳) 人間は継続的にビデオを分析し、すぐに主要な動き成分を抽出する能力を持つ。
深層学習に基づく動作分割法はしばしばフレーム単位で進行する。
このパラダイムを超えて、あらゆる長さの一連の流れ場において、完全なビデオシーケンスまで、モーションセグメンテーションを実行したいと考えています。
これは下流のコンピュータビジョンタスクにとって顕著な付加価値であり、教師なしのビデオ表現学習のためのプリテキスト基準を提供する。
そこで本研究では,非教師的手法による長期時空間モデルを提案する。
連続する光学フロー(OF)フィールドの体積を入力として、ビデオ上に一連のコヒーレントな動きのセグメントを出力する。
具体的には、数学的に確立されたフレームワークであるELBO(Evidence Lower Bound)を利用して損失関数を推論するトランスフォーマーベースのネットワークを設計した。
損失関数は、新たな方法で、ビデオシーケンスの時間次元に対する$(x,y)$-spatial dimensionとb-splinesの多項式(二次)運動モデルと、マスクの時間的一貫性を強制する正規化項とを含む、時空間的パラメトリック運動モデルを含むフロー再構成項とを結合する。
我々は4つのvosベンチマークを定量的に評価する実験を行った。
また,この手法がもたらす時間的整合性に対する重要な貢献について,視覚的結果を通して強調する。 Human beings have the ability to continuously analyze a video and immediately extract the main motion components. Motion segmentation methods based on deep learning often proceed frame by frame. We want to go beyond this paradigm, and perform the motion segmentation in series of flow fields of any length, up to the complete video sequence. It will be a prominent added value for downstream computer vision tasks, and could provide a pretext criterion for unsupervised video representation learning. In this perspective, we propose a novel long-term spatio-temporal model operating in a totally unsupervised way. It takes as input the volume of consecutive optical flow (OF) fields, and delivers a volume of segments of coherent motion over the video. More specifically, we have designed a transformer-based network, where we leverage a mathematically well-founded framework, the Evidence Lower Bound (ELBO), to infer the loss function. The loss function combines a flow reconstruction term involving spatio-temporal parametric motion models combining, in a novel way, polynomial (quadratic) motion models for the $(x,y)$-spatial dimensions and B-splines for the time dimension of the video sequence, and a regularization term enforcing temporal consistency on the masks. We report experiments on four VOS benchmarks with convincing quantitative results. We also highlight through visual results the key contributions on temporal consistency brought by our method. | 翻訳日:2024-01-30 21:43:26 公開日:2024-01-28 |
# レストレスマルチアームバンドにおけるゼロショット学習に向けて Towards Zero Shot Learning in Restless Multi-armed Bandits ( http://arxiv.org/abs/2310.14526v2 ) ライセンス: Link先を確認 | Yunfan Zhao, Nikhil Behari, Edward Hughes, Edwin Zhang, Dheeraj Nagaraj, Karl Tuyls, Aparna Taneja, Milind Tambe | (参考訳) レストレス・マルチアーム・バンディット (RMABs) は, 医療, オンライン広告, 密猟などの分野で広く応用されている資源配分問題のクラスであり, マルチエージェント強化学習の観点から最近研究されている。
RMAB以前の研究はいくつかの制限に悩まされており、例えば、連続状態に適切に対処できず、多くの現実世界で一般的な課題である腕のオプトインやオプトアウト時にスクラッチから再トレーニングする必要がある。
これらの制限に対処するために、ニューラルネットワークベースの事前訓練モデル(PreFeRMAB)を開発し、これまで見つからなかったRMABの幅広い範囲で、一般的なゼロショット能力を持ち、スクラッチからリトレーニングするよりも、よりサンプル効率の良い方法で特定のインスタンスで微調整できる。
このモデルは、一般的なマルチアクション設定や離散状態空間や連続状態空間も含む。
迅速な一般化を実現するために,特徴情報を活用し,武器のオプトイン・アウトを経時的に行う新しい単一政策ネットワークモデルを学習する。
理論的収束を保証する重要な$\lambda$-networkに対する新しい更新ルールを導き、いくつかの挑戦的で現実世界にインスパイアされた問題に対するアプローチの利点を実証的に示す。 Restless multi-arm bandits (RMABs), a class of resource allocation problems with broad application in areas such as healthcare, online advertising, and anti-poaching, have recently been studied from a multi-agent reinforcement learning perspective. Prior RMAB research suffers from several limitations, e.g., it fails to adequately address continuous states, and requires retraining from scratch when arms opt-in and opt-out over time, a common challenge in many real world applications. We address these limitations by developing a neural network-based pre-trained model (PreFeRMAB) that has general zero-shot ability on a wide range of previously unseen RMABs, and which can be fine-tuned on specific instances in a more sample-efficient way than retraining from scratch. Our model also accommodates general multi-action settings and discrete or continuous state spaces. To enable fast generalization, we learn a novel single policy network model that utilizes feature information and employs a training procedure in which arms opt-in and out over time. We derive a new update rule for a crucial $\lambda$-network with theoretical convergence guarantees and empirically demonstrate the advantages of our approach on several challenging, real-world inspired problems. | 翻訳日:2024-01-30 21:35:01 公開日:2024-01-28 |
# ハイブリッドモデルに基づく後継機能強化学習によるタスク間の不確実性認識伝達 Uncertainty-aware transfer across tasks using hybrid model-based successor feature reinforcement learning ( http://arxiv.org/abs/2310.10818v2 ) ライセンス: Link先を確認 | Parvin Malekzadeh, Ming Hou, and Konstantinos N. Plataniotis | (参考訳) サンプル効率は、複雑かつ大規模な意思決定問題に対する実践的強化学習(RL)の開発の中心である。
以前の経験から得られた知識をダウンストリームタスクに移し、一般化する能力は、サンプル効率を大幅に改善することができる。
近年の研究では、後継機能(SF)RLアルゴリズムは、異なる報酬を持つタスク間の知識一般化を可能にするが、遷移ダイナミクスは同一である。
近年、モデルベース(MB)法とSFアルゴリズムを組み合わせることで、固定遷移力学の限界を緩和できると仮定されている。
さらに, 不確実性認識探索は, サンプル効率向上のための別の魅力的なアプローチとして広く認識されている。
ハイブリッドモデルベースの後継機能(MB-SF)と不確実性(不確実性)の2つのアイデアを組み合わせることで、異なる遷移ダイナミクスや報酬関数を持つタスク間の効率的な不確実性を考慮した知識伝達の問題へのアプローチにつながる。
本稿では,各動作の値の不確かさをカルマンフィルタ(kf)に基づく多重モデル適応推定によって近似する。
このKFベースのフレームワークは、モデルのパラメータをランダム変数として扱う。
私たちの知る限りでは、これはmb法よりも少ない計算を必要とせず、様々な遷移ダイナミクスを持つ大規模または連続的な状態空間タスクにまたがる知識を一般化できるハイブリッドmb-sfアルゴリズムを定式化する最初の試みである。
タスクの学習に必要なサンプル数は、最近のSFやMBベースラインと比較された。
その結果,本アルゴリズムは,異なる遷移力学の知識を一般化し,スクラッチから始めるよりもはるかに少ないサンプルで下流タスクを学習し,既存のアプローチよりも優れていた。 Sample efficiency is central to developing practical reinforcement learning (RL) for complex and large-scale decision-making problems. The ability to transfer and generalize knowledge gained from previous experiences to downstream tasks can significantly improve sample efficiency. Recent research indicates that successor feature (SF) RL algorithms enable knowledge generalization between tasks with different rewards but identical transition dynamics. It has recently been hypothesized that combining model-based (MB) methods with SF algorithms can alleviate the limitation of fixed transition dynamics. Furthermore, uncertainty-aware exploration is widely recognized as another appealing approach for improving sample efficiency. Putting together two ideas of hybrid model-based successor feature (MB-SF) and uncertainty leads to an approach to the problem of sample efficient uncertainty-aware knowledge transfer across tasks with different transition dynamics or/and reward functions. In this paper, the uncertainty of the value of each action is approximated by a Kalman filter (KF)-based multiple-model adaptive estimation. This KF-based framework treats the parameters of a model as random variables. To the best of our knowledge, this is the first attempt at formulating a hybrid MB-SF algorithm capable of generalizing knowledge across large or continuous state space tasks with various transition dynamics while requiring less computation at decision time than MB methods. The number of samples required to learn the tasks was compared to recent SF and MB baselines. The results show that our algorithm generalizes its knowledge across different transition dynamics, learns downstream tasks with significantly fewer samples than starting from scratch, and outperforms existing approaches. | 翻訳日:2024-01-30 21:33:25 公開日:2024-01-28 |
# 逆正則化による分割学習におけるパッシブ推論攻撃 Passive Inference Attacks on Split Learning via Adversarial Regularization ( http://arxiv.org/abs/2310.10483v4 ) ライセンス: Link先を確認 | Xiaochen Zhu, Xinjian Luo, Yuncheng Wu, Yangfan Jiang, Xiaokui Xiao, Beng Chin Ooi | (参考訳) 分割学習(slit learning, sl)は、従来の連合学習に代わる実践的で効率的な選択肢として登場した。
SL攻撃の試みは、しばしば過度に強い仮定や、容易に悪用できるモデルに頼っているが、我々はより実用的な攻撃方法を模索している。
我々は,sldに対する新たな攻撃フレームワークであるsdarを紹介する。
SDARは補助データと逆正則化を利用してクライアントのプライベートモデルのデオード可能なシミュレータを学習し、バニラSLの下でクライアントのプライベート機能を効果的に推測する。
提案する攻撃の有効性を検証するため,両構成の広範な実験を行った。
特に、既存のパッシブアタックがクライアントのプライベートデータを効果的に再構築するのに苦労する、困難だが実用的なシナリオでは、SDARはアクティブアタックに匹敵するアタックパフォーマンスを一貫して達成します。
CIFAR-10では、7の深さ分割レベルでは、SDARは、バニラとU字型の両方において0.025以上の平均2乗誤差でプライベートな特徴再構成を達成し、U字型設定では98%以上のラベル推測精度を達成し、既存の攻撃では非自明な結果が得られない。 Split Learning (SL) has emerged as a practical and efficient alternative to traditional federated learning. While previous attempts to attack SL have often relied on overly strong assumptions or targeted easily exploitable models, we seek to develop more practical attacks. We introduce SDAR, a novel attack framework against SL with an honest-but-curious server. SDAR leverages auxiliary data and adversarial regularization to learn a decodable simulator of the client's private model, which can effectively infer the client's private features under the vanilla SL, and both features and labels under the U-shaped SL. We perform extensive experiments in both configurations to validate the effectiveness of our proposed attacks. Notably, in challenging but practical scenarios where existing passive attacks struggle to reconstruct the client's private data effectively, SDAR consistently achieves attack performance comparable to active attacks. On CIFAR-10, at the deep split level of 7, SDAR achieves private feature reconstruction with less than 0.025 mean squared error in both the vanilla and the U-shaped SL, and attains a label inference accuracy of over 98% in the U-shaped setting, while existing attacks fail to produce non-trivial results. | 翻訳日:2024-01-30 21:32:37 公開日:2024-01-28 |
# テトラエドロン : 材料情報抽出の課題 Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction ( http://arxiv.org/abs/2310.08383v2 ) ライセンス: Link先を確認 | Kausik Hira, Mohd Zaki, Dhruvil Sheth, Mausam, N M Anoop Krishnan | (参考訳) 新しい素材の発見は、人類の進歩を何世紀にもわたって推進した歴史を文書化している。
材料の挙動は、その組成、構造、特性の関数であり、さらにその処理や試験条件に依存する。
近年のディープラーニングと自然言語処理の進歩は、ピアレビューされた出版物、書籍、特許などの出版物から大規模に情報抽出を可能にしている。
しかし、この情報はテーブル、テキスト、画像などの複数のフォーマットに分散しており、レポートスタイルの統一性はほとんど、あるいは全くないため、いくつかの機械学習課題が発生する。
本稿では,材料科学文献から大規模材料科学知識基盤の創出までの自動情報抽出(IE)におけるこれらの課題について論じる。
具体的には、テキストとテーブルからIEに焦点を当て、いくつかの課題を例にまとめる。
この研究は、研究者にコヒーレントな方法で課題に対処するよう促し、材料知識ベースへのieへの補足を提供したいと願っている。 Discovery of new materials has a documented history of propelling human progress for centuries and more. The behaviour of a material is a function of its composition, structure, and properties, which further depend on its processing and testing conditions. Recent developments in deep learning and natural language processing have enabled information extraction at scale from published literature such as peer-reviewed publications, books, and patents. However, this information is spread in multiple formats, such as tables, text, and images, and with little or no uniformity in reporting style giving rise to several machine learning challenges. Here, we discuss, quantify, and document these challenges in automated information extraction (IE) from materials science literature towards the creation of a large materials science knowledge base. Specifically, we focus on IE from text and tables and outline several challenges with examples. We hope the present work inspires researchers to address the challenges in a coherent fashion, providing a fillip to IE towards a materials knowledge base. | 翻訳日:2024-01-30 21:31:28 公開日:2024-01-28 |
# 量子絡み合いの保存と顕現について On the Preservation and Manifestation of Quantum Entanglement ( http://arxiv.org/abs/2311.08420v2 ) ライセンス: Link先を確認 | Jianhao M. Yang | (参考訳) ベル実験により、量子の絡み合いは分離不能な相関であることが確認されたが、局所的な測定を行う場合、2つの絡み合い粒子の間には光よりも速い影響はない。
しかし、2つの絡み合った粒子が空間的に分離されたとき、そのような分離不能な相関が維持され、どのように現れるかはまだよく分かっていない。
最近提案された量子力学の最小作用原理は、この問題に新たな洞察をもたらす。
本原理を適用して, 2つの粒子間の以前の物理的相互作用によって, 分離不能な相関が生成されているとしても, 真空ゆらぎによるバイパルタイト系の観測可能情報の最大化によって, 分離不能な相関の保存と発現が達成されることを示す。
これは、2つの粒子が崩壊したときの相互作用が無くとも物理的に実現され、基礎となる真空変動は局所的である。
言い換えれば、量子論における分離不能な相関の伝播は、情報要求と局所メカニズムによって実現される。
ガウス波パケットによって記述された2つの絡み合った自由粒子の例として、これらの結果を示す。 Bell experiments have confirmed that quantum entanglement is an inseparable correlation but there is no faster-than-light influence between two entangled particles when a local measurement is performed. However, how such an inseparable correlation is maintained and manifested when the two entangled particle are space-like separated is still not well understood. The recently proposed extended least action principle for quantum mechanics brings new insights to this question. By applying this principle, we show here that even though the inseparable correlation may be initially created by previous physical interaction between the two particles, the preservation and manifestation of such inseparable correlation are achieved through extremizing an information metric that measures the additional observable information of the bipartite system due to vacuum fluctuations. This is physically realized even though there is no further interaction when the two particles move apart, and the underlying vacuum fluctuations are local. In other words, the propagation of inseparable correlation in quantum theory is realized by an information requirement and through a local mechanism. An example of two entangled free particles described by Gaussian wave packets is provided to illustrate these results. | 翻訳日:2024-01-30 21:25:08 公開日:2024-01-28 |
# コードペア分類による言語モデルによるバグ検出 Language Models are Better Bug Detector Through Code-Pair Classification ( http://arxiv.org/abs/2311.07957v2 ) ライセンス: Link先を確認 | Kamel Alrashedy, Ahmed Binjahlan | (参考訳) GPT-3.5やCodeLlamaのような大規模言語モデル(LLM)は、コード生成と理解のための強力なモデルである。
これらのモデルの微調整は計算コストが高く、大きなラベル付きデータセットを必要とする。
あるいは、コンテキスト内学習技術では、モデルがいくつかの例だけで下流タスクを学習できる。
近年,コンテキスト内学習がバグ検出や修復に有効であることが示された。
本稿では,バギーバージョンと非バギーバージョンの両方がモデルに与えられ,モデルがバギーバージョンを特定するコードペア分類タスクを提案する。
実世界のバグ検出データセットと2つの強力なLCMでタスクを評価する。
私たちの実験では、llmはコードの非バグバージョンからバグを選択できることが多く、コードペアの分類タスクはスニペットを与えるよりもずっと簡単であり、バグが存在するかどうかを判断できることを示している。 Large language models (LLMs) such as GPT-3.5 and CodeLlama are powerful models for code generation and understanding. Fine-tuning these models comes with a high computational cost and requires a large labeled dataset. Alternatively, in-context learning techniques allow models to learn downstream tasks with only a few examples. Recently, researchers have shown how in-context learning performs well in bug detection and repair. In this paper, we propose code-pair classification task in which both the buggy and non-buggy versions are given to the model, and the model identifies the buggy ones. We evaluate our task in real-world dataset of bug detection and two most powerful LLMs. Our experiments indicate that an LLM can often pick the buggy from the non-buggy version of the code, and the code-pair classification task is much easier compared to be given a snippet and deciding if and where a bug exists. | 翻訳日:2024-01-30 21:24:27 公開日:2024-01-28 |
# GOPlan:学習モデルによる計画による目標条件付きオフライン強化学習 GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models ( http://arxiv.org/abs/2310.20025v2 ) ライセンス: Link先を確認 | Mianchu Wang, Rui Yang, Xi Chen, Hao Sun, Giovanni Montana, Meng Fang | (参考訳) オフラインの目標条件付きrl(gcrl)は、多様なマルチタスクのオフラインデータセットから汎用ポリシーを学ぶための実現可能なパラダイムを提供する。
最近の顕著な進歩にもかかわらず、主にモデルフリーのオフラインGCRLメソッドは、限られたデータを扱うことや、目に見えない目標に一般化する際の制約に直面している。
本研究は,(1)多目的データセット内でマルチモーダルな行動分布をキャプチャ可能な事前ポリシーを事前学習する,(2)計画と再解析手法を併用し,予測された方針の軌跡を生成する,という2つの重要なフェーズを含む,新たなモデルに基づくオフライン計画手法であるgoplanを提案する。
具体的には,個別モード分離を容易にし,out-of-distribution (ood) 動作の落とし穴を緩和する,アドバンテージ重み付け型ジェネレーショナル・敵対ネットワークを前提とした。
さらなる政策最適化のために、軌道内目標と軌道間目標の両方について学習モデルを用いて計画し、高品質な虚構データを生成する。
実験により,様々なオフラインマルチゴールナビゲーションと操作タスクにおいて,goplanが最先端のパフォーマンスを実現することを実証した。
さらに,GOPlanが小規模なデータ予算を処理し,OOD目標を一般化する上での優れた能力を強調した。 Offline Goal-Conditioned RL (GCRL) offers a feasible paradigm for learning general-purpose policies from diverse and multi-task offline datasets. Despite notable recent progress, the predominant offline GCRL methods, mainly model-free, face constraints in handling limited data and generalizing to unseen goals. In this work, we propose Goal-conditioned Offline Planning (GOPlan), a novel model-based framework that contains two key phases: (1) pretraining a prior policy capable of capturing multi-modal action distribution within the multi-goal dataset; (2) employing the reanalysis method with planning to generate imagined trajectories for funetuning policies. Specifically, we base the prior policy on an advantage-weighted conditioned generative adversarial network, which facilitates distinct mode separation, mitigating the pitfalls of out-of-distribution (OOD) actions. For further policy optimization, the reanalysis method generates high-quality imaginary data by planning with learned models for both intra-trajectory and inter-trajectory goals. With thorough experimental evaluations, we demonstrate that GOPlan achieves state-of-the-art performance on various offline multi-goal navigation and manipulation tasks. Moreover, our results highlight the superior ability of GOPlan to handle small data budgets and generalize to OOD goals. | 翻訳日:2024-01-30 21:20:45 公開日:2024-01-28 |
# グラフ上でのマルチタスク事前学習とプロンプトのためのマルチgprompt MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs ( http://arxiv.org/abs/2312.03731v3 ) ライセンス: Link先を確認 | Xingtong Yu, Chang Zhou, Yuan Fang, Xinming Zhang | (参考訳) グラフは本質的にWeb上の相互接続オブジェクトをモデル化することができ、Web分析やコンテントレコメンデーションといった一連のWebアプリケーションを容易にします。
近年,グラフ表現学習の主流技術としてグラフニューラルネットワーク(GNN)が登場している。
しかし、エンドツーエンドの監視フレームワークでの有効性は、タスク固有のラベルの可用性にかなり関係しています。
ラベリングコストを軽減し、数ショット設定で堅牢性を高めるため、自己指導型タスクの事前訓練が有望な方法として現れ、プリテキストと下流タスクの客観的ギャップをさらに狭めるためのプロンプトが提案されている。
グラフ上でのプロンプトベース学習の初期調査はあったが、それらは主に単一のプリテキストタスクを活用し、事前学習データから学べる一般的な知識のサブセットが限られている。
そこで本稿では,マルチタスク事前学習およびプロンプトフレームワークであるmultigpromptを提案する。
まず、事前学習において、複数のプリテキストタスクを相乗化するためのプリテキストトークンセットを設計する。
第2に,タスク固有の,グローバルな事前学習知識を活用するためのオープンプロンプトとオープンプロンプトから構成されたデュアルプロンプト機構を提案する。
最後に、MultiGPromptの評価と分析を行うために、6つの公開データセットに関する広範な実験を行う。 Graphs can inherently model interconnected objects on the Web, thereby facilitating a series of Web applications, such as web analyzing and content recommendation. Recently, Graph Neural Networks (GNNs) have emerged as a mainstream technique for graph representation learning. However, their efficacy within an end-to-end supervised framework is significantly tied to the availabilityof task-specific labels. To mitigate labeling costs and enhance robustness in few-shot settings, pre-training on self-supervised tasks has emerged as a promising method, while prompting has been proposed to further narrow the objective gap between pretext and downstream tasks. Although there has been some initial exploration of prompt-based learning on graphs, they primarily leverage a single pretext task, resulting in a limited subset of general knowledge that could be learned from the pre-training data. Hence, in this paper, we propose MultiGPrompt, a novel multi-task pre-training and prompting framework to exploit multiple pretext tasks for more comprehensive pre-trained knowledge. First, in pre-training, we design a set of pretext tokens to synergize multiple pretext tasks. Second, we propose a dual-prompt mechanism consisting of composed and open prompts to leverage task-specific and global pre-training knowledge, to guide downstream tasks in few-shot settings. Finally, we conduct extensive experiments on six public datasets to evaluate and analyze MultiGPrompt. | 翻訳日:2024-01-30 21:11:57 公開日:2024-01-28 |
# JAXにおける自動機能分化 Automatic Functional Differentiation in JAX ( http://arxiv.org/abs/2311.18727v2 ) ライセンス: Link先を確認 | Min Lin | (参考訳) JAXを高階関数(関数と演算子)を自動的に区別する機能で拡張します。
配列の一般化として関数を表現することで、jaxの既存のプリミティブシステムをシームレスに高次関数を実装する。
本稿では, 基本構造ブロックとして機能するプリミティブ演算子の集合について述べる。
導入されたすべてのプリミティブ演算子に対して、前方および逆モードの自動微分のためのJAXの内部プロトコルと整合して、線形化と転置ルールの両方を導出し実装する。
この拡張により、伝統的に関数に使用される同じ構文で関数の分化が可能になる。
その結果生じる関数勾配は、pythonで呼び出される準備ができている関数である。
機能的微分が不可欠であるアプリケーションを通じて、このツールの有効性と簡易性を示す。
この作業のソースコードはhttps://github.com/sail-sg/autofdで公開されている。 We extend JAX with the capability to automatically differentiate higher-order functions (functionals and operators). By representing functions as a generalization of arrays, we seamlessly use JAX's existing primitive system to implement higher-order functions. We present a set of primitive operators that serve as foundational building blocks for constructing several key types of functionals. For every introduced primitive operator, we derive and implement both linearization and transposition rules, aligning with JAX's internal protocols for forward and reverse mode automatic differentiation. This enhancement allows for functional differentiation in the same syntax traditionally use for functions. The resulting functional gradients are themselves functions ready to be invoked in python. We showcase this tool's efficacy and simplicity through applications where functional derivatives are indispensable. The source code of this work is released at https://github.com/sail-sg/autofd . | 翻訳日:2024-01-30 21:10:42 公開日:2024-01-28 |
# 訓練ラベルを用いたインプテーションとラベルインプテーションによる分類 Imputation using training labels and classification via label imputation ( http://arxiv.org/abs/2311.16877v2 ) ライセンス: Link先を確認 | Thu Nguyen, Tuan L. Vo, P{\aa}l Halvorsen, Michael A. Riegler | (参考訳) データの欠落は、実用的な設定ではよくある問題である。
欠落データを扱うために様々なインプテーション法が開発されている。
しかしながら、ラベルは通常トレーニングデータで利用可能であるが、一般的にはインプテーションのプラクティスは入力のみに依存し、ラベルを無視する。
本稿では,ラベルを入力に積み重ねることで入力のインプットを大幅に改善できることを示す。
さらに, 予測されたテストラベルを欠落値で初期化し, インプテーションの入力でラベルをスタックする分類戦略を提案する。
これによりラベルと入力を同時にインプットすることができる。
また、この技術は、事前の計算なしに、欠落ラベルによるデータトレーニングを処理でき、連続、分類、混合型データに適用できる。
実験は精度で有望な結果を示す。 Missing data is a common problem in practical settings. Various imputation methods have been developed to deal with missing data. However, even though the label is usually available in the training data, the common practice of imputation usually only relies on the input and ignores the label. In this work, we illustrate how stacking the label into the input can significantly improve the imputation of the input. In addition, we propose a classification strategy that initializes the predicted test label with missing values and stacks the label with the input for imputation. This allows imputing the label and the input at the same time. Also, the technique is capable of handling data training with missing labels without any prior imputation and is applicable to continuous, categorical, or mixed-type data. Experiments show promising results in terms of accuracy. | 翻訳日:2024-01-30 21:10:30 公開日:2024-01-28 |
# 潜在リズミカル構造のための歌詞を用いた新しいスコアの自動時間シグネチャ決定 Automatic Time Signature Determination for New Scores Using Lyrics for Latent Rhythmic Structure ( http://arxiv.org/abs/2311.15480v2 ) ライセンス: Link先を確認 | Callie C. Liao, Duoduo Liao, Jesse Guessford | (参考訳) 最近、AIGC(Artificial Intelligence-Generated Content)への関心が高まっている。
それにもかかわらず、タイムシグネチャのような音楽成分は、新しい作曲、特に歌詞歌のアルゴリズム決定アプローチを形成するために十分に研究されていない。
これはおそらく、ロバストなフレームワークを構築する上で重要な音楽的詳細を無視しているためだろう。
特に、タイムシグネチャは、フレーズや音符を含む歌のほとんど全ての側面の基本的なリズム構造を確立する。
本稿では,歌詞のみを入力として用いることで,歌詞の適合時間シグネチャを自動生成し,説明可能な機械学習モデルを用いて潜在リズム構造を明らかにする手法を提案する。
特に,リズミカルパターンの発見や,リズミカルな,リズミカルな,統計的な情報を同時に含む新機能の作成に関連する複数の手法を考案する。
本手法では, 実験結果から, 受信器動作特性(ROC)の97.6%のF1スコアと0.996のエリアアンダー・ザ・カーブ(AUC)スコアが得られた。
結論として,本研究では,音楽学の未研究要素に近づき,人工知能(AI)音楽生成の将来に大きく貢献する革新的アイデアとして,機械学習を活用した新たなスコアを歌詞から自動生成する。 There has recently been a sharp increase in interest in Artificial Intelligence-Generated Content (AIGC). Despite this, musical components such as time signatures have not been studied sufficiently to form an algorithmic determination approach for new compositions, especially lyrical songs. This is likely because of the neglect of musical details, which is critical for constructing a robust framework. Specifically, time signatures establish the fundamental rhythmic structure for almost all aspects of a song, including the phrases and notes. In this paper, we propose a novel approach that only uses lyrics as input to automatically generate a fitting time signature for lyrical songs and uncover the latent rhythmic structure utilizing explainable machine learning models. In particular, we devise multiple methods that are associated with discovering lyrical patterns and creating new features that simultaneously contain lyrical, rhythmic, and statistical information. In this approach, the best of our experimental results reveal a 97.6% F1 score and a 0.996 Area Under the Curve (AUC) of the Receiver Operating Characteristic (ROC) score. In conclusion, our research directly generates time signatures from lyrics automatically for new scores utilizing machine learning, which is an innovative idea that approaches an understudied component of musicology and therefore contributes significantly to the future of Artificial Intelligence (AI) music generation. | 翻訳日:2024-01-30 21:10:02 公開日:2024-01-28 |
# 数発アウトオブ・ディストリビューション検出に向けて Towards Few-shot Out-of-Distribution Detection ( http://arxiv.org/abs/2311.12076v2 ) ライセンス: Link先を確認 | Jiuqing Dong, Yongbin Gao, Heng Zhou, Jun Cen, Yifan Yao, Sook Yoon, Park Dong Sun | (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、オープンワールドのインテリジェントシステムの信頼性を確保するために重要である。
既存のOOD検出法では顕著な進歩があったが,本研究では,トレーニングサンプルの不足下での顕著な性能低下を確認した。
この文脈では,このギャップに対処するために慎重に構築された,新たな少数ショットood検出ベンチマークを導入する。
我々の経験的分析は,数発のOOD検出タスクにおける完全微調整や線形探触子を含む従来の手法よりも,視覚的プロンプトチューニングや視覚的アダプタチューニングといったパラメータ効率の良い細調整(PEFT)戦略が優れていることを示す。
そこで,ood検出に欠かせない事前学習モデルから重要な情報を認識する手法として,ドメイン固有および一般知識融合(dsgf)を提案する。
このアプローチはさまざまな微調整フレームワークと互換性があるように設計されている。
実験の結果,DSGFの統合により,フル微調整,視覚的適応チューニング,視覚的プロンプトチューニングなど,様々な手法や微調整手法による数発のOOD検出機能が大幅に向上することがわかった。
コードはリリースされます。 Out-of-distribution (OOD) detection is critical for ensuring the reliability of open-world intelligent systems. Despite the notable advancements in existing OOD detection methodologies, our study identifies a significant performance drop under the scarcity of training samples. In this context, we introduce a novel few-shot OOD detection benchmark, carefully constructed to address this gap. Our empirical analysis reveals the superiority of ParameterEfficient Fine-Tuning (PEFT) strategies, such as visual prompt tuning and visual adapter tuning, over conventional techniques, including fully fine-tuning and linear probing tuning in the few-shot OOD detection task. Recognizing some crucial information from the pre-trained model, which is pivotal for OOD detection, may be lost during the fine-tuning process, we propose a method termed DomainSpecific and General Knowledge Fusion (DSGF). This approach is designed to be compatible with diverse fine-tuning frameworks. Our experiments show that the integration of DSGF significantly enhances the few-shot OOD detection capabilities across various methods and fine-tuning methodologies, including fully fine-tuning, visual adapter tuning, and visual prompt tuning. The code will be released. | 翻訳日:2024-01-30 21:08:54 公開日:2024-01-28 |
# 弱散逸限界における開量子多体系のLiouvillian-gap解析 Liouvillian-gap analysis of open quantum many-body systems in the weak dissipation limit ( http://arxiv.org/abs/2311.10304v2 ) ライセンス: Link先を確認 | Takashi Mori | (参考訳) 最近の実験では、多体リンドブラッド方程式の理論的研究を刺激する相互作用と散逸の相互作用によって、新しい物理学がオープン量子多体sys-temsに現れると報告されている。
強い放散体制は、この文脈ではかなりの内包を受け取っているが、この研究は弱い放散に焦点を当てている。
特定モデルに対する多体リンドブラッド発生器のスペクトル特性を調べることにより、熱力学限界を最初に取ると、そのスペクトルギャップは弱い散逸限界の特異性を示す。
解析的な議論と数値計算に基づき、そのような特異性はバルク散逸量子多体系において一般的であり、孤立系の熱化の時間スケールを決定するカオス理論におけるルエル・ポリコット共鳴の概念と関係していると推測する。
この予想は、弱散逸状態における多体リンドブラッド方程式が量子多体系の固有性質に関する非自明な情報を含んでいることを示唆している。 Recent experiments have reported that novel physics emerge in open quantum many-body sys- tems due to an interplay of interactions and dissipation, which stimulate theoretical studies of the many-body Lindblad equation. Although the strong dissipation regime receives considerable in- terest in this context, this work focuses on the weak bulk dissipation. By examining the spectral property of the many-body Lindblad generator for specific models, we find that its spectral gap shows singularity in the weak dissipation limit when the thermodynamic limit is taken first. Based on analytical arguments and numerical calculations, we conjecture that such a singularity is generic in bulk-dissipated quantum many-body systems and is related to the concept of the Ruelle-Pollicott resonance in chaos theory, which determines the timescale of thermalization of an isolated system. This conjecture suggests that the many-body Lindblad equation in the weak dissipation regime contains nontrivial information on intrinsic properties of a quantum many-body system. | 翻訳日:2024-01-30 21:08:33 公開日:2024-01-28 |
# 一般化確率論における非分極基準デバイス Depolarizing Reference Devices in Generalized Probabilistic Theories ( http://arxiv.org/abs/2312.12790v3 ) ライセンス: Link先を確認 | Matthew B. Weiss | (参考訳) QBismは量子論の解釈であり、量子力学をいくつかの特別な規範的制約を補足した標準確率論とみなす。
基本的なギャンビットは、情報的に完全な参照装置に関して、状態や測定値、時間発展を表現することである。
この観点から、ボルンの規則は、全確率法則(LTP)の変形として現れるいくつかの異なる実験における確率割り当てのコヒーレンス条件として現れる。
本研究では、この変形が「簡単」な(短期的なアフィン)形式をとる参照デバイスを、完全に特徴づける。
一般化確率論(gpts)の枠組みにおいて、任意の基準測定値が与えられたとき、測定後の参照状態の組が常に選択され、その確率規則をこの形式で与えることができることを示した。
必須条件は、対応する測度とプレパアチャネルが脱分極可能であることである。
また, szymusiak と s{\l}omczy\'nski が最近導入した morphophoriity の概念と, 行列ノルムに基づく ltp 変形測定を批判的に再検討した。
この分析から QBist プロジェクトで際立つことは、それは、規範的に理解しなければならないボルンの規則の純粋な形式であるだけでなく、その内部の定数でもあるということである。
量子論の細部を担っているのが彼らです。 QBism is an interpretation of quantum theory which views quantum mechanics as standard probability theory supplemented with a few extra normative constraints. The fundamental gambit is to represent states and measurements, as well as time evolution, with respect to an informationally complete reference device. From this point of view, the Born rule appears as a coherence condition on probability assignments across several different experiments which manifests as a deformation of the law of total probability (LTP). In this work, we fully characterize those reference devices for which this deformation takes a "simplest possible" (term-wise affine) form. Working in the framework of generalized probability theories (GPTs), we show that, given any reference measurement, a set of post-measurement reference states can always be chosen to give its probability rule this very form. The essential condition is that the corresponding measure-and-prepare channel be depolarizing. We also relate our construction to Szymusiak and S{\l}omczy\'nski's recently introduced notion of morphophoricity and re-examine critically a matrix-norm-based measure of LTP deformation in light of our results. What stands out for the QBist project from this analysis is that it is not only the pure form of the Born rule that must be understood normatively, but the constants within it as well. It is they that carry the details of quantum theory. | 翻訳日:2024-01-30 21:00:58 公開日:2024-01-28 |
# 正規化アテンションスコアを用いたより強いグラフ変換器 Stronger Graph Transformer with Regularized Attention Scores ( http://arxiv.org/abs/2312.11730v2 ) ライセンス: Link先を確認 | Eugene Ku, Swetha Arunraj | (参考訳) Graph Neural Networksは、そのメモリ消費で有名だ。
最近、Graph Transformerと呼ばれるTransformerベースのGNNでは、長距離依存が存在する場合、優れたパフォーマンスが得られることが示されている。
しかし、グラフデータとトランスフォーマーアーキテクチャを組み合わせることで、メモリの問題がさらに悪化した。
本稿では、位置エンコーディングの必要性を軽減し、GTのメモリ外問題を軽減する「エッジ正規化技術」の新たなバージョンを提案する。
位置符号化の上にエッジ正規化があるかどうかは明らかでない。
しかし, エッジ正規化技術を用いることで, 位置エンコーディングのないGTと比較してGTの性能が安定的に向上することが明らかである。 Graph Neural Networks are notorious for its memory consumption. A recent Transformer-based GNN called Graph Transformer is shown to obtain superior performances when long range dependencies exist. However, combining graph data and Transformer architecture led to a combinationally worse memory issue. We propose a novel version of "edge regularization technique" that alleviates the need for Positional Encoding and ultimately alleviate GT's out of memory issue. We observe that it is not clear whether having an edge regularization on top of positional encoding is helpful. However, it seems evident that applying our edge regularization technique indeed stably improves GT's performance compared to GT without Positional Encoding. | 翻訳日:2024-01-30 21:00:05 公開日:2024-01-28 |
# Time-Transformer: ローカルおよびグローバル機能の統合による時系列生成の改善 Time-Transformer: Integrating Local and Global Features for Better Time Series Generation ( http://arxiv.org/abs/2312.11714v3 ) ライセンス: Link先を確認 | Yuansan Liu, Sudanthi Wijewickrema, Ang Li, Christofer Bester, Stephen O'Leary, James Bailey | (参考訳) 時系列データの生成は、データ不足問題に対処するための有望なアプローチである。
しかし、局所的相関やグローバルな依存関係を含む時系列データの複雑な時間的特性のため、これは困難である。
既存の生成モデルは、時系列データの局所的特性と大域的特性の両方を効果的に学べなかった。
この問題に対処するため, 対向オートエンコーダ (AAE) とデコーダ内に新たに設計されたアーキテクチャ "Time-Transformer" から構成される新しい時系列生成モデル「Time-Transformer AAE」を提案する。
Time-Transformerは、まず、時間的畳み込みネットワークとTransformerがそれぞれローカル特徴とグローバル依存関係を抽出する能力を組み合わせて、レイヤワイド並列設計でローカル特徴とグローバル特徴を同時に学習する。
第2に,両枝間の補完的ガイダンスを提供し,局所的特徴とグローバル特徴の適切な融合を実現するために,双方向のクロス・アテンションを提案する。
実験の結果,本モデルは6つのデータセットのうち5つ,特にグローバルプロパティとローカルプロパティの両方を含むデータに対して,既存の最先端モデルよりも優れることがわかった。
さらに,このモデルのアドバンテージとして,人工データセットによるデータ処理を強調する。
最後に、小さなデータセットと不均衡なデータセットによる学習をサポートするデータ拡張という、現実的な問題に対処するモデルの能力を示す。 Generating time series data is a promising approach to address data deficiency problems. However, it is also challenging due to the complex temporal properties of time series data, including local correlations as well as global dependencies. Most existing generative models have failed to effectively learn both the local and global properties of time series data. To address this open problem, we propose a novel time series generative model named 'Time-Transformer AAE', which consists of an adversarial autoencoder (AAE) and a newly designed architecture named 'Time-Transformer' within the decoder. The Time-Transformer first simultaneously learns local and global features in a layer-wise parallel design, combining the abilities of Temporal Convolutional Networks and Transformer in extracting local features and global dependencies respectively. Second, a bidirectional cross attention is proposed to provide complementary guidance across the two branches and achieve proper fusion between local and global features. Experimental results demonstrate that our model can outperform existing state-of-the-art models in 5 out of 6 datasets, specifically on those with data containing both global and local properties. Furthermore, we highlight our model's advantage on handling this kind of data via an artificial dataset. Finally, we show our model's ability to address a real-world problem: data augmentation to support learning with small datasets and imbalanced datasets. | 翻訳日:2024-01-30 20:59:54 公開日:2024-01-28 |
# 人間のフィードバックからの反復的選好学習:KL制約下でのRLHFのブリッジ理論と実践 Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint ( http://arxiv.org/abs/2312.11456v2 ) ライセンス: Link先を確認 | Wei Xiong, Hanze Dong, Chenlu Ye, Ziqi Wang, Han Zhong, Heng Ji, Nan Jiang, Tong Zhang | (参考訳) 本稿では,RLHF(Reinforcement Learning from Human Feedback)を用いた生成モデルのアライメント過程の理論的枠組みについて考察する。
我々は、標準的な数学的定式化、RLHFの逆KL正規化文脈帯域を考える。
広く応用されているにもかかわらず、この定式化の厳密な理論解析はいまだに開かれていない。
我々は、オフライン、オンライン、ハイブリッドの3つの異なる設定でその振る舞いを調査し、有限サンプル理論的保証を持つ効率的なアルゴリズムを提案する。
私たちのフレームワークは、oracleの情報理論的なポリシー改善を堅牢に近似しており、自然にいくつかの新しいrlhfアルゴリズムを生み出します。
これには、オンライン設定のためのdirect preference optimization (dpo)アルゴリズムの反復バージョン、オフラインシナリオのためのマルチステップ拒否サンプリング戦略が含まれる。
大規模言語モデルの実世界アライメント実験における経験的評価により,提案手法が既存の強固なベースライン,例えばdpoやrso(rejection sampling optimization)を大幅に上回っており,強固な理論的基礎と強力な実践的実装との関係が示されている。 This paper studies the theoretical framework of the alignment process of generative models with Reinforcement Learning from Human Feedback (RLHF). We consider a standard mathematical formulation, the reverse-KL regularized contextual bandit for RLHF. Despite its widespread practical application, a rigorous theoretical analysis of this formulation remains open. We investigate its behavior in three distinct settings -- offline, online, and hybrid -- and propose efficient algorithms with finite-sample theoretical guarantees. Moving towards practical applications, our framework, with a robust approximation of the information-theoretical policy improvement oracle, naturally gives rise to several novel RLHF algorithms. This includes an iterative version of the Direct Preference Optimization (DPO) algorithm for online settings, and a multi-step rejection sampling strategy for offline scenarios. Our empirical evaluations on real-world alignment experiment of large language model demonstrate that these proposed methods significantly surpass existing strong baselines, such as DPO and Rejection Sampling Optimization (RSO), showcasing the connections between solid theoretical foundations and their powerful practical implementations. | 翻訳日:2024-01-30 20:59:15 公開日:2024-01-28 |
# 視線推定のためのメタプロンプトによるテスト時間パーソナライズ Test-Time Personalization with Meta Prompt for Gaze Estimation ( http://arxiv.org/abs/2401.01577v2 ) ライセンス: Link先を確認 | Huan Liu, Julia Qi, Zhenhao Li, Mohammad Hassanpour, Yang Wang, Konstantinos Plataniotis, Yuanhao Yu | (参考訳) 近年の視線推定における顕著な成果にもかかわらず、ラベルのない視線推定の効率的かつ正確な個人化は現実的な問題であるが、文献にはほとんど触れられていない。
効率のよいパーソナライズを実現するために,テスト時間に"prompts"という無視可能なパラメータを更新することで,自然言語処理(NLP)の最近の進歩から着想を得た。
具体的には、プロンプトは元のネットワークを乱すことなく付加され、ResNet-18のパラメータの1%未満を含むことができる。
我々の実験は、高速チューニング手法の高効率を示す。
提案手法は,提案手法に比べて適応速度の10倍の速度で適用可能である。
しかし、ラベルなしでパーソナライズされた視線推定のプロンプトを更新するのは簡単ではない。
テスト時には、特定の教師なし損失の最小化が、視線推定誤差の最小化に繋がることを保証することが不可欠である。
この課題に対処するため、我々は、その更新が目標と一致していることを保証するプロンプトをメタ学習することを提案する。
実験の結果,メタ学習プロンプトは単純な対称性の損失でも効果的に適応できることがわかった。
さらに,提案手法の優れた利点を示すために,4つのクロスデータセット検証を実験した。 Despite the recent remarkable achievement in gaze estimation, efficient and accurate personalization of gaze estimation without labels is a practical problem but rarely touched on in the literature. To achieve efficient personalization, we take inspiration from the recent advances in Natural Language Processing (NLP) by updating a negligible number of parameters, "prompts", at the test time. Specifically, the prompt is additionally attached without perturbing original network and can contain less than 1% of a ResNet-18's parameters. Our experiments show high efficiency of the prompt tuning approach. The proposed one can be 10 times faster in terms of adaptation speed than the methods compared. However, it is non-trivial to update the prompt for personalized gaze estimation without labels. At the test time, it is essential to ensure that the minimizing of particular unsupervised loss leads to the goals of minimizing gaze estimation error. To address this difficulty, we propose to meta-learn the prompt to ensure that its updates align with the goal. Our experiments show that the meta-learned prompt can be effectively adapted even with a simple symmetry loss. In addition, we experiment on four cross-dataset validations to show the remarkable advantages of the proposed method. | 翻訳日:2024-01-30 20:49:27 公開日:2024-01-28 |
# 高次セルオートマタによるトポロジカル位相の生成と多点ストレンジ相関器による検出 Higher-Order Cellular Automata Generated Symmetry-Protected Topological Phases and Detection Through Multi-Point Strange Correlators ( http://arxiv.org/abs/2401.00505v2 ) ライセンス: Link先を確認 | Jie-Yu Zhang, Meng-Yuan Li, Peng Ye | (参考訳) コンピュータ科学およびシステム科学において、上位セルオートマトン(higher-order cellular automata、hoca)は、複数の時間ステップで進化し、複雑なパターンを生成するセルオートマトンの一種であり、秘密共有スキーム、データ圧縮、画像暗号化など様々な応用がある。
本稿では、量子多体物理学にHOCAを導入し、SPTバルクに埋め込まれた多種多様なサブシステムで対称性が支持される一連の物質の対称性保護トポロジカル(SPT)相を構築する。
これらの相をHOCA生成SPT(HGSPT)相と呼ぶ。
具体的には、HOCAが正規(例えば、2Dクラスタモデルのラインライクなサブシステム)またはフラクタルサブシステムでサポートされている対称性を持つよく理解されたSPTを生成できるだけでなく、より多くのサブシステムでサポートされている対称性を持つ探索されていないSPTの大規模なクラスも生成可能であることを示す。
1つの例は、フラクタルとラインのようなサブシステム対称性を同時にまたは2つの異なるタイプのフラクタル対称性を持つ混合サブシステムsptである。
また、カオス的なSPTは、カオス的な対称性とは大きく異なり、フラクタルあるいは正規サブシステム対称性に還元できない。
また,hgsptを特徴付ける新しい表記法を提案する。
多くのHGSPTでは通常の2点奇数相関器は自明であるため、非自明なSPT順序は多点奇数相関器と呼ばれるものによって検出できる。
与えられたHGSPT位相に対する多点奇妙な相関器の空間構成を設計するための普遍的な手順を提案する。
我々のHOCAプログラムと多点奇妙な相関器は、様々なサブシステムでサポートされている対称性で物質相を設計、分類、検出するための統一パラダイムの道を開くとともに、HOCAの計算不可能性を量子力学的に超越する潜在的に有用な視点を提供する。 In computer and system sciences, higher-order cellular automata (HOCA) are a type of cellular automata that evolve over multiple time steps and generate complex patterns, which have various applications such as secret sharing schemes, data compression, and image encryption. In this paper, we introduce HOCA to quantum many-body physics and construct a series of symmetry-protected topological (SPT) phases of matter, in which symmetries are supported on a great variety of subsystems embbeded in the SPT bulk. We call these phases HOCA-generated SPT (HGSPT) phases. Specifically, we show that HOCA can generate not only well-understood SPTs with symmetries supported on either regular (e.g., line-like subsystems in the 2D cluster model) or fractal subsystems, but also a large class of unexplored SPTs with symmetries supported on more choices of subsystems. One example is mixed-subsystem SPT that has either fractal and line-like subsystem symmetries simultaneously or two distinct types of fractal symmetries simultaneously. Another example is chaotic SPT in which chaotic-looking symmetries are significantly different from and thus cannot reduce to fractal or regular subsystem symmetries. We also introduce a new notation system to characterize HGSPTs. As the usual two-point strange correlators are trivial in most HGSPTs, we find that the nontrivial SPT orders can be detected by what we call multi-point strange correlators. We propose a universal procedure to design the spatial configuration of the multi-point strange correlators for a given HGSPT phase. Our HOCA programs and multi-point strange correlators pave the way for a unified paradigm to design, classify, and detect phases of matter with symmetries supported on a great variety of subsystems, and also provide potential useful perspective in surpassing the computational irreducibility of HOCA in a quantum mechanical way. | 翻訳日:2024-01-30 20:49:07 公開日:2024-01-28 |
# 量子ドットにおける単一電子スピン量子ビットの加速断熱通過 Accelerated adiabatic passage of a single electron spin qubit in quantum dots ( http://arxiv.org/abs/2312.13135v2 ) ライセンス: Link先を確認 | Xiao-Fei Liu, Yuta Matsumoto, Takafumi Fujita, Arne Ludwig, Andreas D. Wieck, Akira Oiwa | (参考訳) 断熱過程は量子系を瞬時に固有状態に保つことができ、ノイズや散逸に対して頑健である。
しかし、十分に遅い進化によって制限される。
ここでは、ゲート定義半導体量子ドット(QD)におけるショートカットの非定常量子駆動(TLQD)を実験的に実証し、従来の断熱通路を初めて大幅に加速する。
量子状態移動の効率が与えられた場合、加速度は2倍以上になる。
動的性質は、TLQDが高速かつ高忠実な量子状態転移を保証できることを証明している。
ノイズの強調によるダイアバティック誤りを補償するために, 改良tlqdを提案し, 逆ダイアバティック駆動の幅を拡大して実験を行った。
ベンチマークの結果、97.8%の状態遷移忠実度が達成できることが示された。
この研究は、ゲート定義QDに基づく量子シミュレーションと断熱量子計算の研究と応用を大いに促進する。 Adiabatic processes can keep the quantum system in its instantaneous eigenstate, which is robust to noises and dissipation. However, it is limited by sufficiently slow evolution. Here, we experimentally demonstrate the transitionless quantum driving (TLQD) of the shortcuts to adiabaticity in gate-defined semiconductor quantum dots (QDs) to greatly accelerate the conventional adiabatic passage for the first time. For a given efficiency of quantum state transfer, the acceleration can be more than twofold. The dynamic properties also prove that the TLQD can guarantee fast and high-fidelity quantum state transfer. In order to compensate for the diabatic errors caused by dephasing noises, the modified TLQD is proposed and demonstrated in experiment by enlarging the width of the counter-diabatic drivings. The benchmarking shows that the state transfer fidelity of 97.8% can be achieved. This work will greatly promote researches and applications about quantum simulations and adiabatic quantum computation based on the gate-defined QDs. | 翻訳日:2024-01-30 20:44:32 公開日:2024-01-28 |
# オペレータの拡散と多体局在の欠如 Operator Spreading and the Absence of Many-Body Localization ( http://arxiv.org/abs/2401.08031v2 ) ライセンス: Link先を確認 | A. Weisse, R. Gerstner, J. Sirker | (参考訳) 一次元多体系のユークリッド時間における局所作用素$A$の拡散は、ハミルトニアン$H$を$k$折り畳み演算子$[H,[H,[...,[H,A]]]$を計算して考える。
我々は、自由かつ相互作用するフェルミオン系におけるこの可換作用素の作用素ノルムに対する一般境界を導出する。
特に局所化系において、ノルムは最も指数関数的に増大し、全ノルムに対する作用素の寄与はその長さで指数関数的に抑制されることを示す。
ランダム磁場を持つXXZ鎖の具体例を1つ検討することにより、一般結果を支援する。
XXの場合の演算子は、正確には障害なく拡散する。
Anderson と Aubry-Andr\e モデルに対して、厳密な上限を与える。
我々は,コンピュテータの記号計算を最高注文数まで行うことで,結果を支援する。
ランダム磁場を持つ xxx の場合、これらの記号的計算は指数関数よりも早く作用素ノルムの成長を示し、非局所化系の一般境界と一致する。
また、作用素の長さの関数としての寄与の指数的減衰は存在しない。
我々は多体局在遷移の兆候がないと結論づけた。
最後に、連続するシュリーファー-ウルフ変換による局所保存電荷の有効なハミルトニアンに顕微鏡を摂動的に変換しようとする場合の相互作用と非相互作用のケースの違いについても論じる。
このようなアプローチは相互作用の場合において十分に定義されていないのは、変換がサイトを接続する$\sim 4^\ell$項を生成するためであり、各項の振幅の$\ell$で指数減衰を圧倒することができるからである。 We consider the spreading of a local operator $A$ in Euclidean time in one-dimensional many-body systems with Hamiltonian $H$ by calculating the $k$-fold commutator $[H,[H,[...,[H,A]]]]$. We derive general bounds for the operator norm of this commutator in free and interacting fermionic systems with and without disorder. We show, in particular, that in a localized system the norm does grow at most exponentially and that the contributions of operators to the total norm are exponentially suppressed with their length. We support our general results by considering one specific example, the XXZ chain with random magnetic fields. We solve the operator spreading in the XX case without disorder exactly. For the Anderson and Aubry-Andr\'e models we provide strict upper bounds. We support our results by symbolic calculations of the commutator up to high orders. For the XXX case with random magnetic fields, these symbolic calculations show a growth of the operator norm faster than exponential and consistent with the general bound for a non-localized system. Also, there is no exponential decay of the contribution of operators as function of their length. We conclude that there is no indication for a many-body localization transition. Finally, we also discuss the differences between the interacting and non-interacting cases when trying to perturbatively transform the microscopic to an effective Hamiltonian of local conserved charges by consecutive Schrieffer-Wolff transformations. We find that such an approach is not well-defined in the interacting case because the transformation generates $\sim 4^\ell$ terms connecting sites a distance $\ell$ apart which can overwhelm the exponential decay with $\ell$ of the amplitude of each individual term. | 翻訳日:2024-01-30 20:37:57 公開日:2024-01-28 |
# 拡散相関分光法における血流評価の強化:ノイズロバスト性分析を用いた伝達学習アプローチ Enhancing Blood Flow Assessment in Diffuse Correlation Spectroscopy: A Transfer Learning Approach with Noise Robustness Analysis ( http://arxiv.org/abs/2401.05580v2 ) ライセンス: Link先を確認 | Xi Chen, Xingda Li | (参考訳) 拡散相関分光法(Diffuse correlation spectroscopy, DCS)は、近赤外コヒーレント点源照明を用いて組織血流を測定する非侵襲的手法である。
機械学習は、血流指数(BFi)を測定する大きな可能性を示しているが、このアプローチの成功に関するオープンな疑問は、様々な臨床応用と様々な設定から派生したSNR(Signal-to-Noise Ratios)を持つデータセット間のずれを含むシナリオにおける堅牢性に関するものである。
本研究では,伝達学習手法を提案し,SNRが学習特徴の一般化能力に与える影響を評価し,伝達学習の堅牢性を示す。
付加雑音のレベルが異なる合成データセットを用いて、異なるSNRをシミュレートする。
提案するネットワークは1x64自己相関曲線を入力とし,BFiと相関パラメータベータを生成する。
提案モデルは異なるsnrに対して優れた性能を示し,他のフィッティング法と比較して,特に低snrデータセットに対して高いフィッティング精度を示す。
これは様々な臨床シナリオにおける臨床診断と治療の可能性を強調している。 Diffuse correlation spectroscopy (DCS) is an emerging noninvasive technique that measures the tissue blood flow, by using near-infrared coherent point-source illumination to detect spectral changes. While machine learning has demonstrated significant potential for measuring blood flow index (BFi), an open question concerning the success of this approach pertains to its robustness in scenarios involving deviations between datasets with varying Signal-to-Noise Ratios (SNRs) originating from diverse clinical applications and various setups. This study proposes a transfer learning approach, aims to assess the influence of SNRs on the generalization ability of learned features, and demonstrate the robustness for transfer learning. A synthetic dataset with varying levels of added noise is utilized to simulate different SNRs. The proposed network takes a 1x64 autocorrelation curve as input and generates BFi and the correlation parameter beta. The proposed model demonstrates excellent performance across different SNRs, exhibiting enhanced fitting accuracy, particularly for low SNR datasets when compared with other fitting methods. This highlights its potential for clinical diagnosis and treatment across various scenarios under different clinical setups. | 翻訳日:2024-01-30 20:35:18 公開日:2024-01-28 |
# エクストリームラーニングマシンを用いた高速脳血流解析 Fast Cerebral Blood Flow Analysis via Extreme Learning Machine ( http://arxiv.org/abs/2401.05578v2 ) ライセンス: Link先を確認 | Xi Chen, Zhenya Zang, Xingda Li | (参考訳) 本研究では,extreme learning machine (elm) を用いた拡散相関分光法 (dcs) を用いた脳血流解析のための迅速かつ精密な解析手法を提案する。
ELMと既存のアルゴリズムの評価には、総合的なメトリクスセットが伴う。
半無限および多層モデルのための合成データセットを用いて,これらのアルゴリズムを評価する。
その結果、ELMは様々なノイズレベルと光学パラメータの高忠実度を一貫して達成し、頑健な一般化能力を示し、反復整合アルゴリズムよりも優れていた。
計算効率のよいニューラルネットワークと比較することにより、EMMはトレーニング時間と推論時間を短縮して同等の精度が得られる。
特に、トレーニング中のEMMのバックプロパゲーションプロセスの欠如により、既存のニューラルネットワークアプローチに比べてトレーニング速度が大幅に向上する。
提案した戦略は、オンライントレーニング機能を備えたエッジコンピューティングアプリケーションに対する約束である。 We introduce a rapid and precise analytical approach for analyzing cerebral blood flow (CBF) using Diffuse Correlation Spectroscopy (DCS) with the application of the Extreme Learning Machine (ELM). Our evaluation of ELM and existing algorithms involves a comprehensive set of metrics. We assess these algorithms using synthetic datasets for both semi-infinite and multi-layer models. The results demonstrate that ELM consistently achieves higher fidelity across various noise levels and optical parameters, showcasing robust generalization ability and outperforming iterative fitting algorithms. Through a comparison with a computationally efficient neural network, ELM attains comparable accuracy with reduced training and inference times. Notably, the absence of a back-propagation process in ELM during training results in significantly faster training speeds compared to existing neural network approaches. This proposed strategy holds promise for edge computing applications with online training capabilities. | 翻訳日:2024-01-30 20:34:56 公開日:2024-01-28 |
# 多レベルドメインアライメントによる睡眠ステージングの一般化 Generalizable Sleep Staging via Multi-Level Domain Alignment ( http://arxiv.org/abs/2401.05363v3 ) ライセンス: Link先を確認 | Jiquan Wang, Sha Zhao, Haiteng Jiang, Shijian Li, Tao Li, Gang Pan | (参考訳) 自動睡眠ステージングは睡眠アセスメントと障害診断に不可欠である。
既存のほとんどのメソッドは、特定のデータセットに依存しており、トレーニングデータとテストデータが同じデータセットから得られる、他の見えないデータセットに一般化するように制限されている。
本稿では,自動睡眠ステージングにドメイン一般化を導入し,データセットを認識不能にするためのモデル一般化能力の向上を目的とした一般化睡眠ステージングのタスクを提案する。
既存の領域一般化手法に着想を得て,機能アライメントの考え方を採用し,SleepDGと呼ばれるフレームワークを提案する。
睡眠のステージングには,局所的特徴と逐次的特徴の両方が重要であることを考慮し,エポックレベルとシーケンスレベルの特徴アライメントを組み合わせたマルチレベル特徴アライメントを提案し,ドメイン不変特徴表現を学習する。
具体的には,各単一睡眠期間の特徴分布を異なるドメイン間で調整するエポックレベル機能アライメントと,異なるドメイン間の逐次的特徴の差を最小限に抑えるシーケンスレベル機能アライメントを設計した。
SleepDGは5つの公開データセットで検証され、最先端のパフォーマンスを達成する。 Automatic sleep staging is essential for sleep assessment and disorder diagnosis. Most existing methods depend on one specific dataset and are limited to be generalized to other unseen datasets, for which the training data and testing data are from the same dataset. In this paper, we introduce domain generalization into automatic sleep staging and propose the task of generalizable sleep staging which aims to improve the model generalization ability to unseen datasets. Inspired by existing domain generalization methods, we adopt the feature alignment idea and propose a framework called SleepDG to solve it. Considering both of local salient features and sequential features are important for sleep staging, we propose a Multi-level Feature Alignment combining epoch-level and sequence-level feature alignment to learn domain-invariant feature representations. Specifically, we design an Epoch-level Feature Alignment to align the feature distribution of each single sleep epoch among different domains, and a Sequence-level Feature Alignment to minimize the discrepancy of sequential features among different domains. SleepDG is validated on five public datasets, achieving the state-of-the-art performance. | 翻訳日:2024-01-30 20:34:23 公開日:2024-01-28 |
# トレーニングされたニューラルネットワークによる最適化: リラックスした散歩 Optimization Over Trained Neural Networks: Taking a Relaxing Walk ( http://arxiv.org/abs/2401.03451v2 ) ライセンス: Link先を確認 | Jiatai Tong and Junyang Cai and Thiago Serra | (参考訳) トレーニングに加えて、数学の最適化は、学習された制約による検証、圧縮、最適化などの目的のために、トレーニングされたニューラルネットワーク上での定式化をモデル化し、解決するために、ディープラーニングでも使用される。
しかし, 弱線形緩和と密集した制約行列によりネットワークサイズが大きくなると, これらの定式化の解決はすぐに困難になる。
近年, 切削平面アルゴリズム, 修正, 混合整数線形計画法(MILP)に基づくヒューリスティックが改良されている。
本研究では,ニューラルネットワークモデルの大域的および局所的線形緩和を探索し,よりスケーラブルなヒューリスティックを提案する。
我々のヒューリスティックは、最先端MILPソルバと先行ヒューリスティックと競合し、入力、深さ、ニューロン数の増加によるより良い解を生成する。 Besides training, mathematical optimization is also used in deep learning to model and solve formulations over trained neural networks for purposes such as verification, compression, and optimization with learned constraints. However, solving these formulations soon becomes difficult as the network size grows due to the weak linear relaxation and dense constraint matrix. We have seen improvements in recent years with cutting plane algorithms, reformulations, and an heuristic based on Mixed-Integer Linear Programming (MILP). In this work, we propose a more scalable heuristic based on exploring global and local linear relaxations of the neural network model. Our heuristic is competitive with a state-of-the-art MILP solver and the prior heuristic while producing better solutions with increases in input, depth, and number of neurons. | 翻訳日:2024-01-30 20:33:27 公開日:2024-01-28 |
# 幾何モデリングのためのクォータインスパイアニューラルネットワーク A quatum inspired neural network for geometric modeling ( http://arxiv.org/abs/2401.01801v2 ) ライセンス: Link先を確認 | Weitao Du, Shengchao Liu, Xuecang Zhang | (参考訳) 物理システムを3次元多体点雲として考えることで、SE(3)/E(3)等価GNNのような幾何グラフニューラルネットワーク(GNN)は有望な性能を示した。
特に、効果的なメッセージパッシング機構は、分子や結晶材料のモデリングに長けている。
しかし、現在の幾何学的GNNは、2ボディメッセージパッシングにカプセル化されている多体システムの平均場近似しか提供していないため、これらの幾何学的グラフ内の複雑な関係を捉えるには不十分である。
この制限に対処するため、高次テンソルを用いた多体系を扱うために計算物理学で広く用いられているテンソルネットワークが導入された。
それでも、これらのテンソル化ネットワークをGNNのメッセージパッシングフレームワークに統合することは、拡張性と対称性の保存(例えば、置換と回転)の課題に直面している。
そこで本研究では, テンソル縮約操作の効率的な実装を実現することにより, 革新的な同変行列積状態 (mps) に基づくメッセージ通過戦略を提案する。
本手法は,多体関係を効果的にモデル化し,平均場近似を抑え,幾何学グラフ内の対称性を捉える。
重要なのは、幾何学的GNNに固有の標準メッセージパッシングおよびレイヤ集約モジュールをシームレスに置き換えることである。
従来のニュートン系や量子テンソルハミルトニアン行列の予測を含む、ベンチマークタスクにおけるアプローチの優れた精度を実証的に検証した。
我々の知る限り、我々の手法はパラメータ化幾何テンソルネットワークの初期利用を表している。 By conceiving physical systems as 3D many-body point clouds, geometric graph neural networks (GNNs), such as SE(3)/E(3) equivalent GNNs, have showcased promising performance. In particular, their effective message-passing mechanics make them adept at modeling molecules and crystalline materials. However, current geometric GNNs only offer a mean-field approximation of the many-body system, encapsulated within two-body message passing, thus falling short in capturing intricate relationships within these geometric graphs. To address this limitation, tensor networks, widely employed by computational physics to handle manybody systems using high-order tensors, have been introduced. Nevertheless, integrating these tensorized networks into the message-passing framework of GNNs faces scalability and symmetry conservation (e.g., permutation and rotation) challenges. In response, we introduce an innovative equivariant Matrix Product State (MPS)-based message-passing strategy, through achieving an efficient implementation of the tensor contraction operation. Our method effectively models complex many-body relationships, suppressing mean-field approximations, and captures symmetries within geometric graphs. Importantly, it seamlessly replaces the standard message-passing and layer-aggregation modules intrinsic to geometric GNNs. We empirically validate the superior accuracy of our approach on benchmark tasks, including predicting classical Newton systems and quantum tensor Hamiltonian matrices. To our knowledge, our approach represents the inaugural utilization of parameterized geometric tensor networks. | 翻訳日:2024-01-30 20:32:21 公開日:2024-01-28 |
# マルチエージェント強化学習のための政策距離の測定 Measuring Policy Distance for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2401.11257v2 ) ライセンス: Link先を確認 | Tianyi Hu, Zhiqiang Pu, Xiaolin Ai, Tenghai Qiu, Jianqiang Yi | (参考訳) 多様性はマルチエージェント強化学習(MARL)の性能向上に重要な役割を果たしている。
現在、従来のMARLにおける過剰なパラメータ共有の欠点を克服するために、多くの多様性に基づく手法が開発されている。
しかし、エージェント間の政策差を定量化する一般的な指標がまだ存在しない。
このようなメトリクスは、マルチエージェントシステムにおける多様性進化の評価を促進するだけでなく、多様性に基づくMARLアルゴリズムの設計のためのガイダンスを提供するだろう。
本稿では,MARLにおける政策差を測定する汎用ツールであるマルチエージェントポリシー距離(MAPD)を提案する。
エージェントの決定の条件表現を学習することで、PDはエージェント間のポリシー距離を計算することができる。
さらに、MAPDをカスタマイズ可能なバージョンに拡張し、特定の側面におけるエージェントポリシーの違いを定量化する。
マルチエージェント動的パラメータ共有(MADPS)アルゴリズムをMAPDの応用例として,MAPDのオンライン展開に基づいて設計する。
本手法はエージェントポリシーと行動傾向の差異を測定するのに有効であることを示す。
さらに,他のパラメータ共有手法と比較して,MADPSは優れた性能を示す。 Diversity plays a crucial role in improving the performance of multi-agent reinforcement learning (MARL). Currently, many diversity-based methods have been developed to overcome the drawbacks of excessive parameter sharing in traditional MARL. However, there remains a lack of a general metric to quantify policy differences among agents. Such a metric would not only facilitate the evaluation of the diversity evolution in multi-agent systems, but also provide guidance for the design of diversity-based MARL algorithms. In this paper, we propose the multi-agent policy distance (MAPD), a general tool for measuring policy differences in MARL. By learning the conditional representations of agents' decisions, MAPD can computes the policy distance between any pair of agents. Furthermore, we extend MAPD to a customizable version, which can quantify differences among agent policies on specified aspects. Based on the online deployment of MAPD, we design a multi-agent dynamic parameter sharing (MADPS) algorithm as an example of the MAPD's applications. Extensive experiments demonstrate that our method is effective in measuring differences in agent policies and specific behavioral tendencies. Moreover, in comparison to other methods of parameter sharing, MADPS exhibits superior performance. | 翻訳日:2024-01-30 20:25:21 公開日:2024-01-28 |
# 埋め込み空間におけるspoof認識のための話者照合の一般化 Generalizing Speaker Verification for Spoof Awareness in the Embedding Space ( http://arxiv.org/abs/2401.11156v2 ) ライセンス: Link先を確認 | Xuechen Liu, Md Sahidullah, Kong Aik Lee, Tomi Kinnunen | (参考訳) 現在、様々な種類の敵を用いて自動話者検証(ASV)システムを構築することが知られている。
このような攻撃に対してasvシステムを対抗させる一般的なアプローチは、音声入力をボナフィドまたはスプーフ化発話として分類する独立したスプーフ化対策(cm)モジュールを開発することである。
それにもかかわらず、このような設計は認証段階でさらなる計算と利用の努力を必要とする。
代替戦略として、ゼロフォートインポスタ(非ターゲット)と偽造攻撃の両方を扱うように設計された単一のモノリシックなASVシステムがある。
このようなspoof-aware asvシステムは、より強力な保護とより経済的な計算を提供する可能性がある。
そこで我々は,テスト(認証)フェーズにおいて,独立したCMモジュールを介さずに,CMからの限られたトレーニングデータを活用して埋め込み空間における単純なバックエンドを強化する,スプーフィング攻撃に対するスタンドアロンASV(G-SASV)の一般化を提案する。
本稿では、深層ニューラルネットワークに基づく新しいバックエンド分類器を提案し、ドメイン適応と訓練段階におけるスプーフ埋め込みのマルチタスク統合による研究を行う。
実験はasvspoof 2019の論理アクセスデータセット上で行われ、ジョイント(ボナフィドとスプーフド)とスプーフド条件の統計的なasvバックエンドの性能を、それぞれ同じエラー率で最大36.2%、49.8%改善する。 It is now well-known that automatic speaker verification (ASV) systems can be spoofed using various types of adversaries. The usual approach to counteract ASV systems against such attacks is to develop a separate spoofing countermeasure (CM) module to classify speech input either as a bonafide, or a spoofed utterance. Nevertheless, such a design requires additional computation and utilization efforts at the authentication stage. An alternative strategy involves a single monolithic ASV system designed to handle both zero-effort imposter (non-targets) and spoofing attacks. Such spoof-aware ASV systems have the potential to provide stronger protections and more economic computations. To this end, we propose to generalize the standalone ASV (G-SASV) against spoofing attacks, where we leverage limited training data from CM to enhance a simple backend in the embedding space, without the involvement of a separate CM module during the test (authentication) phase. We propose a novel yet simple backend classifier based on deep neural networks and conduct the study via domain adaptation and multi-task integration of spoof embeddings at the training stage. Experiments are conducted on the ASVspoof 2019 logical access dataset, where we improve the performance of statistical ASV backends on the joint (bonafide and spoofed) and spoofed conditions by a maximum of 36.2% and 49.8% in terms of equal error rates, respectively. | 翻訳日:2024-01-30 20:25:04 公開日:2024-01-28 |
# 量子キックローターモデルにおける時間外順序相関器の二次成長 Quadratic growth of Out-of-time ordered correlators in quantum kicked rotor model ( http://arxiv.org/abs/2401.11057v2 ) ライセンス: Link先を確認 | Guanling Li, Wen-Lei Zhao | (参考訳) 回転子模型の量子共鳴条件におけるオフオブタイムコリケータ(otocs)の動力学を理論的および数値的に検討した。
我々は、様々な演算子を用いてOTOCを構築し、その可換関係を異なる時間で徹底的に定量化し、量子スクランブルの過程を明らかにする。
量子共鳴条件の助けを借りて、前方の進化と時間反転の間に量子状態の正確な表現を導出し、OTOCsの時間依存を規定する法則を確立することができる。
興味深いことに、異なるタイプのOTOCは時間の2次関数で増加し、非共鳴条件下での動的局所化によって引き起こされる量子スクランブルの凍結を破る。
基礎となるメカニズムが発見され、量子エンタングルメントの応用の可能性について論じる。 We investigate both theoretically and numerically the dynamics of Out-of-Time-Ordered Correlators (OTOCs) in quantum resonance condition for a kicked rotor model. We employ various operators to construct OTOCs in order to thoroughly quantify their commutation relation at different time, therefore unveiling the process of quantum scrambling. With the help of quantum resonance condition, we have deduced the exact expressions of quantum states during both forward evolution and time reversal, which enables us to establish the laws governing OTOCs' time dependence. We find interestingly that the OTOCs of different types increase in a quadratic function of time, breaking the freezing of quantum scrambling induced by the dynamical localization under non-resonance condition. The underlying mechanism is discovered and the possible applications in quantum entanglement are discussed. | 翻訳日:2024-01-30 20:24:19 公開日:2024-01-28 |
# 知識整合的アライメントによる大規模言語モデルの幻覚の緩和 Mitigating Hallucinations of Large Language Models via Knowledge Consistent Alignment ( http://arxiv.org/abs/2401.10768v2 ) ライセンス: Link先を確認 | Fanqi Wan, Xinting Huang, Leyang Cui, Xiaojun Quan, Wei Bi, Shuming Shi | (参考訳) LLM(Large Language Models)は、アライメント後に様々なタスクにおいて例外的であることが証明されているが、それでも、文脈や世界の知識と矛盾する応答を生じる可能性がある。
本稿では,トレーニングデータにカプセル化されている外部知識と,事前学習コーパスに継承される内在知識との矛盾を解消することで,幻覚のアライメントを軽減できることを実証する。
具体的には,新しい知識一貫性アライメント(kca)アプローチを導入し,llmの理解にアクセスするための外部知識に基づいた試験を自動的に作成する。
知識の不整合を含むデータに対して、KCAはいくつかの単純かつ効率的な処理戦略を実装している。
異なるバックボーンとスケールのLSMを用いて6つのベンチマークで幻覚を緩和するKCA手法の優れた性能について述べる。
さらに,知識不整合と幻覚の相関性を確認し,幻覚の緩和における知識不整合の低減効果を示す。
私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/KCA}で公開されています。 While Large Language Models (LLMs) have proven to be exceptional on a variety of tasks after alignment, they may still produce responses that contradict the context or world knowledge confidently, a phenomenon known as ``hallucination''. In this paper, we demonstrate that reducing the inconsistency between the external knowledge encapsulated in the training data and the intrinsic knowledge inherited in the pretraining corpus could mitigate hallucination in alignment. Specifically, we introduce a novel knowledge consistent alignment (KCA) approach, which involves automatically formulating examinations based on external knowledge for accessing the comprehension of LLMs. For data encompassing knowledge inconsistency, KCA implements several simple yet efficient strategies for processing. We illustrate the superior performance of the proposed KCA approach in mitigating hallucinations across six benchmarks using LLMs of different backbones and scales. Furthermore, we confirm the correlation between knowledge inconsistency and hallucination, signifying the effectiveness of reducing knowledge inconsistency in alleviating hallucinations. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/KCA}. | 翻訳日:2024-01-30 20:22:56 公開日:2024-01-28 |
# ビデオ質問応答のための大規模マルチモーダルモデルによる弱教師付きガウスコントラストグラウンド Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering ( http://arxiv.org/abs/2401.10711v2 ) ライセンス: Link先を確認 | Haibo Wang, Chenghang Lai, Yixuan Sun, Weifeng Ge | (参考訳) Video Question Answering (VideoQA)は、ビデオで見られる情報に基づいて自然言語の質問に答えることを目的としている。
画像言語理解と推論におけるLMM(Large Multimodal Models)の成功にもかかわらず、ビデオQAは、一様にサンプリングされたフレームを視覚入力として扱うだけでは不十分である。
さらに、既存のVideoQAデータセットには、質問クリティカルなタイムスタンプに対する人間のアノテーションはありません。
そこで本研究では,視覚的入力として質問クリティカルモーメントによる回答を推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
具体的には、質問と回答のペアをイベント記述として融合して、複数のキーフレームをターゲットモーメントとして見つける。
これらの擬似ラベルを弱監督として,軽量なガウス型コントラストグラウンド(GCG)モジュールを考案した。
GCGはビデオの時間構造を特徴付けるために複数のガウス関数を学習し、LMMの視覚的入力である正のモーメントとして質問クリティカルフレームをサンプリングする。
いくつかのビデオQAベンチマークにおいて、我々のフレームワークの有効性を検証し、従来の最先端手法と比較して大幅に改善した。 Video Question Answering (VideoQA) aims to answer natural language questions based on the information observed in videos. Despite the recent success of Large Multimodal Models (LMMs) in image-language understanding and reasoning, they deal with VideoQA insufficiently by simply taking uniformly sampled frames as visual inputs, which ignores question-relevant visual clues. Moreover, there are no human annotations for question-critical timestamps in existing VideoQA datasets. In light of this, we propose a novel weakly supervised framework to enforce the LMMs to reason out the answers with question-critical moments as visual inputs. Specifically, we fuse the question and answer pairs as event descriptions to find multiple keyframes as target moments, which will be pseudo-labels. With these pseudo-labels as additionally weak supervision, we devise a lightweight Gaussian-based Contrastive Grounding (GCG) module. GCG learns multiple Gaussian functions to characterize the temporal structure of the video, and sample question-critical frames as positive moments to be the visual inputs of LMMs. Extensive experiments on several VideoQA benchmarks verify the effectiveness of our framework, and we achieve substantial improvements compared to previous state-of-the-art methods. | 翻訳日:2024-01-30 20:22:36 公開日:2024-01-28 |
# 交通予測のための時空間グラフ畳み込みネットワークの知識蒸留 Knowledge Distillation on Spatial-Temporal Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2401.11798v3 ) ライセンス: Link先を確認 | Mohammad Izadi, Mehran Safayani, Abdolreza Mirzaei | (参考訳) 交通時間の短縮には効率的なリアルタイム交通予測が不可欠である。
交通状況を予測するために、リアルタイムトラフィックデータを時間グラフとしてモデル化するために、時空間グラフニューラルネットワーク(ST-GNN)を用いる。
その能力にもかかわらず、現実世界のトラフィックデータに対して効率的なリアルタイム予測を提供する上で、しばしば課題に直面する。
リアルタイムデータの動的性質による時間的予測の重要性を認識し,ST-GNNの実行時間を向上させるソリューションとして知識蒸留(KD)を用いる。
本稿では,教師に近い精度を維持しつつ,複雑なネットワーク(教師)からの蒸留データを用いて,より少ないパラメータ(生徒)でネットワークを訓練するコスト関数を提案する。
我々は,教師ネットワークから空間時間相関を取り入れた知識蒸留を用いて,教師が知覚する複雑なパターンを学習できるようにする。
しかし、不注意に考えるのではなく、学生ネットワークアーキテクチャを決定することに課題が生じる。
この課題に対処するために、コスト関数を用いて、プルーニングスコアを計算し、小さなネットワークアーキテクチャ探索問題に対処し、KDを用いて各プルーニングステージから得られるネットワークを協調的に微調整するアルゴリズムを提案する。
最終的に、提案したアイデアを2つの現実世界データセット、PeMSD7とPeMSD8で評価した。
その結果,ネットワークパラメータがわずか3.5%であった場合でも,本手法は教師の精度に近い精度を維持することができることがわかった。 Efficient real-time traffic prediction is crucial for reducing transportation time. To predict traffic conditions, we employ a spatio-temporal graph neural network (ST-GNN) to model our real-time traffic data as temporal graphs. Despite its capabilities, it often encounters challenges in delivering efficient real-time predictions for real-world traffic data. Recognizing the significance of timely prediction due to the dynamic nature of real-time data, we employ knowledge distillation (KD) as a solution to enhance the execution time of ST-GNNs for traffic prediction. In this paper, We introduce a cost function designed to train a network with fewer parameters (the student) using distilled data from a complex network (the teacher) while maintaining its accuracy close to that of the teacher. We use knowledge distillation, incorporating spatial-temporal correlations from the teacher network to enable the student to learn the complex patterns perceived by the teacher. However, a challenge arises in determining the student network architecture rather than considering it inadvertently. To address this challenge, we propose an algorithm that utilizes the cost function to calculate pruning scores, addressing small network architecture search issues, and jointly fine-tunes the network resulting from each pruning stage using KD. Ultimately, we evaluate our proposed ideas on two real-world datasets, PeMSD7 and PeMSD8. The results indicate that our method can maintain the student's accuracy close to that of the teacher, even with the retention of only $3\%$ of network parameters. | 翻訳日:2024-01-30 20:11:54 公開日:2024-01-28 |
# 階層的正規化を伴うマルチモーダル・コントラスト EHR モデルによる次回の来院診断予測 Next Visit Diagnosis Prediction via Medical Code-Centric Multimodal Contrastive EHR Modelling with Hierarchical Regularisation ( http://arxiv.org/abs/2401.11648v3 ) ライセンス: Link先を確認 | Heejoon Koo | (参考訳) エレクトロニック・ヘルス・レコード(EHR)を用いた次の来院診断の予測は、医療機関と患者双方の積極的な将来の計画策定に不可欠である。
しかしながら、多くの先行研究は、EHRデータに固有の不均一性や階層性に十分対応していない。
そこで我々は, 階層的正規化を伴う新しい医用コード中心マルチモーダルコントラスト学習フレームワークであるNECHOを提案する。
まず, 医用コード, 人口統計, 臨床記録を含む多面的情報を, 整形ネットワーク設計と2つの対の両モードのコントラスト的損失を用いて統合し, すべて医療用コード表現を中心に展開する。
EHRデータの階層構造を学習するために、医療オントロジーにおける親レベル情報を用いてモダリティ固有のエンコーダを規則化する。
MIMIC-IIIデータの一連の実験により,本手法の有効性が示された。 Predicting next visit diagnosis using Electronic Health Records (EHR) is an essential task in healthcare, critical for devising proactive future plans for both healthcare providers and patients. Nonetheless, many preceding studies have not sufficiently addressed the heterogeneous and hierarchical characteristics inherent in EHR data, inevitably leading to sub-optimal performance. To this end, we propose NECHO, a novel medical code-centric multimodal contrastive EHR learning framework with hierarchical regularisation. First, we integrate multifaceted information encompassing medical codes, demographics, and clinical notes using a tailored network design and a pair of bimodal contrastive losses, all of which pivot around a medical codes representation. We also regularise modality-specific encoders using a parental level information in medical ontology to learn hierarchical structure of EHR data. A series of experiments on MIMIC-III data demonstrates effectiveness of our approach. | 翻訳日:2024-01-30 20:09:24 公開日:2024-01-28 |
# 相関ランダムベクトルの検出 Detection of Correlated Random Vectors ( http://arxiv.org/abs/2401.13429v2 ) ライセンス: Link先を確認 | Dor Elimelech and Wasim Huleihel | (参考訳) 本稿では、2つの標準正規乱ベクトル $\mathsf{X}\in\mathbb{R}^{n}$ と $\mathsf{Y}\in\mathbb{R}^{n}$ が相関しているかどうかを決定する問題を検討する。
これは仮説検定問題として定式化され、ヌル仮説の下ではこれらのベクトルは統計的に独立であるが、代わりに$\mathsf{x}$ と$\mathsf{y}$ のランダムかつ一様置換されたバージョンは相関値 $\rho$ と相関する。
最適テストが情報理論的に不可能で可能なしきい値を,n$と$\rho$の関数として解析する。
情報理論の下限を導出するために, 直交多項式展開を用いた確率比の第2モーメントの評価手法を開発した。
また、上記の設定の多次元一般化について検討し、2つのベクトルではなく2つのデータベース/行列を観測し、さらにこれらの2つの間の部分的相関を許容する。 In this paper, we investigate the problem of deciding whether two standard normal random vectors $\mathsf{X}\in\mathbb{R}^{n}$ and $\mathsf{Y}\in\mathbb{R}^{n}$ are correlated or not. This is formulated as a hypothesis testing problem, where under the null hypothesis, these vectors are statistically independent, while under the alternative, $\mathsf{X}$ and a randomly and uniformly permuted version of $\mathsf{Y}$, are correlated with correlation $\rho$. We analyze the thresholds at which optimal testing is information-theoretically impossible and possible, as a function of $n$ and $\rho$. To derive our information-theoretic lower bounds, we develop a novel technique for evaluating the second moment of the likelihood ratio using an orthogonal polynomials expansion, which among other things, reveals a surprising connection to integer partition functions. We also study a multi-dimensional generalization of the above setting, where rather than two vectors we observe two databases/matrices, and furthermore allow for partial correlations between these two. | 翻訳日:2024-01-30 20:00:31 公開日:2024-01-28 |
# AIアシスタントは、自分が知らないことを知っているか? Can AI Assistants Know What They Don't Know? ( http://arxiv.org/abs/2401.13275v2 ) ライセンス: Link先を確認 | Qinyuan Cheng and Tianxiang Sun and Xiangyang Liu and Wenwei Zhang and Zhangyue Yin and Shimin Li and Linyang Li and Zhengfu He and Kai Chen and Xipeng Qiu | (参考訳) 近年、大規模言語モデル(llm)に基づくaiアシスタントは、対話、数学の問題解決、コード記述、ツールの使用など、多くのタスクで驚くべきパフォーマンスを示している。
LLMは世界の知識を集中的に持っているが、オープンドメインの質問応答のような知識集約的なタスクに直面しているときに、事実的誤りを犯す。
これらのAIアシスタントからの非現実的な反応は、実用的な応用において重大なリスクを引き起こす可能性がある。
我々は、AIアシスタントが知らない質問に答えることを拒否したことは、幻覚を減らし、アシスタントを真実にする重要な方法であると信じている。
そこで,本稿では,「AIアシスタントは,自分が知らないことを知っていて,自然言語で表現しているのか?」という質問を行う。
この質問に答えるために、我々は、既存のオープンドメインの質問応答データセットに基づいて、その既知の未知の質問を含むアシスタントのためのモデル固有の"I't know"(Idk)データセットを構築した。
次に、アシスタントを対応するidkデータセットにアライメントし、アライメント後の未知の質問への回答を拒否できるかどうかを観察する。
実験の結果、Idkデータセットと一致した後、アシスタントは未知の質問の多くに答えることを拒否した。
彼らが答えようとする質問に対して、精度はアライメント前よりもはるかに高い。 Recently, AI assistants based on large language models (LLMs) show surprising performance in many tasks, such as dialogue, solving math problems, writing code, and using tools. Although LLMs possess intensive world knowledge, they still make factual errors when facing some knowledge intensive tasks, like open-domain question answering. These untruthful responses from the AI assistant may cause significant risks in practical applications. We believe that an AI assistant's refusal to answer questions it does not know is a crucial method for reducing hallucinations and making the assistant truthful. Therefore, in this paper, we ask the question "Can AI assistants know what they don't know and express them through natural language?" To answer this question, we construct a model-specific "I don't know" (Idk) dataset for an assistant, which contains its known and unknown questions, based on existing open-domain question answering datasets. Then we align the assistant with its corresponding Idk dataset and observe whether it can refuse to answer its unknown questions after alignment. Experimental results show that after alignment with Idk datasets, the assistant can refuse to answer most its unknown questions. For questions they attempt to answer, the accuracy is significantly higher than before the alignment. | 翻訳日:2024-01-30 19:59:33 公開日:2024-01-28 |
# 将来のファクトリープラットフォームで取得したアナログおよびマルチモーダル製造データセット Analog and Multi-modal Manufacturing Datasets Acquired on the Future Factories Platform ( http://arxiv.org/abs/2401.15544v1 ) ライセンス: Link先を確認 | Ramy Harik, Fadi El Kalach, Jad Samaha, Devon Clark, Drew Sander, Philip Samaha, Liam Burns, Ibrahim Yousif, Victor Gadow, Theodros Tarekegne, Nitol Saha | (参考訳) 2023年12月11日と12日にサウスカロライナ大学のFuture Factories Labで収集された2つの業界グレードのデータセットについて紹介する。
これらのデータセットは、アクチュエータ、制御機構、トランスデューサに関する産業標準を利用する製造アセンブリラインによって生成される。
2つのデータセットは、アセンブリラインを30時間連続して操作し、システム全体で装備されたセンサーからデータを収集することで同時に生成される。
運用中、最終組み立てに必要な部品を手動で除去することで、組立作業にも欠陥が導入された。
生成されたデータセットは時系列アナログデータセットを含み、もう一方はアナログデータと共にシステムのイメージを含む時系列マルチモーダルデータセットである。
これらのデータセットは、製造におけるインテリジェンス向上に向けた研究を促進するツールを提供することを目的として作成された。
実際の製造データセットは、異常や欠陥のあるデータセットだけでは不十分です。
このようなデータセットは、このギャップに対処し、研究者に製造業に適用可能な人工知能モデルの構築とトレーニングの基礎を提供したいと考えている。
最後に、これらのデータセットは将来のFactory研究所から公開されたデータの最初のイテレーションであり、より多くの研究者のニーズに合うようにさらに調整することができる。 Two industry-grade datasets are presented in this paper that were collected at the Future Factories Lab at the University of South Carolina on December 11th and 12th of 2023. These datasets are generated by a manufacturing assembly line that utilizes industrial standards with respect to actuators, control mechanisms, and transducers. The two datasets were both generated simultaneously by operating the assembly line for 30 consecutive hours (with minor filtering) and collecting data from sensors equipped throughout the system. During operation, defects were also introduced into the assembly operation by manually removing parts needed for the final assembly. The datasets generated include a time series analog dataset and the other is a time series multi-modal dataset which includes images of the system alongside the analog data. These datasets were generated with the objective of providing tools to further the research towards enhancing intelligence in manufacturing. Real manufacturing datasets can be scarce let alone datasets with anomalies or defects. As such these datasets hope to address this gap and provide researchers with a foundation to build and train Artificial Intelligence models applicable for the manufacturing industry. Finally, these datasets are the first iteration of published data from the future Factories lab and can be further adjusted to fit more researchers needs moving forward. | 翻訳日:2024-01-30 17:52:56 公開日:2024-01-28 |
# lstm深層学習技術を用いた加速器内の粒子軌道異常検出 Anomaly Detection of Particle Orbit in Accelerator using LSTM Deep Learning Technology ( http://arxiv.org/abs/2401.15543v1 ) ライセンス: Link先を確認 | Zhiyuan Chen, Wei Lu, Radhika Bhong, Yimin Hu, Brian Freeman, Adam Carpenter | (参考訳) 安定で信頼性があり制御可能な軌道ロックシステムは、ビーム軌道とビームエネルギー不安定性が実験ホールに供給されるビームの品質に強く影響するため、電子加速器(またはイオン加速器)にとって重要である。
現在、軌道ロックシステムが故障した場合、オペレーターは手動で介入しなければならない。
本稿では,軌道ロック異常を識別し,アクセル操作スタッフに異常動作を通知する機械学習に基づく故障検出手法を開発した。
我々の手法は教師なしなのでラベル付きデータを必要としない。
LSTM(Long-Short Memory Networks)オートエンコーダを使用して、通常のパターンをキャプチャし、軌道ロックシステムにおける監視センサーの将来の値を予測する。
予測誤差が閾値を超えると異常が検出される。
ジェファーソン研究所の連続電子ビーム加速器(cebaf)の観測データを用いて実験を行った。
私たちのソリューションで特定された実際の異常の割合は、軌道ロック制御システム内の1つのコンポーネントの監視データを使用して68.6%-89.3%である。
精度は82%と高い。 A stable, reliable, and controllable orbit lock system is crucial to an electron (or ion) accelerator because the beam orbit and beam energy instability strongly affect the quality of the beam delivered to experimental halls. Currently, when the orbit lock system fails operators must manually intervene. This paper develops a Machine Learning based fault detection methodology to identify orbit lock anomalies and notify accelerator operations staff of the off-normal behavior. Our method is unsupervised, so it does not require labeled data. It uses Long-Short Memory Networks (LSTM) Auto Encoder to capture normal patterns and predict future values of monitoring sensors in the orbit lock system. Anomalies are detected when the prediction error exceeds a threshold. We conducted experiments using monitoring data from Jefferson Lab's Continuous Electron Beam Accelerator Facility (CEBAF). The results are promising: the percentage of real anomalies identified by our solution is 68.6%-89.3% using monitoring data of a single component in the orbit lock control system. The accuracy can be as high as 82%. | 翻訳日:2024-01-30 17:52:38 公開日:2024-01-28 |
# 衛星をエッジに固定する:広範かつ効率的なLEO衛星学習 Stitching Satellites to the Edge: Pervasive and Efficient Federated LEO Satellite Learning ( http://arxiv.org/abs/2401.15541v1 ) ライセンス: Link先を確認 | Mohamed Elmahallawy and Tie Luo | (参考訳) 宇宙AIの野心的な領域では、連邦学習(FL)と低地球軌道(LEO)の衛星コンステレーションの統合は大きな可能性を秘めている。
しかし、実現可能性、学習効率、収束性の点で多くの課題が続いている。
これらのハードルは通信のボトルネックに起因し、LEO衛星と地上局との間の散発的かつ不規則な接続と、衛星エッジコンピューティング(SEC)の限られた計算能力が特徴である。
本稿では,LEO衛星が大規模機械学習(ML)タスクを効率的に実行できるようにする新しいFL-SECフレームワークを提案する。
鍵となる要素は
一 衛星画像の冗長性を識別し排除し、複雑な多クラス分類問題を単純な二分分類に変換して、衛星上のIoT/エッジデバイスに適した軽量MLモデルの迅速かつエネルギー効率のよい訓練を可能にする分割型学習
二 軌道毎に集約された軌道モデルを生成し、地上局に送信する前に再訓練し、必要な通信ラウンドを大幅に削減する軌道モデル再訓練。
我々は、leo衛星の限られた計算を忠実に模倣したエッジデバイスであるjetson nanoと、実際の衛星データセットを用いて実験を行った。
その結果,実画像と高解像度衛星画像上で軽量MLモデルを動作させるSECの能力を強調した。
我々のアプローチではFL収束時間が30倍近く減少し、衛星のエネルギー消費は1.38ワットまで減少し、例外的な精度は96%まで維持される。 In the ambitious realm of space AI, the integration of federated learning (FL) with low Earth orbit (LEO) satellite constellations holds immense promise. However, many challenges persist in terms of feasibility, learning efficiency, and convergence. These hurdles stem from the bottleneck in communication, characterized by sporadic and irregular connectivity between LEO satellites and ground stations, coupled with the limited computation capability of satellite edge computing (SEC). This paper proposes a novel FL-SEC framework that empowers LEO satellites to execute large-scale machine learning (ML) tasks onboard efficiently. Its key components include i) personalized learning via divide-and-conquer, which identifies and eliminates redundant satellite images and converts complex multi-class classification problems to simple binary classification, enabling rapid and energy-efficient training of lightweight ML models suitable for IoT/edge devices on satellites; ii) orbital model retraining, which generates an aggregated "orbital model" per orbit and retrains it before sending to the ground station, significantly reducing the required communication rounds. We conducted experiments using Jetson Nano, an edge device closely mimicking the limited compute on LEO satellites, and a real satellite dataset. The results underscore the effectiveness of our approach, highlighting SEC's ability to run lightweight ML models on real and high-resolution satellite imagery. Our approach dramatically reduces FL convergence time by nearly 30 times, and satellite energy consumption down to as low as 1.38 watts, all while maintaining an exceptional accuracy of up to 96%. | 翻訳日:2024-01-30 17:52:21 公開日:2024-01-28 |
# 言語におけるステレオタイプの定量化 Quantifying Stereotypes in Language ( http://arxiv.org/abs/2401.15535v1 ) ライセンス: Link先を確認 | Yang Liu | (参考訳) ステレオタイプは、人間の特定のグループの一般的な認識である。
しばしば人間の言語でエンコードされるが、社会問題に関するテキストではより一般的である。
以前の著作では、単に文章をステレオタイプと反ステレオタイプと定義している。
しかし、文のステレオタイプは細かな定量化を必要とすることがある。
本稿では,このギャップを埋めるために,データセットをアノテートすることで,言語のステレオタイプを定量化する。
我々は、プレトレーニング言語モデル(PLM)を用いて、このデータセットを学習し、文のステレオタイプを予測する。
そして、ヘイトスピーチ、セクシズム、感情、不利で有利なグループなど、一般的な社会問題に関するステレオタイプについて議論する。
本研究は,ステレオタイプと社会問題との関連と相違を実証し,これら4つの研究から,本研究の一般的な知見を検証した。
さらに,本研究は,詳細なステレオタイプスコアが社会問題研究の極めて重要かつ競争的な要素であることを示唆している。 A stereotype is a generalized perception of a specific group of humans. It is often potentially encoded in human language, which is more common in texts on social issues. Previous works simply define a sentence as stereotypical and anti-stereotypical. However, the stereotype of a sentence may require fine-grained quantification. In this paper, to fill this gap, we quantify stereotypes in language by annotating a dataset. We use the pre-trained language models (PLMs) to learn this dataset to predict stereotypes of sentences. Then, we discuss stereotypes about common social issues such as hate speech, sexism, sentiments, and disadvantaged and advantaged groups. We demonstrate the connections and differences between stereotypes and common social issues, and all four studies validate the general findings of the current studies. In addition, our work suggests that fine-grained stereotype scores are a highly relevant and competitive dimension for research on social issues. | 翻訳日:2024-01-30 17:51:54 公開日:2024-01-28 |
# 量子熱の一般化ゆらぎ定理 Generalized Fluctuation Theorem for Quantum Heat ( http://arxiv.org/abs/2401.15533v1 ) ライセンス: Link先を確認 | Wei Wu, Jun-Hong An | (参考訳) 非平衡変動関係は量子熱力学の基盤である。
システムバス熱交換は有名なjarzynski-w\'{o}jcikゆらぎ定理に従うと広く信じられている。
しかし、この定理は弱結合条件下でボルン・マルコフ近似で成立する。
非マルコフ力学における浴槽に結合した高調波発振器の量子熱を研究することにより、任意の系-バス結合強度に有効な量子熱に対する一般化された揺らぎ定理を確立する。
Jarzynski-W\'{o}jcik の揺らぎ定理は弱結合極限で回復する。
また、平均的な量子熱は、異なるシステムバス境界状態が形成されるとき、リッチな非平衡特性を示し、量子熱を制御するのに有用な方法であることを示す。
量子熱力学におけるゆらぎ関係への理解を深め、高効率量子熱エンジンの設計の基礎を築いた。 Nonequilibrium fluctuation relation is a cornerstone of quantum thermodynamics. It is widely believed that the system-bath heat exchange obeys the famous Jarzynski-W\'{o}jcik fluctuation theorem. However, this theorem is established in the Born-Markovian approximation under the weak coupling condition. Via studying the quantum heat of a harmonic oscillator coupled to a bath in the non-Markovian dynamics, we here establish a generalized fluctuation theorem for quantum heat being valid for arbitrary system-bath coupling strength. The Jarzynski-W\'{o}jcik fluctuation theorem is recovered in the weak-coupling limit. We also find the average quantum heat exhibits rich nonequilibrum characters when different numbers of system-bath bound states are formed, which suggests a useful way to control the quantum heat. Deepening our understanding to the fluctuation relation in quantum thermodynamics, our result lays a foundation to design high-efficiency quantum heat engines. | 翻訳日:2024-01-30 17:51:40 公開日:2024-01-28 |
# 自動ベンガル音声認識に必要なバイトコードペアエンコーディング Byte Pair Encoding Is All You Need For Automatic Bengali Speech Recognition ( http://arxiv.org/abs/2401.15532v1 ) ライセンス: Link先を確認 | Ahnaf Mozib Samin | (参考訳) バイト対符号化(bpe)は、様々な自然言語や音声処理タスクにおいて、語彙外(oov)課題に取り組むための効果的なトークン化手法として出現する。
近年の研究では、BPEサブワードトークン化の言語の形態的性質への依存性、特に屈折形態学に富む言語において、BPEサブワードトークン化の有効性が強調されている。
そこで本研究では,その形態的複雑さで知られているベンガル語に対する最適BPEトークン数を実証的に同定し,アウト・オブ・ディストリビューション自動音声認識(ASR)の性能を向上させる。
実験により、過度に多くのBPEトークンが過度に適合し、約500-1000トークンがOOV性能に優れた結果をもたらすことが示された。
さらに,文字ベースおよびユニグラムベースのトークン化手法を用いて,BPEの比較分析を行った。
BPEトークン化をBengali ASRに導入することにより、文字ベースのベースラインシステムの66.44%から、LB-ASRTDのevalセットで63.80%、SHRUTIのevalセットで46.34%から42.80%へと、単語エラー率(WER)を大幅に削減できる。 Byte pair encoding (BPE) emerges as an effective tokenization method for tackling the out-of-vocabulary (OOV) challenge in various natural language and speech processing tasks. Recent research highlights the dependency of BPE subword tokenization's efficacy on the morphological nature of the language, particularly in languages rich in inflectional morphology, where fewer BPE merges suffice for generating highly productive tokens. Motivated by this, our study empirically identifies the optimal number of BPE tokens for Bengali, a language known for its morphological complexity, thus enhancing out-of-distribution automatic speech recognition (ASR) performance. Experimental evaluation reveals that an excessively high number of BPE tokens can lead to overfitting, while approximately 500-1000 tokens result in superior OOV performance. Furthermore, we conduct a comparative analysis of BPE with character-based and unigram-based tokenization methods. By introducing BPE tokenization to Bengali ASR, we achieve a substantial reduction in the word error rate (WER) from 66.44% in our character-based baseline system to 63.80% on the LB-ASRTD eval set and from 46.34% to 42.80% on the SHRUTI eval set, both of which include out-of-distribution data. | 翻訳日:2024-01-30 17:51:24 公開日:2024-01-28 |
# インテクスト学習の情報理論解析 An Information-Theoretic Analysis of In-Context Learning ( http://arxiv.org/abs/2401.15530v1 ) ライセンス: Link先を確認 | Hong Jun Jeon, Jason D. Lee, Qi Lei, Benjamin Van Roy | (参考訳) 複雑な仮定に基づくシーケンスのメタラーニングに関する以前の理論結果はやや複雑である。
そこで我々は,新しい情報理論ツールを導入し,エラーのエレガントかつ汎用的な分解を3つのコンポーネント(既約誤差,メタラーニングエラー,タスク内エラー)に導く。
これらのツールは、多くのメタ学習課題を分析します。
そこで本論文では,変換器を用いた文脈内学習の新たな結果の確立に応用する。
我々の理論的結果は、トレーニングシーケンス数とシーケンス長さの双方でエラーがどう崩壊するかを特徴づける。
結果は非常に一般的なもので、例えば、配列長で誤差の減衰を確定する全ての先行結果から得られる混合時間仮定は避ける。 Previous theoretical results pertaining to meta-learning on sequences build on contrived assumptions and are somewhat convoluted. We introduce new information-theoretic tools that lead to an elegant and very general decomposition of error into three components: irreducible error, meta-learning error, and intra-task error. These tools unify analyses across many meta-learning challenges. To illustrate, we apply them to establish new results about in-context learning with transformers. Our theoretical results characterizes how error decays in both the number of training sequences and sequence lengths. Our results are very general; for example, they avoid contrived mixing time assumptions made by all prior results that establish decay of error with sequence length. | 翻訳日:2024-01-30 17:50:58 公開日:2024-01-28 |
# ワンタイムパッドを用いた量子コンピューティングにおける状態漏洩緩和に関する徹底的研究 A Thorough Study of State Leakage Mitigation in Quantum Computing with One-Time Pad ( http://arxiv.org/abs/2401.15529v1 ) ライセンス: Link先を確認 | Chuanqi Xu, Jamie Sikora, Jakub Szefer | (参考訳) 近年,ユーザがクラウド経由で量子コンピュータにアクセスする能力は急速に向上している。
現在もNISQ(Noisy Intermediate-Scale Quantum)マシンは存在するが、現代の量子コンピュータは研究や多くのスタートアップに積極的に採用されている。
量子アルゴリズムは一般に確率的結果を生成し、望ましい結果を得るために繰り返し実行する必要がある。
実行が指定された基底状態から毎回開始され、実行前の実行結果がその後の実行結果に干渉しないようにするためには、各イテレーション間でリセット機構を実行し、キュービットを効果的にリセットする必要がある。
しかし、量子コンピュータのノイズやエラー、特にこれらのリセット機構により、ノイズの多いリセット操作は、全体的な計算における体系的なエラーと、情報漏洩の潜在的なセキュリティとプライバシの脆弱性を引き起こす可能性がある。
この問題を解決するために、量子コンピューティングにおける状態リーク問題を徹底的に検討し、リセット機構の前に古典的および量子的ワンタイムパッドを用いて、回路の実行毎に単純なゲートをランダムに施すことによって状態リークを防止する方法を提案する。
さらに、この研究は、リソースが少ない古典的なワンタイムパッドが、状態漏洩を保護するのに十分な条件を探求する。
最後に, ゲートの異なる誤差レベル, 測定値, サンプリング誤差の漏洩度を評価することにより, 状態漏洩における各種誤差の役割について検討した。
本研究は、リセット機構の設計とセキュア量子コンピューティングシステムに関する新たな視点を提供する。 The ability for users to access quantum computers through the cloud has increased rapidly in recent years. Despite still being Noisy Intermediate-Scale Quantum (NISQ) machines, modern quantum computers are now being actively employed for research and by numerous startups. Quantum algorithms typically produce probabilistic results, necessitating repeated execution to produce the desired outcomes. In order for the execution to begin from the specified ground state each time and for the results of the prior execution not to interfere with the results of the subsequent execution, the reset mechanism must be performed between each iteration to effectively reset the qubits. However, due to noise and errors in quantum computers and specifically these reset mechanisms, a noisy reset operation may lead to systematic errors in the overall computation, as well as potential security and privacy vulnerabilities of information leakage. To counter this issue, we thoroughly examine the state leakage problem in quantum computing, and then propose a solution by employing the classical and quantum one-time pads before the reset mechanism to prevent the state leakage, which works by randomly applying simple gates for each execution of the circuit. In addition, this work explores conditions under which the classical one-time pad, which uses fewer resources, is sufficient to protect state leakage. Finally, we study the role of various errors in state leakage, by evaluating the degrees of leakage under different error levels of gate, measurement, and sampling errors. Our findings offer new perspectives on the design of reset mechanisms and secure quantum computing systems. | 翻訳日:2024-01-30 17:50:46 公開日:2024-01-28 |
# 医療用AI:ChatGPTの使用状況とインド医療への影響評価 AI as a Medical Ally: Evaluating ChatGPT's Usage and Impact in Indian Healthcare ( http://arxiv.org/abs/2401.15605v1 ) ライセンス: Link先を確認 | Aryaman Raina, Prateek Mishra, Harshit goyal, Dhruv Kumar | (参考訳) 本研究では、インドの医療分野における大規模言語モデル(LLM)の統合と影響について検討する。
本研究は, 一般ユーザと医療専門家の双方を対象に, 調査, インタビューを行った。
以上の結果から,医療専門家はchatgptを医療教育と予備臨床で評価するが,信頼性,プライバシ,医療基準との相互検証の必要性などの懸念から注意を要することが明らかとなった。
一般ユーザーは医療におけるAIインタラクションの好みを示すが、正確性や信頼に関する懸念は続く。
この研究は、人間の医療専門知識を補完し、置き換えるのではなく、これらの技術の必要性を強調し、医療提供者との共同開発の重要性を強調している。
本稿では、医療におけるllmの理解を深め、現在の利用状況、ユーザ信頼、改善領域を詳述する。
我々の洞察は、倫理に準拠し、医療固有の課題に対処する、ユーザー中心のLCMの進歩の必要性を、将来の研究と開発に示します。 This study investigates the integration and impact of Large Language Models (LLMs), like ChatGPT, in India's healthcare sector. Our research employs a dual approach, engaging both general users and medical professionals through surveys and interviews respectively. Our findings reveal that healthcare professionals value ChatGPT in medical education and preliminary clinical settings, but exercise caution due to concerns about reliability, privacy, and the need for cross-verification with medical references. General users show a preference for AI interactions in healthcare, but concerns regarding accuracy and trust persist. The study underscores the need for these technologies to complement, not replace, human medical expertise, highlighting the importance of developing LLMs in collaboration with healthcare providers. This paper enhances the understanding of LLMs in healthcare, detailing current usage, user trust, and improvement areas. Our insights inform future research and development, underscoring the need for ethically compliant, user-focused LLM advancements that address healthcare-specific challenges. | 翻訳日:2024-01-30 17:40:40 公開日:2024-01-28 |
# MunTTS:Mundariのためのテキスト音声合成システム MunTTS: A Text-to-Speech System for Mundari ( http://arxiv.org/abs/2401.15579v1 ) ライセンス: Link先を確認 | Varun Gumma, Rishav Hada, Aditya Yadavalli, Pamir Gogoi, Ishani Mondal, Vivek Seshadri, Kalika Bali | (参考訳) MnTTSは,オーストリア・アジア系の低リソースのインド語であるムンダリ(Mundari)のための,エンドツーエンドのテキスト音声合成システムである。
本研究は,音声合成システム構築のためのデータの収集と処理により,表現不足言語のための言語技術におけるギャップを解消する。
本研究は,ムンダリのテキストと音声の膨大なデータセットを収集し,エンドツーエンドの音声モデルを訓練することで開始する。
また、モデルのトレーニングに使用する方法を掘り下げて、データ制約にもかかわらず効率的かつ効果的であることを確認します。
我々は,このシステムを母語話者と客観的指標を用いて評価し,デジタル時代のムンダリ言語を保存・促進するためのツールとしての可能性を示す。 We present MunTTS, an end-to-end text-to-speech (TTS) system specifically for Mundari, a low-resource Indian language of the Austo-Asiatic family. Our work addresses the gap in linguistic technology for underrepresented languages by collecting and processing data to build a speech synthesis system. We begin our study by gathering a substantial dataset of Mundari text and speech and train end-to-end speech models. We also delve into the methods used for training our models, ensuring they are efficient and effective despite the data constraints. We evaluate our system with native speakers and objective metrics, demonstrating its potential as a tool for preserving and promoting the Mundari language in the digital age. | 翻訳日:2024-01-30 17:40:18 公開日:2024-01-28 |
# ARCNet:赤外画像削除のための非対称残留ウェーブレットカラム補正ネットワーク ARCNet: An Asymmetric Residual Wavelet Column Correction Network for Infrared Image Destriping ( http://arxiv.org/abs/2401.15578v1 ) ライセンス: Link先を確認 | Shuai Yuan, Hanlin Qin, Xiang Yan, Naveed Akhtar, Shiqi Yang, Shuowen Yang | (参考訳) 赤外画像デストリップは、劣化した画像から高品質なコンテンツを復元しようとする。
最近の研究は、先行知識を利用して劣化した画像からストライプノイズを分離することで、この課題に対処している。
しかし、特にストライプノイズと垂直背景構造の間に大きな類似性がある場合、この目的のためにロバストなデカップリングモデルを構築することは依然として困難である。
そこで我々は,空間的高精度な高分解能表現を一貫して保存することを目的として,画像デストリップのための非対称残留ウェーブレット列補正ネットワーク(ARCNet)を導入する。
我々のニューラルモデルは、新しいダウンサンプラー、残留ハール離散ウェーブレット変換(RHDWT)、指向性事前知識とデータ駆動学習を利用して、ストライプノイズと背景の豊かな特徴表現を持つモデルを誘導する。
本手法では,逆ウェーブレット変換を機能アップサンプリングのための畳み込み変換に置き換えることにより,雑音クロストークを抑制し,ロバストな画像再構成をネットワークに促す。
各サンプリングの後,提案するカラム非均一性補正モジュール(CNCM)を用いて,各レイヤ間のカラム均一性,空間相関,大域自己依存性を向上させる。
CNCMは、ストライプノイズの構造特性を確立し、長距離依存におけるコンテキスト情報を用いて、様々な強度と分布を持つストリップを識別することができる。
合成データ, 実データ, 赤外線小目標検出タスクに関する広範な実験により, 提案手法は, 視覚的および定量的に, かなりのマージンで, 最先端の単像デトリップ法を上回っていることが示された。
私たちのコードは \url{https://github.com/xdFai} で公開されます。 Infrared image destriping seeks to restore high-quality content from degraded images. Recent works mainly address this task by leveraging prior knowledge to separate stripe noise from the degraded image. However, constructing a robust decoupling model for that purpose remains challenging, especially when significant similarities exist between the stripe noise and vertical background structure. Addressing that, we introduce Asymmetric Residual wavelet Column correction Network (ARCNet) for image destriping, aiming to consistently preserve spatially precise high-resolution representations. Our neural model leverages a novel downsampler, residual haar discrete wavelet transform (RHDWT), stripe directional prior knowledge and data-driven learning to induce a model with enriched feature representation of stripe noise and background. In our technique, the inverse wavelet transform is replaced by transposed convolution for feature upsampling, which can suppress noise crosstalk and encourage the network to focus on robust image reconstruction. After each sampling, a proposed column non-uniformity correction module (CNCM) is leveraged by our method to enhance column uniformity, spatial correlation, and global self-dependence between each layer component. CNCM can establish structural characteristics of stripe noise and utilize contextual information at long-range dependencies to distinguish stripes with varying intensities and distributions. Extensive experiments on synthetic data, real data, and infrared small target detection tasks show that the proposed method outperforms state-of-the-art single-image destriping methods both visually and quantitatively by a considerable margin. Our code will be made publicly available at \url{https://github.com/xdFai}. | 翻訳日:2024-01-30 17:40:03 公開日:2024-01-28 |
# テキストグラフを用いた大規模言語モデルの効率的なチューニングと推論 Efficient Tuning and Inference for Large Language Models on Textual Graphs ( http://arxiv.org/abs/2401.15569v1 ) ライセンス: Link先を確認 | Yun Zhu, Yaoke Wang, Haizhou Shi, Siliang Tang | (参考訳) テキストグラフのリッチなテキスト情報とトポロジ情報は、Webページ、eコマース、学術論文などの現実世界のアプリケーションでモデル化する必要がある。
この問題を解決するために、浅いテキストエンコーダとその後のグラフニューラルネットワーク(GNN)を採用する道のりは、長年続いている。
大規模言語モデル(LLM)の最近の進歩を踏まえると,拡張テキストエンコーディングのためのLLMの統合により,テキストグラフの性能が大幅に向上することが明らかである。
しかし、これらの手法の効率は大きな課題となる。
本稿では, LLMエンコーダを用いたテキストグラフのためのパラメータおよびメモリ効率の高い微調整法であるENGINEを提案する。
重要な洞察は、LLMとGNNを調整可能なサイド構造で組み合わせることであり、ジョイントモデルの容量を損なうことなく、トレーニングの複雑さを著しく低減する。
テキストグラフに関する広範囲な実験により,最良モデル性能を達成し,従来の手法に比べて訓練コストが低く,本手法の有効性を実証した。
さらに,キャッシュと動的早期出口の2つのバリエーションを導入し,トレーニングと推論の高速化を図る。
具体的には、キャッシングはエンジンのトレーニングを12倍高速化し、動的アーリーエグジットはパフォーマンス低下によって最大5倍の高速化を実現している(7つのデータセットにまたがる最大1.17%の低下)。 Rich textual and topological information of textual graphs need to be modeled in real-world applications such as webpages, e-commerce, and academic articles. Practitioners have been long following the path of adopting a shallow text encoder and a subsequent graph neural network (GNN) to solve this problem. In light of recent advancements in large language models (LLMs), it is apparent that integrating LLMs for enhanced textual encoding can substantially improve the performance of textual graphs. Nevertheless, the efficiency of these methods poses a significant challenge. In this paper, we propose ENGINE, a parameter- and memory-efficient fine-tuning method for textual graphs with an LLM encoder. The key insight is to combine the LLMs and GNNs through a tunable side structure, which significantly reduces the training complexity without impairing the joint model's capacity. Extensive experiments on textual graphs demonstrate our method's effectiveness by achieving the best model performance, meanwhile having the lowest training cost compared to previous methods. Moreover, we introduce two variants with caching and dynamic early exit to further enhance training and inference speed. Specifically, caching accelerates ENGINE's training by 12x, and dynamic early exit achieves up to 5x faster inference with a negligible performance drop (at maximum 1.17% relevant drop across 7 datasets). | 翻訳日:2024-01-30 17:39:35 公開日:2024-01-28 |
# 視覚トランスフォーマの埋め込み空間の興味深い同値構造 Intriguing Equivalence Structures of the Embedding Space of Vision Transformers ( http://arxiv.org/abs/2401.15568v1 ) ライセンス: Link先を確認 | Shaeke Salman and Md Montasir Bin Shams and Xiuwen Liu | (参考訳) 事前訓練された大規模基礎モデルは、最近の人工知能の急増において中心的な役割を担っており、ベンチマークデータセット、標準試験、アプリケーションで測定した場合、優れた能力を持つ微調整されたモデルをもたらす。
その複雑さのため、これらのモデルはよく理解されていない。
このようなモデルに対する小さな逆入力はよく知られているが、表現空間の構造は基本的な重要性にもかかわらずよく特徴付けられるものではない。
本稿では、視覚変換器を入力空間の連続的な性質による例として用いて、その表現空間は、同じ表現を共有する非常に異なる入力が存在する大きな一方向線形部分空間と、全く異なる表現を持つ視覚的に区別できない入力が存在する局所正規空間からなることを示す。
実験結果は、基礎モデルのリプシッツ定数の局所的な方向推定を用いてさらに検証される。
その結果、結果の表現は下流モデルの結果を変化させ、そのようなモデルは過剰一般化の対象となり、意味論的に意味のある一般化能力が制限される。 Pre-trained large foundation models play a central role in the recent surge of artificial intelligence, resulting in fine-tuned models with remarkable abilities when measured on benchmark datasets, standard exams, and applications. Due to their inherent complexity, these models are not well understood. While small adversarial inputs to such models are well known, the structures of the representation space are not well characterized despite their fundamental importance. In this paper, using the vision transformers as an example due to the continuous nature of their input space, we show via analyses and systematic experiments that the representation space consists of large piecewise linear subspaces where there exist very different inputs sharing the same representations, and at the same time, local normal spaces where there are visually indistinguishable inputs having very different representations. The empirical results are further verified using the local directional estimations of the Lipschitz constants of the underlying models. Consequently, the resulting representations change the results of downstream models, and such models are subject to overgeneralization and with limited semantically meaningful generalization capability. | 翻訳日:2024-01-30 17:39:09 公開日:2024-01-28 |
# マトリックス超格子とランダム化マトリックス濃度不等式 Matrix Supermartingales and Randomized Matrix Concentration Inequalities ( http://arxiv.org/abs/2401.15567v1 ) ライセンス: Link先を確認 | Hongjian Wang, Aaditya Ramdas | (参考訳) 様々なテール条件下でmartingale依存あるいは交換可能なランダム対称行列に対する新しい濃度不等式を提示し、標準チャーノフ境界を自己正規化重み付き設定に包含する。
これらの不等式はしばしば文学における既存の決定論的な結果よりも厳密な方法でランダム化され、通常ローナー順序で表現され、任意のデータ依存の停止時間において有効である。
その過程で、行列超行列と最大不等式の理論を探求する。 We present new concentration inequalities for either martingale dependent or exchangeable random symmetric matrices under a variety of tail conditions, encompassing standard Chernoff bounds to self-normalized heavy-tailed settings. These inequalities are often randomized in a way that renders them strictly tighter than existing deterministic results in the literature, are typically expressed in the Loewner order, and are sometimes valid at arbitrary data-dependent stopping times. Along the way, we explore the theory of matrix supermartingales and maximal inequalities, potentially of independent interest. | 翻訳日:2024-01-30 17:38:49 公開日:2024-01-28 |
# マトリックス完成のためのクロス集中サンプリングのロバスト性について On the Robustness of Cross-Concentrated Sampling for Matrix Completion ( http://arxiv.org/abs/2401.15566v1 ) ライセンス: Link先を確認 | HanQin Cai and Longxiu Huang and Chandra Kundu and Bowen Su | (参考訳) マトリックスの完成は、現代のデータサイエンス研究において重要なツールの1つである。
近年,行列完成型クロス集中サンプリング(CCS)の新たなサンプリングモデルが注目されている。
しかし, CCSモデルがスパースアウトレーヤに対して頑健であることは, 既存の研究で明らかでない。
本稿では,ロバストCCS補完問題を探究し,この問題に対処することを目的とする。
Robust CUR Completion (RCURC) と呼ばれる高効率な非凸反復アルゴリズムを提案する。
提案アルゴリズムの効率性とロバスト性の両方の観点からの経験的性能は、合成データと実データで検証される。 Matrix completion is one of the crucial tools in modern data science research. Recently, a novel sampling model for matrix completion coined cross-concentrated sampling (CCS) has caught much attention. However, the robustness of the CCS model against sparse outliers remains unclear in the existing studies. In this paper, we aim to answer this question by exploring a novel Robust CCS Completion problem. A highly efficient non-convex iterative algorithm, dubbed Robust CUR Completion (RCURC), is proposed. The empirical performance of the proposed algorithm, in terms of both efficiency and robustness, is verified in synthetic and real datasets. | 翻訳日:2024-01-30 17:38:37 公開日:2024-01-28 |
# 円錐交差の量子シミュレーション Quantum Simulation of Conical Intersections ( http://arxiv.org/abs/2401.15565v1 ) ライセンス: Link先を確認 | Yuchen Wang and David A. Mazziotti | (参考訳) 量子デバイス上の円錐交叉(cis)のシミュレーションを探求し、分子系内の非断熱量子力学における潜在的応用の基礎を定めている。
H$_{3}^{+}$の交差ポテンシャルエネルギー曲面は、分散に基づく収縮量子固有解法から計算される。
反エルミート縮約したschr{\"o}dinger方程式 ansatz によって生成された波動関数を用いて、量子デバイス上でcisが正しく記述できることを示す。
ハイブリッド量子古典法はCIのシームを見つけるために用いられる。
さらに,アディバティックからダイアバティックへの変換の量子的実装とその幾何学的位相効果との関係について論じる。
ノイズの多い中間スケール量子デバイスは、非断熱化学における問題に対処する量子コンピュータの可能性を示す。 We explore the simulation of conical intersections (CIs) on quantum devices, setting the groundwork for potential applications in nonadiabatic quantum dynamics within molecular systems. The intersecting potential energy surfaces of H$_{3}^{+}$ are computed from a variance-based contracted quantum eigensolver. We show how the CIs can be correctly described on quantum devices using wavefunctions generated by the anti-Hermitian contracted Schr{\"o}dinger equation ansatz, which is a unitary transformation of wavefunctions that preserves the topography of CIs. A hybrid quantum-classical procedure is used to locate the seam of CIs. Additionally, we discuss the quantum implementation of the adiabatic to diabatic transformation and its relation to the geometric phase effect. Results on noisy intermediate-scale quantum devices showcase the potential of quantum computers in dealing with problems in nonadiabatic chemistry. | 翻訳日:2024-01-30 17:38:28 公開日:2024-01-28 |
# 軌道特徴構造に基づくUAV飛行状態認識・軌道予測システムの設計 Design of UAV flight state recognition and trajectory prediction system based on trajectory feature construction ( http://arxiv.org/abs/2401.15564v1 ) ライセンス: Link先を確認 | Xingyu Zhou and Zhuoyong Shi | (参考訳) 従来のUAV産業における人工知能の影響により、自律型UAV飛行は現在ホットな研究分野となっている。
本稿では,自律飛行UAVの重要技術研究の需要に基づいて,UAVの飛行状態認識と軌道予測の分野について述べる。
本稿では,UAV飛行状態認識に基づくUAV軌道予測の精度向上手法を提案し,その精度を2つの予測モデルを用いて検証する。
第一に、UAV飛行データ取得およびデータ前処理を行い、第二に、PCA-DAGSVMモデルに基づくUAV飛行状態認識モデルに基づいてUAV飛行軌跡の特徴を抽出し、最後に、2つのUAV飛行軌跡予測モデルを確立し、2つの飛行状態認識後の軌道予測誤差を比較し、解析する。
結果はこう示しています
1) PCA-DAGSVMに基づくUAV飛行状態認識モデルは良好な認識効果を有する。
2) 従来のUAV軌道予測モデルと比較して,飛行状態認識に基づく予測モデルは予測誤差を効果的に低減することができる。 With the impact of artificial intelligence on the traditional UAV industry, autonomous UAV flight has become a current hot research field. Based on the demand for research on critical technologies for autonomous flying UAVs, this paper addresses the field of flight state recognition and trajectory prediction of UAVs. This paper proposes a method to improve the accuracy of UAV trajectory prediction based on UAV flight state recognition and verifies it using two prediction models. Firstly, UAV flight data acquisition and data preprocessing are carried out; secondly, UAV flight trajectory features are extracted based on data fusion and a UAV flight state recognition model based on PCA-DAGSVM model is established; finally, two UAV flight trajectory prediction models are established and the trajectory prediction errors of the two prediction models are compared and analyzed after flight state recognition. The results show that: 1) the UAV flight state recognition model based on PCA-DAGSVM has good recognition effect. 2) compared with the traditional UAV trajectory prediction model, the prediction model based on flight state recognition can effectively reduce the prediction error. | 翻訳日:2024-01-30 17:38:15 公開日:2024-01-28 |
# brepgen:構造的潜在幾何学を持つb-rep生成拡散モデル BrepGen: A B-rep Generative Diffusion Model with Structured Latent Geometry ( http://arxiv.org/abs/2401.15563v1 ) ライセンス: Link先を確認 | Xiang Xu, Joseph G. Lambourne, Pradeep Kumar Jayaraman, Zhengqing Wang, Karl D.D. Willis, Yasutaka Furukawa | (参考訳) 本稿では,境界表現(b-rep)コンピュータ支援設計(cad)モデルを直接出力する拡散に基づく生成手法であるbrepgenを提案する。
BrepGenは階層木における新しい構造付き潜在幾何学としてB-repモデルを表す。
根ノードがcad全体を表すと、b-repモデルの各要素(例えば、顔、エッジ、頂点)は、上から下へと徐々に子ノードへと変化する。
B-rep幾何情報は、各プリミティブのグローバルな境界ボックスとしてノードに入り、局所的な幾何学的形状を記述する潜在コードを持つ。
B-repトポロジ情報はノード複製によって暗黙的に表現される。
2つの面がエッジを共有すると、エッジ曲線が木に2回現れ、3つの入射エッジを持つT接合頂点が同じノードの特徴を持つ木に6回現れる。
ルートから葉へと進むと、BrepGenはTransformerベースの拡散モデルを使用してノードの特徴を逐次分解し、重複ノードを検出してマージし、B-Repトポロジー情報を復元する。
広範な実験により、brepgenはcad b-rep生成の新しいマイルストーンを設定し、様々なベンチマークで既存のメソッドを上回った。
新たに収集した家具データセットの結果は、複雑な幾何学を創出する優れた能力を示している。
以前の方法は単純なプリズム形状の生成に限定されていたが、ブレプゲンは初めて自由曲面と二重曲線曲面を組み込んだ。
BrepGenの他の用途にはCADオートコンプリートと設計補間がある。
コード、事前訓練されたモデル、データセットがリリースされる。 This paper presents BrepGen, a diffusion-based generative approach that directly outputs a Boundary representation (B-rep) Computer-Aided Design (CAD) model. BrepGen represents a B-rep model as a novel structured latent geometry in a hierarchical tree. With the root node representing a whole CAD solid, each element of a B-rep model (i.e., a face, an edge, or a vertex) progressively turns into a child-node from top to bottom. B-rep geometry information goes into the nodes as the global bounding box of each primitive along with a latent code describing the local geometric shape. The B-rep topology information is implicitly represented by node duplication. When two faces share an edge, the edge curve will appear twice in the tree, and a T-junction vertex with three incident edges appears six times in the tree with identical node features. Starting from the root and progressing to the leaf, BrepGen employs Transformer-based diffusion models to sequentially denoise node features while duplicated nodes are detected and merged, recovering the B-Rep topology information. Extensive experiments show that BrepGen sets a new milestone in CAD B-rep generation, surpassing existing methods on various benchmarks. Results on our newly collected furniture dataset further showcase its exceptional capability in generating complicated geometry. While previous methods were limited to generating simple prismatic shapes, BrepGen incorporates free-form and doubly-curved surfaces for the first time. Additional applications of BrepGen include CAD autocomplete and design interpolation. The code, pretrained models, and dataset will be released. | 翻訳日:2024-01-30 17:37:55 公開日:2024-01-28 |
# 英語アルファベットにおける文字ダイナミクスの分析 An Analysis of Letter Dynamics in the English Alphabet ( http://arxiv.org/abs/2401.15560v1 ) ライセンス: Link先を確認 | Neil Zhao, Diana Zheng | (参考訳) 英語アルファベットの文字が書物に現れる頻度は、暗号の分野、キーボード力学の発展、言語学の研究に応用されている。
英字の統計的解析について,各文字が文章のカテゴリごとに出現する平均周波数を調べることにより拡張した。
我々は、ニュース記事、小説、戯曲、科学出版物を評価し、アルファベットの各文字の頻度、各文字の情報密度、全文字の分布を計算した。
さらに,様々な文章のカテゴリをアルゴリズムで認識できる距離dという指標を開発した。
本研究の結果は,情報伝達,大規模データキュレーション,言語学に応用できる。 The frequency with which the letters of the English alphabet appear in writings has been applied to the field of cryptography, the development of keyboard mechanics, and the study of linguistics. We expanded on the statistical analysis of the English alphabet by examining the average frequency which each letter appears in different categories of writings. We evaluated news articles, novels, plays, scientific publications and calculated the frequency of each letter of the alphabet, the information density of each letter, and the overall letter distribution. Furthermore, we developed a metric known as distance, d that can be used to algorithmically recognize different categories of writings. The results of our study can be applied to information transmission, large data curation, and linguistics. | 翻訳日:2024-01-30 17:37:28 公開日:2024-01-28 |
# 試す前に拡張: テーブル拡張による知識強化テーブル質問回答 Augment before You Try: Knowledge-Enhanced Table Question Answering via Table Expansion ( http://arxiv.org/abs/2401.15555v1 ) ライセンス: Link先を確認 | Yujian Liu, Jiabao Ji, Tong Yu, Ryan Rossi, Sungchul Kim, Handong Zhao, Ritwik Sinha, Yang Zhang, Shiyu Chang | (参考訳) テーブル質問応答は、モデルが構造化データを理解し、相互作用する能力を評価する一般的なタスクである。
しかし、与えられた表は、しばしば質問に答えるために十分な情報を含んでおらず、外部知識の統合が必要である。
既存のメソッドでは、テーブルと外部の知識の両方をテキストに変換し、テーブルの構造的な性質を無視する。
本稿では,あるテーブルに外部情報を統合するための,シンプルで効果的な手法を提案する。
本手法では,まず欠落した情報を含む拡張テーブルを構築し,その2つのテーブル上でsqlクエリを生成して質問に答える。
実験の結果,本手法は3つのテーブルQAベンチマークにおいて高いベースラインを達成できた。
私たちのコードはhttps://github.com/UCSB-NLP-Chang/Augment_tableQAで公開されています。 Table question answering is a popular task that assesses a model's ability to understand and interact with structured data. However, the given table often does not contain sufficient information for answering the question, necessitating the integration of external knowledge. Existing methods either convert both the table and external knowledge into text, which neglects the structured nature of the table; or they embed queries for external sources in the interaction with the table, which complicates the process. In this paper, we propose a simple yet effective method to integrate external information in a given table. Our method first constructs an augmenting table containing the missing information and then generates a SQL query over the two tables to answer the question. Experiments show that our method outperforms strong baselines on three table QA benchmarks. Our code is publicly available at https://github.com/UCSB-NLP-Chang/Augment_tableQA. | 翻訳日:2024-01-30 17:37:16 公開日:2024-01-28 |
# CTカルシウムスコア画像における冠動脈周囲脂肪組織の特徴と冠動脈CTAとの比較 Pericoronary adipose tissue feature analysis in CT calcium score images with comparison to coronary CTA ( http://arxiv.org/abs/2401.15554v1 ) ライセンス: Link先を確認 | Yingnan Song, Hao Wu, Juhwan Lee, Justin Kim, Ammar Hoori, Tao Hu, Vladislav Zimin, Mohamed Makhlouf, Sadeer Al-Kindi, Sanjay Rajagopalan, Chun-Ho Yun, Chung-Lieh Hung, David L. Wilson | (参考訳) 非contrast ct calcium score (ctcs) 画像を用いた冠動脈周囲脂肪組織(pcat)の評価と,心血管障害(mace)との関連について検討した。
冠動脈CTA(CCTA)のPCATの特徴は心血管疾患のリスクと相関するが、ヨードによって構築される可能性がある。
CTCS画像中のPCATも同じように分析できる場合、この問題を回避し、低コストのCTCS画像から正式なリスク評価に含めることができる。
血管の微妙な視覚的証拠を有するCTCS画像から冠動脈を同定するため,冠動脈ラベルを有するCCTA画像と組み合わせてCTCSを登録した。
冠状動脈のPCAT特徴を解析するための新しい軸方向ディスク法を開発した。
MACEの単変量および多変量ロジスティック回帰予測を用いて手作り・放射線学的特徴を解析し,CCTAと比較した。
登録精度はCTCS画像中のPCAT領域の同定に十分であった。
運動やビーム硬化は高コントラストCCTAでしばしば見られたが、CTCSは存在しなかった。
MACE群ではCTCS, CCTAともに平均HU, 容積が増加した。
CTCSとCCTAでは有意な正の相関がみられ, 同様の特徴が得られた。
CTCSとCCTAによる手作り/ラジオグラフィーを使用して、AUCはそれぞれ0.82/0.79と0.83/0.77であり、アガストンはAUC=0.73を与えた。
非造影CTCS画像の3つの主要冠動脈からPCATの特徴を評価できるが,その特徴はCCTAとほぼ同等である。 We investigated the feasibility and advantages of using non-contrast CT calcium score (CTCS) images to assess pericoronary adipose tissue (PCAT) and its association with major adverse cardiovascular events (MACE). PCAT features from coronary CTA (CCTA) have been shown to be associated with cardiovascular risk but are potentially confounded by iodine. If PCAT in CTCS images can be similarly analyzed, it would avoid this issue and enable its inclusion in formal risk assessment from readily available, low-cost CTCS images. To identify coronaries in CTCS images that have subtle visual evidence of vessels, we registered CTCS with paired CCTA images having coronary labels. We developed a novel axial-disk method giving regions for analyzing PCAT features in three main coronary arteries. We analyzed novel hand-crafted and radiomic features using univariate and multivariate logistic regression prediction of MACE and compared results against those from CCTA. Registration accuracy was sufficient to enable the identification of PCAT regions in CTCS images. Motion or beam hardening artifacts were often present in high-contrast CCTA but not CTCS. Mean HU and volume were increased in both CTCS and CCTA for MACE group. There were significant positive correlations between some CTCS and CCTA features, suggesting that similar characteristics were obtained. Using hand-crafted/radiomics from CTCS and CCTA, AUCs were 0.82/0.79 and 0.83/0.77 respectively, while Agatston gave AUC=0.73. Preliminarily, PCAT features can be assessed from three main coronary arteries in non-contrast CTCS images with performance characteristics that are at the very least comparable to CCTA. | 翻訳日:2024-01-30 17:37:01 公開日:2024-01-28 |
# 空洞光学におけるユニタリおよび効率的なスピンスクイーズ Unitary and efficient spin squeezing in cavity optomechanics ( http://arxiv.org/abs/2401.15553v1 ) ライセンス: Link先を確認 | Lei Xie, Zhiqi Yan, Lingxia Wang, Di Wang, Jinfeng Liu, Yiling Song, Wei Xiong, Mingfeng Wang | (参考訳) 光学キャビティに結合したダイヤモンドナノ構造において, 多数の窒素空孔中心のスピン圧縮状態を生成する手法を提案する。
Bennettらによって提案された以前のスクイーズ法とは違って。
[Phys. Lett. 110, 156402 (2013)] はフォノンスピンの絡み合いの存在によりフォノン数ゆらぎによって制限されるが, 提案手法はスピンとスピン-スピン相互作用を媒介するハイブリッドフォノン-フォトンモードの絡み合いを完全に消し, 窒素空孔中心間の一軸一軸揺らぎ相互作用を達成し, J を全角運動量とする。
その結果,ある条件下ではスピンスピン非線形相互作用を増大させる可能性が示唆された。
また, 2つの直交スピン方向に対して1軸ツイスト発展を反復的に適用することにより, 1軸ツイスト相互作用を2軸ツイスト型に変換し, ハイゼンベルク制限スケーリング $j^{-1}$ でスピンを絞る手法を提案した。
スピンデファスメントと緩和のノイズ効果を考慮して,提案手法が不完全性に対して頑健であることを見出した。 We propose an approach to produce spin squeezed states of a large number of nitrogen-vacancy centers in diamond nanostructures coupled to an optical cavity. Unlike the previous squeezing method proposed by Bennett et al. [Phys. Rev. Lett. 110, 156402 (2013)], which is limited by phonon number fluctuations due to the existence of phonon-spin entanglement, our proposal can completely erase the entanglement between spins and hybrid phonon-photon mode mediating the effective spin-spin interaction, and thus achieves unitary one-axis-twisting interactions between nitrogen-vacancy centres, yielding a squeezing scaling $J^{-2/3}$, where J is the total angular momentum. We found that, under certain conditions, our method has the potential to enhance the spin-spin nonlinear interactions. We also proposed a scheme utilizing repeatedly applying the one-axis-twisting evolution to two orthogonal spin directions, which enables the transformation of the one-axis-twisting interactions into two-axis-twisting type, and therefore leads to the spin squeezing with Heisenberg-limited scaling $J^{-1}$. Taking into account the noise effects of spin dephasing and relaxtion, we found that the proposed approaches are robust against imperfections. | 翻訳日:2024-01-30 17:36:34 公開日:2024-01-28 |
# PPM:コード生成モデルのベンチマークのための分散プログラミング問題の自動生成 PPM: Automated Generation of Diverse Programming Problems for Benchmarking Code Generation Models ( http://arxiv.org/abs/2401.15545v1 ) ライセンス: Link先を確認 | Simin Chen, Xiaoning Feng, Xiaohong Han, Cong Liu, Wei Yang | (参考訳) 近年、LCGM(Large Code Generation Models)が提案され、複雑なプログラミングタスクを開発者が支援する大きな可能性を示している。
LCGMのベンチマークは、様々なプログラミング問題の作成を必要とし、各問題にはプロンプト(タスク記述を含む)、標準解、テスト入力が含まれる。
このような問題集合を構築する既存の方法は、手動メソッドと摂動ベースのメソッドの2つの主なタイプに分類できる。
しかし、手動の手法では、LCGMの潜在的に汚染されたデータ収集によるデータの整合性や、摂動に基づくアプローチは、主に同じ標準解で意味的に均質な問題を生成し、IDEによって容易に自動修正できる型を導入し、非効率で非現実的になる。
本研究では,プログラミング問題マージ(PPM)の概念を提案し,この概念の2つの実装を提供し,このツールを広く使われている2つのデータセット上で利用し、8つのコード生成モデルを用いた9つのベースライン手法と比較する。
その結果,より難易度が高く,多様で,自然なプログラミング問題を発生させるツールの有効性を,ベースラインと比較した。 In recent times, a plethora of Large Code Generation Models (LCGMs) have been proposed, showcasing significant potential in assisting developers with complex programming tasks. Benchmarking LCGMs necessitates the creation of a set of diverse programming problems, and each problem comprises the prompt (including the task description), canonical solution, and test inputs. The existing methods for constructing such a problem set can be categorized into two main types: manual methods and perturbation-based methods. However, manual methods demand high effort and lack scalability, while also risking data integrity due to LCGMs' potentially contaminated data collection, and perturbation-based approaches mainly generate semantically homogeneous problems with the same canonical solutions and introduce typos that can be easily auto-corrected by IDE, making them ineffective and unrealistic. In this work, we propose the idea of programming problem merging (PPM) and provide two implementation of this idea, we utilize our tool on two widely-used datasets and compare it against nine baseline methods using eight code generation models. The results demonstrate the effectiveness of our tool in generating more challenging, diverse, and natural programming problems, comparing to the baselines. | 翻訳日:2024-01-30 17:36:05 公開日:2024-01-28 |
# 多視点非共用深度カメラによる多人数3次元ポーズ推定 Multi-Person 3D Pose Estimation from Multi-View Uncalibrated Depth Cameras ( http://arxiv.org/abs/2401.15616v1 ) ライセンス: Link先を確認 | Yu-Jhe Li, Yan Xu, Rawal Khirodkar, Jinhyung Park, Kris Kitani | (参考訳) 我々は、限られた数の非校正深度カメラから多視点多人3次元ポーズ推定の課題に取り組む。
近年,多視点RGBカメラを用いた3次元ポーズ推定法が提案されている。
しかし,これらの作業は,(1)RGBカメラビューの数が3次元再構成に十分大きいと仮定し,(2)カメラの校正を行い,(3)レグレッションモデルのトレーニングには地上の真理3Dポーズに依存する。
本研究では,rgbdビデオストリームによる3次元人物ポーズ推定を行うための,疎密で非対応の奥行きカメラの活用を提案する。
本稿では、カメラのポーズと3Dのポーズを3次元の人間のポーズ回帰モデルを訓練することなく、共同で予測する多視点深度人間のポーズ推定(MVD-HPE)のための簡単なパイプラインを提案する。
このフレームワークはRGBD画像からの3D Re-IDの外観特徴を利用して、RGBのみの機能よりも正確な対応(カメラ位置の導出)を定式化している。
さらに,(1)3次元剛性変換を誘導として深度誘導カメラの位置推定と,(2)深度投影3次元点を最適化の代替目的として用いる深さ拘束3次元ポーズ推定を提案する。
提案するパイプラインを評価するために,複数のスパークビュー深度カメラから記録されたRGBDビデオ3セットと,手動で3Dポーズをアノテートする。
実験の結果,提案手法はカメラポーズ推定と3次元ポーズ推定の両方の観点から,現在の3次元ポーズフリーパイプラインよりも優れていた。 We tackle the task of multi-view, multi-person 3D human pose estimation from a limited number of uncalibrated depth cameras. Recently, many approaches have been proposed for 3D human pose estimation from multi-view RGB cameras. However, these works (1) assume the number of RGB camera views is large enough for 3D reconstruction, (2) the cameras are calibrated, and (3) rely on ground truth 3D poses for training their regression model. In this work, we propose to leverage sparse, uncalibrated depth cameras providing RGBD video streams for 3D human pose estimation. We present a simple pipeline for Multi-View Depth Human Pose Estimation (MVD-HPE) for jointly predicting the camera poses and 3D human poses without training a deep 3D human pose regression model. This framework utilizes 3D Re-ID appearance features from RGBD images to formulate more accurate correspondences (for deriving camera positions) compared to using RGB-only features. We further propose (1) depth-guided camera-pose estimation by leveraging 3D rigid transformations as guidance and (2) depth-constrained 3D human pose estimation by utilizing depth-projected 3D points as an alternative objective for optimization. In order to evaluate our proposed pipeline, we collect three video sets of RGBD videos recorded from multiple sparse-view depth cameras and ground truth 3D poses are manually annotated. Experiments show that our proposed method outperforms the current 3D human pose regression-free pipelines in terms of both camera pose estimation and 3D human pose estimation. | 翻訳日:2024-01-30 17:30:16 公開日:2024-01-28 |
# グラフ型機械学習モデルの雑音と効率問題への対処 : 逆攻撃の視点から Addressing Noise and Efficiency Issues in Graph-Based Machine Learning Models From the Perspective of Adversarial Attack ( http://arxiv.org/abs/2401.15615v1 ) ライセンス: Link先を確認 | Yongyu Wang | (参考訳) 既存のグラフ構築法が与えられたデータセットに対して完璧なグラフを生成することができないことを考慮すれば、グラフベースのアルゴリズムは、構築されたグラフ内に存在する冗長なエッジと誤エッジの多元性の影響を必ず受ける。
本稿では,これらの雑音エッジを逆攻撃として扱うことを提案し,スペクトル逆ロバスト性評価法を用いて,雑音エッジがグラフアルゴリズムの性能に与える影響を低減させる。
提案手法は,ノイズエッジに対して脆弱でない点を特定し,これらのロバストな点のみを利用してグラフベースアルゴリズムを実行する。
最も代表的で広く利用されているグラフアルゴリズムの1つであるスペクトルクラスタリング実験では,提案手法がアルゴリズムの精度を大幅に向上するだけでなく,少数のロバストなデータポイントのみを活用することにより,計算効率を大幅に向上させることを示した。 Given that no existing graph construction method can generate a perfect graph for a given dataset, graph-based algorithms are invariably affected by the plethora of redundant and erroneous edges present within the constructed graphs. In this paper, we propose treating these noisy edges as adversarial attack and use a spectral adversarial robustness evaluation method to diminish the impact of noisy edges on the performance of graph algorithms. Our method identifies those points that are less vulnerable to noisy edges and leverages only these robust points to perform graph-based algorithms. Our experiments with spectral clustering, one of the most representative and widely utilized graph algorithms, reveal that our methodology not only substantially elevates the precision of the algorithm but also greatly accelerates its computational efficiency by leveraging only a select number of robust data points. | 翻訳日:2024-01-30 17:29:26 公開日:2024-01-28 |
# 一般化境界条件を持つ1次元開多体量子系におけるリウビリアンスキン効果 Liouvillian skin effect in a one-dimensional open many-body quantum system with generalized boundary conditions ( http://arxiv.org/abs/2401.15614v1 ) ライセンス: Link先を確認 | Liang Mao, Ming-Jie Tao, Haiping Hu, and Lei Pan | (参考訳) 非エルミタン皮膚効果(NHSE)、すなわち非エルミタンハミルタインの固有状態が開境界条件の1つの境界に局在していることは、近年大きな関心を集めている。
本稿では,LSE(Liouvillian skin effect)と呼ばれる1次元散逸型量子多体系における皮膚効果について検討する。
我々は、ベーテ・アンザッツの利点を生かした、正確に解けるモデルのリウヴィリアン超作用素を解くことにより、一般化境界条件に対する LSE の存在を厳密に同定する。
LSEは、そのシグネチャが系の固有関数に反映される境界条件に敏感である。
我々はLSEが非エルミート電流で小さなコフロー境界ホッピングに対して脆弱であることを確認するが、熱力学限界における反フロー境界ホッピングのために生き残ることができる。
我々の研究は、一般化境界条件に対するLSEを示す、正確に解ける散逸性量子多体格子系のプロトタイプ例を提供する。
他の可積分開量子多体モデルにも拡張できる。 Non-Hermitian skin effect (NHSE), namely that eigenstates of non-Hermitian Hamiltonains are localized at one boundary in the open boundary condition, attracts great interest recently. In this paper, we investigate the skin effect in one-dimensional dissipative quantum many-body systems, which we call the Liouvillian skin effect (LSE). We rigorously identify the existence of LSE for generalized boundary conditions by solving the Liouvillian superoperator of an exactly solvable model with the advantage of Bethe ansatz. The LSE is sensitive to boundary conditions where the signature is reflected in eigenfunctions of the system. We confirm that the LSE is fragile to a tiny co-flow boundary hopping with non-Hermitian current but can survive for a counter-flow boundary hopping in the thermodynamic limit. Our work provides a prototypical example of exactly solvable dissipative quantum many-body lattice systems exhibiting LSE for generalized boundary conditions. It can be further extended to other integrable open quantum many-body models. | 翻訳日:2024-01-30 17:29:00 公開日:2024-01-28 |
# 任意スケールの病理画像スーパーレゾリューションに向けて: インシシト自己テクスチャ強化による効率的なデュアルブランチフレームワーク Towards Arbitrary-Scale Histopathology Image Super-resolution: An Efficient Dual-branch Framework via Implicit Self-texture Enhancement ( http://arxiv.org/abs/2401.15613v1 ) ライセンス: Link先を確認 | Minghong Duan, Linhao Qu, Zhiwei Yang, Manning Wang, Chenxi Zhang, Zhijian Song | (参考訳) 高品質な全スライディングスキャナーは高価で複雑で時間を要するため、日常臨床における高解像度の病理画像の取得と利用が制限される。
低解像度画像から高解像度画像を合成することにより、ディープラーニングに基づく単一画像の超解像技術はこの問題を効果的に解決する。
しかし、病理画像に適用された既存の超解像モデルは、固定整数倍率でしか機能せず、適用性が著しく低下する。
暗黙的神経表現に基づく手法は自然画像の任意のスケールの超解像において有望な結果を示しているが、病理画像に直接それを適用することは、自然画像と異なる特異な細粒度の画像テクスチャを持つため不十分である。
そこで本研究では,病理画像の任意の大規模超解像のための暗黙的自己テキスト強調型デュアルブランチフレームワーク (iste) を提案する。
isteには、まずピクセルの特徴とテクスチャ機能を学習する、pixel learningブランチとテクスチャ学習ブランチが含まれている。
次に,2つの分枝から特徴を融合させて超解像結果を得る2段階のテクスチャ強化戦略をデザインし,第1段階が特徴ベーステクスチャ強化,第2段階が空間ドメインベースのテクスチャ強化を行う。
3つの公開データセットに対する大規模な実験によると、ISTEは既存の固定スケールおよび任意のスケールのアルゴリズムを複数の倍率で上回り、下流タスクのパフォーマンスを向上させる。
我々の知る限りでは、病理画像において任意のスケールの超解像を実現する最初の試みである。
コードは利用可能だ。 High-quality whole-slide scanners are expensive, complex, and time-consuming, thus limiting the acquisition and utilization of high-resolution pathology whole-slide images in daily clinical work. Deep learning-based single-image super-resolution techniques are an effective way to solve this problem by synthesizing high-resolution images from low-resolution ones. However, the existing super-resolution models applied in pathology images can only work in fixed integer magnifications, significantly decreasing their applicability. Though methods based on implicit neural representation have shown promising results in arbitrary-scale super-resolution of natural images, applying them directly to pathology images is inadequate because they have unique fine-grained image textures different from natural images. Thus, we propose an Implicit Self-Texture Enhancement-based dual-branch framework (ISTE) for arbitrary-scale super-resolution of pathology images to address this challenge. ISTE contains a pixel learning branch and a texture learning branch, which first learn pixel features and texture features, respectively. Then, we design a two-stage texture enhancement strategy to fuse the features from the two branches to obtain the super-resolution results, where the first stage is feature-based texture enhancement, and the second stage is spatial-domain-based texture enhancement. Extensive experiments on three public datasets show that ISTE outperforms existing fixed-scale and arbitrary-scale algorithms at multiple magnifications and helps to improve downstream task performance. To the best of our knowledge, this is the first work to achieve arbitrary-scale super-resolution in pathology images. Codes will be available. | 翻訳日:2024-01-30 17:28:09 公開日:2024-01-28 |
# 高次元データに対するロジスティック回帰の高精度なドロップイン置換 Prevalidated ridge regression is a highly-efficient drop-in replacement for logistic regression for high-dimensional data ( http://arxiv.org/abs/2401.15610v1 ) ライセンス: Link先を確認 | Angus Dempster, Geoffrey I. Webb, Daniel F. Schmidt | (参考訳) ロジスティック回帰は確率的分類のユビキタスな方法である。
しかしながら、ロジスティック回帰の有効性は、特に正規化ハイパーパラメータ、特に高次元データの文脈において、慎重で比較的計算コストの高いチューニングに依存する。
本稿では,特に高次元データにおいて,ロジスティック回帰と分類誤差とログロスの両面で密に一致し,計算効率が著しく向上し,正規化以上のハイパーパラメータが効果的に存在しないことを示す。
モデルの係数をスケールして,推定残量1のクロスバリデーション誤差から導かれる事前評価された予測集合に対するログロスを最小化する。
これは、隆起回帰モデルに適合する過程で既に計算された量を利用して、名目追加の計算コストでスケーリングパラメータを見つける。 Logistic regression is a ubiquitous method for probabilistic classification. However, the effectiveness of logistic regression depends upon careful and relatively computationally expensive tuning, especially for the regularisation hyperparameter, and especially in the context of high-dimensional data. We present a prevalidated ridge regression model that closely matches logistic regression in terms of classification error and log-loss, particularly for high-dimensional data, while being significantly more computationally efficient and having effectively no hyperparameters beyond regularisation. We scale the coefficients of the model so as to minimise log-loss for a set of prevalidated predictions derived from the estimated leave-one-out cross-validation error. This exploits quantities already computed in the course of fitting the ridge regression model in order to find the scaling parameter with nominal additional computational expense. | 翻訳日:2024-01-30 17:27:03 公開日:2024-01-28 |
# 拡散モデルにおけるニューラルネットワークに基づくスコア推定:最適化と一般化 Neural Network-Based Score Estimation in Diffusion Models: Optimization and Generalization ( http://arxiv.org/abs/2401.15604v1 ) ライセンス: Link先を確認 | Yinbin Han, Meisam Razaviyayn, Renyuan Xu | (参考訳) 拡散モデルがgansに匹敵する強力なツールとして登場し、忠実性、柔軟性、堅牢性を改善した高品質なサンプルを生成する。
これらのモデルの鍵となる要素は、スコアマッチングを通じてスコア関数を学ぶことである。
様々なタスクで経験的な成功にもかかわらず、勾配に基づくアルゴリズムが証明可能な精度でスコア関数を学習できるかどうかは不明である。
この質問に答える第一歩として,勾配降下によって学習したニューラルネットワークを用いてスコア推定を解析するための数学的枠組みを確立した。
本分析は,学習手順の最適化と一般化の両面をカバーする。
特に,ノイズラベルを用いた回帰として,発声スコアマッチング問題を定式化するパラメトリック形式を提案する。
標準教師付き学習装置と比較して、スコアマッチング問題は、非有界入力、ベクトル値出力、追加の時間変数などの異なる課題を導入し、既存のテクニックが直接適用されないようにする。
本稿では、適切に設計されたニューラルネットワークアーキテクチャを用いて、スコア関数を、神経接核によって引き起こされる再生核ヒルベルト空間によって正確に近似できることを示す。
さらに,勾配降下の早期停止ルールを適用し,ニューラルネットワークのトレーニングとカーネル回帰の結合引数を活用することで,観測にノイズが存在するにもかかわらずスコア関数を学習するための最初の一般化誤差(サンプル複雑性)境界を確立する。
本研究は,ニューラルネットの新しいパラメトリック形式と,スコアマッチングと回帰分析の革新的な関連を基礎として,高度な統計・最適化手法の適用を促進する。 Diffusion models have emerged as a powerful tool rivaling GANs in generating high-quality samples with improved fidelity, flexibility, and robustness. A key component of these models is to learn the score function through score matching. Despite empirical success on various tasks, it remains unclear whether gradient-based algorithms can learn the score function with a provable accuracy. As a first step toward answering this question, this paper establishes a mathematical framework for analyzing score estimation using neural networks trained by gradient descent. Our analysis covers both the optimization and the generalization aspects of the learning procedure. In particular, we propose a parametric form to formulate the denoising score-matching problem as a regression with noisy labels. Compared to the standard supervised learning setup, the score-matching problem introduces distinct challenges, including unbounded input, vector-valued output, and an additional time variable, preventing existing techniques from being applied directly. In this paper, we show that with a properly designed neural network architecture, the score function can be accurately approximated by a reproducing kernel Hilbert space induced by neural tangent kernels. Furthermore, by applying an early-stopping rule for gradient descent and leveraging certain coupling arguments between neural network training and kernel regression, we establish the first generalization error (sample complexity) bounds for learning the score function despite the presence of noise in the observations. Our analysis is grounded in a novel parametric form of the neural network and an innovative connection between score matching and regression analysis, facilitating the application of advanced statistical and optimization techniques. | 翻訳日:2024-01-30 17:26:49 公開日:2024-01-28 |
# 固有値補正によるスペクトルグラフニューラルネットワークの表現力向上 Improving Expressive Power of Spectral Graph Neural Networks with Eigenvalue Correction ( http://arxiv.org/abs/2401.15603v1 ) ライセンス: Link先を確認 | Kangkang Lu, Yanhua Yu, Hao Fei, Xuan Li, Zixuan Yang, Zirui Guo, Meiyu Liang, Mengran Yin and Tat-Seng Chua | (参考訳) 近年,多項式フィルタを特徴とするスペクトルグラフニューラルネットワークが注目度を高め,ノード分類などのタスクにおいて顕著な性能を発揮している。
これらのモデルは典型的には正規化ラプラス行列の固有値が互いに異なると仮定し、多項式フィルタが高い適合性を持つことを期待する。
しかし,本論文では正規化ラプラシアン行列が繰り返し固有値を持つことを実証的に観察する。
さらに,スペクトルグラフニューラルネットワークの表現力を決定する上で,識別可能な固有値の数が重要な役割を担っていることを理論的に立証する。
そこで本研究では,繰り返し入力される固有値の制約から多項式フィルタを解放する固有値補正手法を提案する。
具体的には, 固有値の均一分布を強化し, 繰り返し固有値を緩和し, 多項式フィルタの適合能力と表現力を向上させる。
合成データと実世界のデータセットの両方における広範な実験結果から,本手法の優越性が示された。 In recent years, spectral graph neural networks, characterized by polynomial filters, have garnered increasing attention and have achieved remarkable performance in tasks such as node classification. These models typically assume that eigenvalues for the normalized Laplacian matrix are distinct from each other, thus expecting a polynomial filter to have a high fitting ability. However, this paper empirically observes that normalized Laplacian matrices frequently possess repeated eigenvalues. Moreover, we theoretically establish that the number of distinguishable eigenvalues plays a pivotal role in determining the expressive power of spectral graph neural networks. In light of this observation, we propose an eigenvalue correction strategy that can free polynomial filters from the constraints of repeated eigenvalue inputs. Concretely, the proposed eigenvalue correction strategy enhances the uniform distribution of eigenvalues, thus mitigating repeated eigenvalues, and improving the fitting capacity and expressive power of polynomial filters. Extensive experimental results on both synthetic and real-world datasets demonstrate the superiority of our method. | 翻訳日:2024-01-30 17:26:25 公開日:2024-01-28 |
# Comuniqa : 話し方を改善するための大規模言語モデルの検討 Comuniqa : Exploring Large Language Models for improving speaking skills ( http://arxiv.org/abs/2401.15595v1 ) ライセンス: Link先を確認 | Manas Mhasakar, Shikhar Sharma, Apurv Mehra, Utkarsh Venaik, Ujjwal Singhal, Dhruv Kumar, Kashish Mittal | (参考訳) 本研究では,Large Language Models (LLMs) の音声能力向上の可能性について検討する。
我々はまず,この課題に対して新しいLCMベースのシステムComuniqaを提案する。
そして、人間中心のアプローチでこのシステムを評価し、人間の専門家と比較します。
また,LLMと人的専門家の双方からのフィードバックを組み合わせて総合的な学習結果を高める可能性についても検討した。
被験者の募集にパーポーブとランダムサンプリングを用い,LLM対応アプリを用いて発話スキルを向上させるグループ,同じタスクのために人間専門家が指導するグループ,LLM対応アプリと人間専門家の両方を利用するグループに分類した。
調査,インタビュー,実際の学習セッションを用いて,異なる学習モダリティの有効性に関する詳細な視点を提供する。
予備的な知見は, LLMに基づくシステムでは, 精度と共感の両面において, 人間のレベルの認知能力が欠如していることを示唆している。 This research paper explores the potential of Large Language Models (LLMs) to enhance speaking skills. We first present a novel LLM-based system, Comuniqa, for this task. We then take a humancentric approach to evaluate this system, comparing it with human experts. We also investigate the possibility of combining feedback from both LLM and human experts to enhance overall learning outcomes. We use purposive and random sampling for recruiting participants, categorizing them into three groups: those who use LLM-enabled apps for improving speaking skills, those guided by human experts for the same task and those who utilize both the LLM-enabled apps as well as the human experts. Using surveys, interviews, and actual study sessions, we provide a detailed perspective on the effectiveness of different learning modalities. Our preliminary findings suggest that while LLM-based systems have commendable accuracy, they lack human-level cognitive capabilities, both in terms of accuracy and empathy. | 翻訳日:2024-01-30 17:26:09 公開日:2024-01-28 |
# 量子相転移の忠実な検出器としての多成分絡み合い Multipartite entanglement serves as a faithful detector for quantum phase transitions ( http://arxiv.org/abs/2401.15593v1 ) ライセンス: Link先を確認 | Y. C. Li, Y. H. Zhou, Y. Zhang, Y. K. Bai, and H. Q. Lin | (参考訳) 種々のスピン鎖系における量子相転移を, 正方形絡み合いのモノガミー不等式に基づいて, マルチパーティライトエンタングルメント測度$\tau_{SEF}$を用いて検討した。
以上の結果は, 量子相転移を特徴づける上で, 生成の絡み合い, フォン・ノイマンエントロピー, 量子不協和といった二部相関法よりも, $\tau_{SEF}$の方が有効で信頼性が高いことを示す。
$\tau_{sef}$は、他の検出器が気づかないような臨界点を検出するだけでなく、他の測度が遭遇する臨界点における特異点の問題も回避する。
さらに、$\tau_{SEF}$を適用することで、3と4の相互作用を持つXYスピン鎖の位相図を取得し、新しい量子位相を発見した。 We investigate quantum phase transitions in various spin chain systems using the multipartite entanglement measure $\tau_{SEF}$ based on the monogamy inequality of squared entanglement of formation. Our results demonstrate that $\tau_{SEF}$ is more effective and reliable than bipartite entanglement or bipartite correlation measures such as entanglement of formation, von Neumann entropy, and quantum discord in characterizing quantum phase transitions. $\tau_{SEF}$ not only detects critical points that may go unnoticed by other detectors but also avoids the issue of singularity at non-critical points encountered by other measures. Furthermore, by applying $\tau_{SEF}$, we have obtained the phase diagram for the XY spin chain with three and four interactions and discovered a new quantum phase. | 翻訳日:2024-01-30 17:25:51 公開日:2024-01-28 |
# OpineBot: 会話型LLMを用いたクラスフィードバック OpineBot: Class Feedback Reimagined Using a Conversational LLM ( http://arxiv.org/abs/2401.15589v1 ) ライセンス: Link先を確認 | Henansh Tanwar, Kunal Shrivastva, Rahul Singh, Dhruv Kumar | (参考訳) 従来の授業フィードバックシステムは、学生参加へのインセンティブがほとんどない静的で未熟な調査に依存することが多い。
そこで本稿では,大規模言語モデル(LLM)を用いたチャットボットインタフェースによる対話型クラスフィードバックを実現する新システムであるOpineBotを提案する。
インド大学のオペレーティング・システムズ・クラスから20人の学生を対象にしたユーザ・スタディにおいて,OpineBotの有効性を評価した。
調査の結果、OpineBotは従来の方法と比較して、学生をエンゲージする能力を強調し、より深いフィードバックを与え、動的調査体験を提供する。
この研究は、初期の成果を提供し、LLM技術によるクラスフィードバックの革新、学生のエンゲージメントの促進、インストラクターのためのより豊かなデータへの導出に向けた重要な一歩である。
本研究は, 学生のエンゲージメントを高め, 教育者のための包括的データを生成するために, LLM技術を用いて教室のフィードバックを変換することの顕著な進歩を示す。 Conventional class feedback systems often fall short, relying on static, unengaging surveys offering little incentive for student participation. To address this, we present OpineBot, a novel system employing large language models (LLMs) to conduct personalized, conversational class feedback via chatbot interface. We assessed OpineBot's effectiveness in a user study with 20 students from an Indian university's Operating-Systems class, utilizing surveys and interviews to analyze their experiences. Findings revealed a resounding preference for OpineBot compared to conventional methods, highlighting its ability to engage students, produce deeper feedback, offering a dynamic survey experience. This research represents a work in progress, providing early results, marking a significant step towards revolutionizing class feedback through LLM-based technology, promoting student engagement, and leading to richer data for instructors. This ongoing research presents preliminary findings and marks a notable advancement in transforming classroom feedback using LLM-based technology to enhance student engagement and generate comprehensive data for educators. | 翻訳日:2024-01-30 17:25:35 公開日:2024-01-28 |
# ハイパーエッジインタラクションアウェアハイパーグラフニューラルネットワーク Hyperedge Interaction-aware Hypergraph Neural Network ( http://arxiv.org/abs/2401.15587v1 ) ライセンス: Link先を確認 | Xiaobing Pei, Rongping Ye, Haoran Yang, Ruiqi Wang | (参考訳) ハイパーグラフは多くの実世界のデータセットで高次関係をモデリングするための効果的なモデリングアプローチを提供する。
このような複雑な関係を捉えるために、ノードからハイパーエッジ、そしてハイパーエッジからノードに情報を伝播するハイパーグラフ構造を学ぶために、いくつかのハイパーグラフニューラルネットワークが提案されている。
しかし,既存の手法のほとんどは,ハイパーエッジとノード間の情報伝達に重点を置いている。
本稿では、畳み込み過程におけるハイパーエッジ間の相互作用をキャプチャするハイパーエッジインタラクション対応ハイパーグラフニューラルネットワークであるHeIHNNを提案し、ハイパーエッジとノード間の情報フローを強化する新しいメカニズムを提案する。
具体的には、ハイパーエッジ間の相互作用をハイパーグラフ畳み込みに統合し、3段階の情報伝達プロセスを構築する。
ノードからハイパーエッジへの情報を伝播した後、ハイパーエッジ埋め込みを更新するためにハイパーエッジレベルの畳み込みを導入する。
最後に、ハイパーエッジ間のインタラクションから豊富な情報をキャプチャする埋め込みを使用して、ノード埋め込みを更新する。
さらに,ノードとハイパーエッジ間の情報伝達段階におけるハイパーエッジ・アウトレイラ除去機構を導入し,学習した埋め込みを用いてハイパーグラフ構造を動的に調整し,アウトレイラを効果的に除去する。
実世界のデータセットで実施された大規模な実験は、最先端の手法と比較してHeIHNNの競合性能を示している。 Hypergraphs provide an effective modeling approach for modeling high-order relationships in many real-world datasets. To capture such complex relationships, several hypergraph neural networks have been proposed for learning hypergraph structure, which propagate information from nodes to hyperedges and then from hyperedges back to nodes. However, most existing methods focus on information propagation between hyperedges and nodes, neglecting the interactions among hyperedges themselves. In this paper, we propose HeIHNN, a hyperedge interaction-aware hypergraph neural network, which captures the interactions among hyperedges during the convolution process and introduce a novel mechanism to enhance information flow between hyperedges and nodes. Specifically, HeIHNN integrates the interactions between hyperedges into the hypergraph convolution by constructing a three-stage information propagation process. After propagating information from nodes to hyperedges, we introduce a hyperedge-level convolution to update the hyperedge embeddings. Finally, the embeddings that capture rich information from the interaction among hyperedges will be utilized to update the node embeddings. Additionally, we introduce a hyperedge outlier removal mechanism in the information propagation stages between nodes and hyperedges, which dynamically adjusts the hypergraph structure using the learned embeddings, effectively removing outliers. Extensive experiments conducted on real-world datasets show the competitive performance of HeIHNN compared with state-of-the-art methods. | 翻訳日:2024-01-30 17:25:15 公開日:2024-01-28 |
# 思考連鎖プロンプトによる大規模言語モデルにおける性バイアスの評価 Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting ( http://arxiv.org/abs/2401.15585v1 ) ライセンス: Link先を確認 | Masahiro Kaneko, Danushka Bollegala, Naoaki Okazaki, Timothy Baldwin | (参考訳) モデルのサイズでモデルのパフォーマンスが向上し、算術推論やシンボリック推論のような非スカラブルなタスク、モデルサイズで必ずしもモデルパフォーマンスが向上しないといった、スケーラブルなタスクも存在します。
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
残念なことに、LSMは例外的な推論能力にもかかわらず、差別的な社会的バイアスを内部化し、再現する傾向がある。
CoTが不可解なタスクにおける暗黙の情報に対して差別的または平等的合理化を提供できるかどうかは未解決の問題である。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
そこで本研究では,女性,男性,性的な職業語からなる単語のリストをLLMに付与し,女性,男性,男性の各単語の数をカウントするアンスケータブルタスクのベンチマークを構築した。
当社のCoTプロンプトでは,最終予測の前に,単語リストの各単語が女性か男性かを明確に示さなければならない。
単語の意味を数えて扱うことで、このベンチマークは算術的推論と記号的推論の両方の特徴を持つ。
英語における実験結果によると、ほとんどのLLMは、単語を数えるほど単純な作業であるにもかかわらず、社会的に偏りのある予測を行う。
興味深いことに、CoT は LLM におけるこの無意識の社会的バイアスを減らし、公正な予測を促す。 There exist both scalable tasks, like reading comprehension and fact-checking, where model performance improves with model size, and unscalable tasks, like arithmetic reasoning and symbolic reasoning, where model performance does not necessarily improve with model size. Large language models (LLMs) equipped with Chain-of-Thought (CoT) prompting are able to make accurate incremental predictions even on unscalable tasks. Unfortunately, despite their exceptional reasoning abilities, LLMs tend to internalize and reproduce discriminatory societal biases. Whether CoT can provide discriminatory or egalitarian rationalizations for the implicit information in unscalable tasks remains an open question. In this study, we examine the impact of LLMs' step-by-step predictions on gender bias in unscalable tasks. For this purpose, we construct a benchmark for an unscalable task where the LLM is given a list of words comprising feminine, masculine, and gendered occupational words, and is required to count the number of feminine and masculine words. In our CoT prompts, we require the LLM to explicitly indicate whether each word in the word list is a feminine or masculine before making the final predictions. With counting and handling the meaning of words, this benchmark has characteristics of both arithmetic reasoning and symbolic reasoning. Experimental results in English show that without step-by-step prediction, most LLMs make socially biased predictions, despite the task being as simple as counting words. Interestingly, CoT prompting reduces this unconscious social bias in LLMs and encourages fair predictions. | 翻訳日:2024-01-30 17:24:55 公開日:2024-01-28 |
# DGNN: 属性とグラフ埋め込み表現の間の構造整合性を持つグラフニューラルネットワーク DGNN: Decoupled Graph Neural Networks with Structural Consistency between Attribute and Graph Embedding Representations ( http://arxiv.org/abs/2401.15584v1 ) ライセンス: Link先を確認 | Jinlu Wang, Jipeng Guo, Yanfeng Sun, Junbin Gao, Shaofan Wang, Yachao Yang, Baocai Yin | (参考訳) グラフニューラルネットワーク(GNN)は、複雑な構造を持つグラフ上での表現学習の堅牢性を示し、様々なアプリケーションで優れたパフォーマンスを示す。
既存のGNNの多くは、属性情報と構造情報の両方を結合学習によって利用することで、グラフ畳み込み演算を採用している。
本質的に、GNNは最適化の観点から、属性とグラフ情報のバランスをとるコンセンサスと妥協した埋め込み表現を学び、有効な情報を選択的に探索し保持する。
ノードのより包括的な埋め込み表現を得るために、Decoupled Graph Neural Networks (DGNN)と呼ばれる新しいGNNフレームワークが導入された。
DGNNは、属性とグラフ空間から分離された項によって固有の埋め込み表現を探索する。
属性特徴空間から構築されたセマンティックグラフは、異なるノード接続情報から構成され、トポロジカルグラフの強化を提供するので、トポロジカルグラフとセマンティックグラフを組み合わせて埋め込み表現学習を行う。
さらに、属性埋め込みとグラフ埋め込みの間の構造整合性を高め、冗長情報を効果的に除去し、ソフト接続を確立する。
これには、隣接再構成行列の因子共有を促進し、コンセンサスと高レベルの相関関係の探索を容易にすることが含まれる。
最後に、より強力で完全な表現は、これらの埋め込みの結合によって達成される。
いくつかのグラフベンチマークデータセットで実施された実験結果は、ノード分類タスクにおいてその優位性を検証する。 Graph neural networks (GNNs) demonstrate a robust capability for representation learning on graphs with complex structures, showcasing superior performance in various applications. The majority of existing GNNs employ a graph convolution operation by using both attribute and structure information through coupled learning. In essence, GNNs, from an optimization perspective, seek to learn a consensus and compromise embedding representation that balances attribute and graph information, selectively exploring and retaining valid information. To obtain a more comprehensive embedding representation of nodes, a novel GNNs framework, dubbed Decoupled Graph Neural Networks (DGNN), is introduced. DGNN explores distinctive embedding representations from the attribute and graph spaces by decoupled terms. Considering that semantic graph, constructed from attribute feature space, consists of different node connection information and provides enhancement for the topological graph, both topological and semantic graphs are combined for the embedding representation learning. Further, structural consistency among attribute embedding and graph embeddings is promoted to effectively remove redundant information and establish soft connection. This involves promoting factor sharing for adjacency reconstruction matrices, facilitating the exploration of a consensus and high-level correlation. Finally, a more powerful and complete representation is achieved through the concatenation of these embeddings. Experimental results conducted on several graph benchmark datasets verify its superiority in node classification task. | 翻訳日:2024-01-30 17:24:29 公開日:2024-01-28 |
# SCTransNet:赤外小ターゲット検出のための空間チャネルクロストランスネットワーク SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection ( http://arxiv.org/abs/2401.15583v1 ) ライセンス: Link先を確認 | Shuai Yuan, Hanlin Qin, Xiang Yan, Naveed AKhtar, Ajmal Mian | (参考訳) 赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。
しかしながら、効果的なグローバル情報モデリングは見過ごされ、ターゲットが背景と高い類似度を持つ場合、既存の技術は苦戦する。
本稿では,この課題に対処するために,長距離スキップ接続上の空間チャネルクロストランスブロック(SCTB)を利用する空間チャネルクロストランスネットワーク(SCTransNet)を提案する。
提案するsctbでは、すべてのエンコーダの出力がクロストランスと相互作用して混合特徴を生成し、全てのデコーダに再分配することで、ターゲットとクラッタ間の意味的差異を効果的に強化する。
具体的には、SCTBは以下の2つのキー要素を含む。
(a)局所的空間特徴とフルレベルグローバルチャネル情報を交換し、エンコーダ間のあいまいさをなくし、画像の高レベルなセマンティックアソシエーションを促進するための空間埋め込みシングルヘッドチャネルクロスアテンション(SSCA)
b)マルチスケール戦略と空間間情報通信により特徴識別性を向上し,有益な情報伝達を促進するための補完的フィードフォワードネットワーク(CFN)を提案する。
sctransnetはターゲットと背景のセマンティックな違いを効果的にエンコードし、赤外線の小さなターゲットを正確に検出するための内部表現を高めます。
3つの公開データセット(NUDT-SIRST、NUAA-SIRST、IRSTD-1k)に対する大規模な実験は、提案されたSCTransNetが既存のIRSTD法より優れていることを示した。
私たちのコードはhttps://github.com/xdFai.comで公開されます。 Infrared small target detection (IRSTD) has recently benefitted greatly from U-shaped neural models. However, largely overlooking effective global information modeling, existing techniques struggle when the target has high similarities with the background. We present a Spatial-channel Cross Transformer Network (SCTransNet) that leverages spatial-channel cross transformer blocks (SCTBs) on top of long-range skip connections to address the aforementioned challenge. In the proposed SCTBs, the outputs of all encoders are interacted with cross transformer to generate mixed features, which are redistributed to all decoders to effectively reinforce semantic differences between the target and clutter at full scales. Specifically, SCTB contains the following two key elements: (a) spatial-embedded single-head channel-cross attention (SSCA) for exchanging local spatial features and full-level global channel information to eliminate ambiguity among the encoders and facilitate high-level semantic associations of the images, and (b) a complementary feed-forward network (CFN) for enhancing the feature discriminability via a multi-scale strategy and cross-spatial-channel information interaction to promote beneficial information transfer. Our SCTransNet effectively encodes the semantic differences between targets and backgrounds to boost its internal representation for detecting small infrared targets accurately. Extensive experiments on three public datasets, NUDT-SIRST, NUAA-SIRST, and IRSTD-1k, demonstrate that the proposed SCTransNet outperforms existing IRSTD methods. Our code will be made public at https://github.com/xdFai. | 翻訳日:2024-01-30 17:24:07 公開日:2024-01-28 |
# 効果的なカリキュラム学習によるロバストな視覚質問応答のためのデータ強化 Improving Data Augmentation for Robust Visual Question Answering with Effective Curriculum Learning ( http://arxiv.org/abs/2401.15646v1 ) ライセンス: Link先を確認 | Yuhang Zheng, Zhen Wang, Long Chen | (参考訳) 偏見のない視覚的質問応答(VQA)モデルを学ぶために広く使用されているデータ拡張(DA)は、元のサンプルを超える追加のトレーニングサンプルを生成することで、言語のバイアスを軽減する。
今日のDAメソッドはロバストなサンプルを生成することができるが、拡張トレーニングセットはオリジナルのデータセットよりもはるかに大きく、しばしば難易度やコンテンツ反復性の点で冗長性を示し、非効率なモデルトレーニングやモデルパフォーマンスの妥協につながる。
そこで我々は,DAに基づくVQA手法を強化するための効果的なカリキュラム学習戦略ECLを設計する。
直感的には、ECLはまず比較的 `easy'' サンプル上で VQA モデルを訓練し、その後徐々に ``harder'' サンプルに変更し、より価値の低いサンプルを動的に除去する。
拡張データセット全体のトレーニングと比較して、当社のecl戦略は、トレーニングサンプルの少ないvqaモデルのパフォーマンスをさらに向上させることができます。
ECLが様々な方法に有効であることを示した。 Being widely used in learning unbiased visual question answering (VQA) models, Data Augmentation (DA) helps mitigate language biases by generating extra training samples beyond the original samples. While today's DA methods can generate robust samples, the augmented training set, significantly larger than the original dataset, often exhibits redundancy in terms of difficulty or content repetition, leading to inefficient model training and even compromising the model performance. To this end, we design an Effective Curriculum Learning strategy ECL to enhance DA-based VQA methods. Intuitively, ECL trains VQA models on relatively ``easy'' samples first, and then gradually changes to ``harder'' samples, and less-valuable samples are dynamically removed. Compared to training on the entire augmented dataset, our ECL strategy can further enhance VQA models' performance with fewer training samples. Extensive ablations have demonstrated the effectiveness of ECL on various methods. | 翻訳日:2024-01-30 17:16:34 公開日:2024-01-28 |
# アンサンブルに基づく重要度サンプリング Ensemble-Based Annealed Importance Sampling ( http://arxiv.org/abs/2401.15645v1 ) ライセンス: Link先を確認 | Haoxuan Chen, Lexing Ying | (参考訳) マルチモーダル分布からのサンプリングは、計算科学と統計学の基本的な問題である。
このタスクのために提案された様々なアプローチの中で、一般的な方法はAnnealed Importance Smpling (AIS)である。
本稿では,人口ベースのモンテカルロ法と組み合わせて,AISのアンサンブルベースのバージョンを提案し,その効率を向上する。
開始分布と目標分布の間の継続経路に沿って単一粒子ではなく、アンサンブルの軌道を維持することにより、アンサンブル内の相互作用を利用して未発見モードの探索を促進する。
具体的には,進化的モンテカルロで用いられるスヌーカーアルゴリズムと遺伝的アルゴリズムのどちらを使うかという考え方である。
提案アルゴリズムがどのように実装され、連続時間と平均場制限の下でアンサンブルの進化を規定する偏微分方程式を導出するかを論じる。
また,様々な連続分布および離散分布に対して提案アルゴリズムの有効性を検証した。 Sampling from a multimodal distribution is a fundamental and challenging problem in computational science and statistics. Among various approaches proposed for this task, one popular method is Annealed Importance Sampling (AIS). In this paper, we propose an ensemble-based version of AIS by combining it with population-based Monte Carlo methods to improve its efficiency. By keeping track of an ensemble instead of a single particle along some continuation path between the starting distribution and the target distribution, we take advantage of the interaction within the ensemble to encourage the exploration of undiscovered modes. Specifically, our main idea is to utilize either the snooker algorithm or the genetic algorithm used in Evolutionary Monte Carlo. We discuss how the proposed algorithm can be implemented and derive a partial differential equation governing the evolution of the ensemble under the continuous time and mean-field limit. We also test the efficiency of the proposed algorithm on various continuous and discrete distributions. | 翻訳日:2024-01-30 17:16:16 公開日:2024-01-28 |
# Pre: ピアレビューに基づく大規模言語モデル評価器 PRE: A Peer Review Based Large Language Model Evaluator ( http://arxiv.org/abs/2401.15641v1 ) ライセンス: Link先を確認 | Zhumin Chu, Qingyao Ai, Yiteng Tu, Haitao Li, Yiqun Liu | (参考訳) 大きな言語モデル(LLM)の印象的なパフォーマンスは、学術的、産業的コミュニティからかなりの注目を集めている。
LLMの構築とトレーニングの方法に加えて、LLMのキャパシティを効果的に評価し比較する方法も重要かつ困難な問題として認識されている。
既存のパラダイムは、異なるタスクにおけるLLMの性能を評価するために、人間のアノテータまたはモデルに基づく評価器のいずれかに依存している。
しかし、これらのパラダイムは、しばしば高コスト、低一般化可能性、継承バイアスに悩まされ、長期にわたってLLMの持続可能な開発を支援することができない。
学術出版プロセスで広く使われているピアレビューシステムに触発されたこれらの問題に対処するために,ピアレビュープロセスを通じてLPMを自動的に評価できる新しいフレームワークを提案する。
具体的には、特定のタスクを評価するために、まず、いくつかの強力なLCMから「レビュアー」を選択するための小さな資格試験を構築します。
次に、異なる候補のLSMによって書かれた「提出」を実際に評価するために、評価は、レビュアーのLSMを用いて、提出を評価または比較する。
評価LDMの最終ランキングは、すべてのレビュアーが提示した結果に基づいて生成される。
我々は GPT-4 を含む 11 個の LLM を用いてテキスト要約タスクの広範な実験を行った。
その結果,単一のllmを用いてバイアスを評価できることがわかった。
また、P Preモデルでは、全てのベースラインを上回り、ピアレビューメカニズムの有効性を示す。 The impressive performance of large language models (LLMs) has attracted considerable attention from the academic and industrial communities. Besides how to construct and train LLMs, how to effectively evaluate and compare the capacity of LLMs has also been well recognized as an important yet difficult problem. Existing paradigms rely on either human annotators or model-based evaluators to evaluate the performance of LLMs on different tasks. However, these paradigms often suffer from high cost, low generalizability, and inherited biases in practice, which make them incapable of supporting the sustainable development of LLMs in long term. In order to address these issues, inspired by the peer review systems widely used in academic publication process, we propose a novel framework that can automatically evaluate LLMs through a peer-review process. Specifically, for the evaluation of a specific task, we first construct a small qualification exam to select "reviewers" from a couple of powerful LLMs. Then, to actually evaluate the "submissions" written by different candidate LLMs, i.e., the evaluatees, we use the reviewer LLMs to rate or compare the submissions. The final ranking of evaluatee LLMs is generated based on the results provided by all reviewers. We conducted extensive experiments on text summarization tasks with eleven LLMs including GPT-4. The results demonstrate the existence of biasness when evaluating using a single LLM. Also, our PRE model outperforms all the baselines, illustrating the effectiveness of the peer review mechanism. | 翻訳日:2024-01-30 17:16:02 公開日:2024-01-28 |
# Cyto R-CNN と CytoNuke データセット: 明視野組織像における信頼性の高い全細胞分画を目指して Cyto R-CNN and CytoNuke Dataset: Towards reliable whole-cell segmentation in bright-field histological images ( http://arxiv.org/abs/2401.15638v1 ) ライセンス: Link先を確認 | Johannes Raufeisen, Kunpeng Xie, Fabian H\"orst, Till Braunschweig, Jianning Li, Jens Kleesiek, Rainer R\"ohrig, Jan Egger, Bastian Leibe, Frank H\"olzle, Alexander Hermans and Behrus Puladi | (参考訳) 背景: 医用画像解析において, 明視野組織スライドにおける細胞分画は重要な課題である。
正確なセグメンテーションにアクセスすることで、細胞形態と臨床観察との関係を調べることができる。
残念なことに、今日知られているほとんどのセグメンテーション法は核に限られており、細胞質をセグメンテーションすることができない。
材料と方法:我々は、明るい視野の画像で(核と細胞質の両方を含む)全細胞を正確に分割できる新しいネットワークアーキテクチャであるcyto r-cnnを提案する。
また,頭頸部扁平上皮癌細胞に対する数千の手動アノテーションからなる新しいデータセットCytoNukeも提示した。
このデータセットを用いて,cyto r-cnnの性能をqupathの組み込みアルゴリズム,stardist,cellposeなど,他の一般的なセルセグメンテーションアルゴリズムと比較した。
セグメンテーション性能を評価するため,AP50,AP75を算出し,全検出細胞に対する17形態および染色関連特性を測定した。
我々はこれらの測定をKolmogorov-Smirnovテストを用いて手動セグメンテーションのゴールド標準と比較した。
結果: cyto r-cnn は ap50 58.65\% と ap75 を全セルセグメンテーションで 11.56\% で達成し、他の方法よりも優れていた(qupath $19.46/0.91\%$; stardist $45.33/2.32\%$; cellpose $31.85/5.61\%$)。
Cyto R-CNNから派生したセル特徴は、金の標準値(\bar{D} = 0.15$)がQuPath$\bar{D} = 0.22$)、StarDist$\bar{D} = 0.25$)、Cellpose$\bar{D} = 0.23$)を上回っていることを示している。
結論:新たに提案したCyto R-CNNアーキテクチャは,どのモデルよりも信頼性の高いセル計測を提供しながら,全セルセグメンテーションにおいて現在のアルゴリズムより優れている。
これはデジタル病理ワークフローを改善し、診断を改善する可能性がある。
さらに,我々のデータセットは将来,さらなるモデル開発に利用することができる。 Background: Cell segmentation in bright-field histological slides is a crucial topic in medical image analysis. Having access to accurate segmentation allows researchers to examine the relationship between cellular morphology and clinical observations. Unfortunately, most segmentation methods known today are limited to nuclei and cannot segmentate the cytoplasm. Material & Methods: We present a new network architecture Cyto R-CNN that is able to accurately segment whole cells (with both the nucleus and the cytoplasm) in bright-field images. We also present a new dataset CytoNuke, consisting of multiple thousand manual annotations of head and neck squamous cell carcinoma cells. Utilizing this dataset, we compared the performance of Cyto R-CNN to other popular cell segmentation algorithms, including QuPath's built-in algorithm, StarDist and Cellpose. To evaluate segmentation performance, we calculated AP50, AP75 and measured 17 morphological and staining-related features for all detected cells. We compared these measurements to the gold standard of manual segmentation using the Kolmogorov-Smirnov test. Results: Cyto R-CNN achieved an AP50 of 58.65\% and an AP75 of 11.56\% in whole-cell segmentation, outperforming all other methods (QuPath $19.46/0.91\%$; StarDist $45.33/2.32\%$; Cellpose $31.85/5.61\%$). Cell features derived from Cyto R-CNN showed the best agreement to the gold standard ($\bar{D} = 0.15$) outperforming QuPath ($\bar{D} = 0.22$), StarDist ($\bar{D} = 0.25$) and Cellpose ($\bar{D} = 0.23$). Conclusion: Our newly proposed Cyto R-CNN architecture outperforms current algorithms in whole-cell segmentation while providing more reliable cell measurements than any other model. This could improve digital pathology workflows, potentially leading to improved diagnosis. Moreover, our published dataset can be used to develop further models in the future. | 翻訳日:2024-01-30 17:15:40 公開日:2024-01-28 |
# FreeStyle:拡散モデルを用いたテキストガイド型転送のためのフリーランチ FreeStyle: Free Lunch for Text-guided Style Transfer using Diffusion Models ( http://arxiv.org/abs/2401.15636v1 ) ライセンス: Link先を確認 | Feihong He and Gang Li and Mengyuan Zhang and Leilei Yan and Lingyu Si and Fanzhang Li | (参考訳) 生成拡散モデルの急速な発展は、スタイル転移の分野を著しく前進させた。
しかしながら、拡散モデルに基づく現在のスタイル転送手法の多くは、例えば、モデルファインチューニングやスタイル概念のテキスト反転といった、遅い反復最適化プロセスを含むことが多い。
本稿では,事前学習した大規模拡散モデル上に構築された革新的なスタイル伝達手法であるFreeStyleを紹介する。
また,本手法では,所望のスタイルのテキスト記述のみでスタイル転送が可能であり,スタイル画像の必要がなくなる。
具体的には、拡散モデルにおける従来のu-netを置き換えるデュアルストリームエンコーダとシングルストリームデコーダアーキテクチャを提案する。
デュアルストリームエンコーダでは、コンテンツイメージとスタイルテキストプロンプトを入力として、コンテンツとスタイルの疎結合を実現する。
復号器では、与えられたコンテンツ画像と対応するスタイルテキストプロンプトに基づいて、2重ストリームの特徴を調整し、正確なスタイル転送を行う。
提案手法は,様々なコンテンツ画像とスタイルテキストプロンプトに対して高品質な合成と忠実性を示す。
コードやその他の結果は、プロジェクトのWebサイト(https://freestylefreelunch.github.io/)で公開されている。 The rapid development of generative diffusion models has significantly advanced the field of style transfer. However, most current style transfer methods based on diffusion models typically involve a slow iterative optimization process, e.g., model fine-tuning and textual inversion of style concept. In this paper, we introduce FreeStyle, an innovative style transfer method built upon a pre-trained large diffusion model, requiring no further optimization. Besides, our method enables style transfer only through a text description of the desired style, eliminating the necessity of style images. Specifically, we propose a dual-stream encoder and single-stream decoder architecture, replacing the conventional U-Net in diffusion models. In the dual-stream encoder, two distinct branches take the content image and style text prompt as inputs, achieving content and style decoupling. In the decoder, we further modulate features from the dual streams based on a given content image and the corresponding style text prompt for precise style transfer. Our experimental results demonstrate high-quality synthesis and fidelity of our method across various content images and style text prompts. The code and more results are available at our project website:https://freestylefreelunch.github.io/. | 翻訳日:2024-01-30 17:14:52 公開日:2024-01-28 |
# RecDCL:レコメンデーションのためのデュアルコントラスト学習 RecDCL: Dual Contrastive Learning for Recommendation ( http://arxiv.org/abs/2401.15635v1 ) ライセンス: Link先を確認 | Dan Zhang and Yangliao Geng and Wenwen Gong and Zhongang Qi and Zhiyu Chen and Xing Tang and Ying Shan and Yuxiao Dong and Jie Tang | (参考訳) 自己監視型推薦(ssr)は,近年,協調フィルタリングのための潜在的相互作用行動のマイニングにおいて,大きな成功を収めている。
CL(Contrastive Learning)をベースとするSSRは,Webプラットフォームにおいて,生データと拡張データの埋め込みを対比することで,データの分散性を克服する。
しかし、既存のCLベースのSSR手法は、主にバッチワイドなコントラストに重点を置いており、機能面での潜在的な正則性を活用できないため、Webサイトからのユーザ(イテム)の表現学習プロセスにおいて、冗長な解決につながる。
さらに,Batch-wise CL (BCL) とFeature-wise CL (FCL) を併用したレコメンデーションのメリットも未検討である。
これらの課題に対処するために,BCLとFCLの目的の関係を検討する。
本研究は, 理論的および実験的観点から, 両手法の併用による協調的利益が示唆された。
これらの知見に基づいて、リコメンデーションのための二重CL法(RecDCL)を提案する。
recdclはまず,ユーザストーリのポジティブペアに対する冗長なソリューションを,機能面で排除する。
次に、FCLの観点から多項式カーネルを使用して、ユーザとアイテム内の均一な分布を最適化する。
最後に、バッチ的な目的の出力ベクトルにコントラスト埋め込みを生成する。
広く使われている4つのベンチマークと産業データセットで実験を行う。
提案したRecDCLは、最先端のGNNとSSLベースのモデル(Recall@20で最大5.65\%の改善)よりも優れており、共同目的の有効性が検証されている。
この論文で使用されるソースコードはすべて、 \url{https://github.com/THUDM/RecDCL}}で公開されている。 Self-supervised recommendation (SSR) has achieved great success in mining the potential interacted behaviors for collaborative filtering in recent years. As a major branch, Contrastive Learning (CL) based SSR conquers data sparsity in Web platforms by contrasting the embedding between raw data and augmented data. However, existing CL-based SSR methods mostly focus on contrasting in a batch-wise way, failing to exploit potential regularity in the feature-wise dimension, leading to redundant solutions during the representation learning process of users (items) from Websites. Furthermore, the joint benefits of utilizing both Batch-wise CL (BCL) and Feature-wise CL (FCL) for recommendations remain underexplored. To address these issues, we investigate the relationship of objectives between BCL and FCL. Our study suggests a cooperative benefit of employing both methods, as evidenced from theoretical and experimental perspectives. Based on these insights, we propose a dual CL method for recommendation, referred to as RecDCL. RecDCL first eliminates redundant solutions on user-item positive pairs in a feature-wise manner. It then optimizes the uniform distributions within users and items using a polynomial kernel from an FCL perspective. Finally, it generates contrastive embedding on output vectors in a batch-wise objective. We conduct experiments on four widely-used benchmarks and an industrial dataset. The results consistently demonstrate that the proposed RecDCL outperforms the state-of-the-art GNNs-based and SSL-based models (with up to a 5.65\% improvement in terms of Recall@20), thereby confirming the effectiveness of the joint-wise objective. All source codes used in this paper are publicly available at \url{https://github.com/THUDM/RecDCL}}. | 翻訳日:2024-01-30 17:14:33 公開日:2024-01-28 |
# ボソニック損失強調チャネル上の量子通信 Quantum communication on the bosonic loss-dephasing channel ( http://arxiv.org/abs/2401.15634v1 ) ライセンス: Link先を確認 | Francesco Anna Mele, Farzin Salek, Vittorio Giovannetti, Ludovico Lami | (参考訳) 量子光学系は通常、光子損失と位相差の2種類のノイズによって影響を受ける。
個々の雑音過程に関する広範な研究にもかかわらず、それらの組み合わせ効果の包括的理解はいまだに不足している。
重要な問題は損失の値を決定することであり、結果として損失の減少するチャネルは分解不能になり、その効果を補正できるコードや、量子通信を可能にするコードがないことを意味する。
量子6, 821 (2022) の予想は、損失が 50\% 以上である場合に限って、ボソニック損失劣化チャネルが反劣化可能であることを示唆している。
本稿では,損失の任意の値に対して,減算が臨界値以上であれば,ボソニック損失減算チャネルは反分解可能であることを特に証明して,この予想を反論する。
我々の結果は、量子通信が不可能な大きなパラメータ領域を識別する一方で、二方向古典通信が利用可能であれば、量子通信 -- 量子鍵分布 -- が常に達成可能であることを証明している。 Quantum optical systems are typically affected by two types of noise: photon loss and dephasing. Despite extensive research on each noise process individually, a comprehensive understanding of their combined effect is still lacking. A crucial problem lies in determining the values of loss and dephasing for which the resulting loss-dephasing channel is anti-degradable, implying the absence of codes capable of correcting its effect or, alternatively, capable of enabling quantum communication. A conjecture in [Quantum 6, 821 (2022)] suggested that the bosonic loss-dephasing channel is anti-degradable if and only if the loss is above $50\%$. In this paper we refute this conjecture, specifically proving that for any value of the loss, if the dephasing is above a critical value, then the bosonic loss-dephasing channel is anti-degradable. While our result identifies a large parameter region where quantum communication is not possible, we also prove that if two-way classical communication is available, then quantum communication -- and thus quantum key distribution -- is always achievable, even for high values of loss and dephasing. | 翻訳日:2024-01-30 17:14:02 公開日:2024-01-28 |
# ガンマ線バーストの深層学習:宇宙望遠鏡におけるX/ガンマ線分析のためのデータ駆動イベントフレームワーク Deep Learning for Gamma-Ray Bursts: A data driven event framework for X/Gamma-Ray analysis in space telescopes ( http://arxiv.org/abs/2401.15632v1 ) ライセンス: Link先を確認 | Riccardo Crupi | (参考訳) この論文は、Gamma Ray-Bursts(GRB)の概観、その特性、検出に使用される機器、GRBの文脈における人工知能(AI)の応用、文学的レビューや今後の展望など、最初の3章で構成されている。
フェルミGBMやHERMESパスファインダー(6つの3Uナノサテライトの軌道上での実証)のような、現在のX線モニターと次世代の高エネルギーモニターの両方を考えると、この研究問題は、かつて検出アルゴリズムが見逃した可能性のある、長く薄い高エネルギーのトランジェント(おそらくはGRB)の検出を中心に展開される。
これに対処するために、2つの章が新しいデータ駆動フレームワークであるdeepgrbを紹介している。
第4章では、x/ガンマ線検出器の背景カウントレート推定のためにニューラルネットワーク(nn)を記述し、太陽極大、太陽極小、超長grbを含むものを含め、異なる期間のパフォーマンス評価を提供する。
eXplainable Artificial Intelligence (XAI) の応用は、NNの振る舞いをよりよく理解するために、グローバルおよびローカルな特徴重要度分析に行われている。
第5章ではFOCuS-Poissonを用いてカウントレートの観測とNNからの推定の異常検出を行っている。
DeepGRBは、Fermi-GBMデータを処理し、カタログ化されたイベントを確認し、新しいイベントを特定する能力を示し、ローカライゼーション、期間、分類の見積によるさらなる分析を提供する。
この章は、結果バイアス識別にxaiを組み込んだ機械学習技術を用いた自動分類手法で締めくくっている。 This thesis comprises the first three chapters dedicated to providing an overview of Gamma Ray-Bursts (GRBs), their properties, the instrumentation used to detect them, and Artificial Intelligence (AI) applications in the context of GRBs, including a literature review and future prospects. Considering both the current and the next generation of high X-ray monitors, such as Fermi-GBM and HERMES Pathfinder (an in-orbit demonstration of six 3U nano-satellites), the research question revolves around the detection of long and faint high-energy transients, potentially GRBs, that might have been missed by previous detection algorithms. To address this, two chapters introduce a new data-driven framework, DeepGRB. In Chapter 4, a Neural Network (NN) is described for background count rate estimation for X/gamma-ray detectors, providing a performance evaluation in different periods, including both solar maxima, solar minima periods, and one containing an ultra-long GRB. The application of eXplainable Artificial Intelligence (XAI) is performed for global and local feature importance analysis to better understand the behavior of the NN. Chapter 5 employs FOCuS-Poisson for anomaly detection in count rate observations and estimation from the NN. DeepGRB demonstrates its capability to process Fermi-GBM data, confirming cataloged events and identifying new ones, providing further analysis with estimates for localization, duration, and classification. The chapter concludes with an automated classification method using Machine Learning techniques that incorporates XAI for eventual bias identification. | 翻訳日:2024-01-30 17:13:42 公開日:2024-01-28 |
# TA&AT: ターンレベル補助タスクとアクショントレーベースのスケジューリングサンプリングによるタスク指向ダイアログの強化 TA&AT: Enhancing Task-Oriented Dialog with Turn-Level Auxiliary Tasks and Action-Tree Based Scheduled Sampling ( http://arxiv.org/abs/2401.15626v1 ) ライセンス: Link先を確認 | Longxiang Liu, Xiuxing Li, Yang Feng | (参考訳) タスク指向対話システムは,対話型事前学習技術によって大きく進歩している。
しかし、2つの大きな課題が続いている。
まず、ほとんどのシステムはジェネレータに最新のターンの状態ラベルを使用する。
このプラクティスは、将来の世代に対するモデルの理解を高めるために、状態ラベルの包括的な価値を見落としている。
第二に、生成されたポリシーへの過度な依存は、しばしばエラーの蓄積を招き、誤ったアクションに固執する際の最適以下の応答をもたらす。
これらの課題に対処するために,エンコーダのターンレベルマルチタスク目標を提案する。
ラベル付き中間状態から必須情報を誘導することにより、理解と生成の両面でより堅牢な表現を確立する。
デコーダには,アクションツリーを用いたスケジュールサンプリング手法を導入する。
具体的には、階層的なポリシーを木としてモデル化し、木間の類似性を利用して、スケジュールされたサンプリングに基づいて負のポリシーをサンプリングする。
この方法は、類似の負のポリシーをサンプリングし、タスク指向の対話訓練と推論のギャップを埋めることで潜在的な落とし穴をシミュレートする。
継続事前学習のない手法の中で,本手法はMultiWOZデータセット上での最先端SOTA(State-of-the-art)性能を実現し,事前学習したSOTA手法と競合した。 Task-oriented dialog systems have witnessed substantial progress due to conversational pre-training techniques. Yet, two significant challenges persist. First, most systems primarily utilize the latest turn's state label for the generator. This practice overlooks the comprehensive value of state labels in boosting the model's understanding for future generations. Second, an overreliance on generated policy often leads to error accumulation, resulting in suboptimal responses when adhering to incorrect actions. To combat these challenges, we propose turn-level multi-task objectives for the encoder. With the guidance of essential information from labeled intermediate states, we establish a more robust representation for both understanding and generation. For the decoder, we introduce an action tree-based scheduled sampling technique. Specifically, we model the hierarchical policy as trees and utilize the similarity between trees to sample negative policy based on scheduled sampling, hoping the model to generate invariant responses under perturbations. This method simulates potential pitfalls by sampling similar negative policy, bridging the gap between task-oriented dialog training and inference. Among methods without continual pre-training, our approach achieved state-of-the-art (SOTA) performance on the MultiWOZ dataset series and was also competitive with pre-trained SOTA methods. | 翻訳日:2024-01-30 17:13:11 公開日:2024-01-28 |
# ジェネレーティブなAI対応ブロックチェーンネットワーク:基礎,応用,ケーススタディ Generative AI-enabled Blockchain Networks: Fundamentals, Applications, and Case Study ( http://arxiv.org/abs/2401.15625v1 ) ライセンス: Link先を確認 | Cong T. Nguyen, Yinqiu Liu, Hongyang Du, Dinh Thai Hoang, Dusit Niyato, Diep N. Nguyen, Shiwen Mao | (参考訳) generative artificial intelligence(gai)は、スケーラビリティ、セキュリティ、プライバシ、相互運用性など、ブロックチェーン技術の重大な課題に対処するための有望なソリューションとして最近登場した。
本稿では、まずGAI技術を紹介し、そのアプリケーションの概要を説明し、GAIをブロックチェーンに統合するための既存のソリューションについて議論する。
次に、未知のブロックチェーン攻撃やスマートコントラクト脆弱性の検出、キーシークレット共有スキームの設計、プライバシの向上など、ブロックチェーンのさまざまな課題に対処する上で、GAIの有効性を示す新たなソリューションについて議論する。
さらに、gai、特に生成拡散モデルがブロックチェーンネットワークのパフォーマンスメトリクスの最適化に利用できることを示すケーススタディを示す。
実験結果は、ベースラインの従来のAIアプローチと比較して、提案された生成拡散モデルアプローチがより早く収束し、より高い報酬を達成でき、ブロックチェーンネットワークのスループットとレイテンシを大幅に改善できることを示している。
さらに、gai対応ブロックチェーンのパーソナライズ、gai-blockchainシナジー、ブロックチェーンエコシステムにおけるプライバシとセキュリティの考慮など、ブロックチェーンアプリケーションにおけるgaiの今後の研究方向についても注目する。 Generative Artificial Intelligence (GAI) has recently emerged as a promising solution to address critical challenges of blockchain technology, including scalability, security, privacy, and interoperability. In this paper, we first introduce GAI techniques, outline their applications, and discuss existing solutions for integrating GAI into blockchains. Then, we discuss emerging solutions that demonstrate the effectiveness of GAI in addressing various challenges of blockchain, such as detecting unknown blockchain attacks and smart contract vulnerabilities, designing key secret sharing schemes, and enhancing privacy. Moreover, we present a case study to demonstrate that GAI, specifically the generative diffusion model, can be employed to optimize blockchain network performance metrics. Experimental results clearly show that, compared to a baseline traditional AI approach, the proposed generative diffusion model approach can converge faster, achieve higher rewards, and significantly improve the throughput and latency of the blockchain network. Additionally, we highlight future research directions for GAI in blockchain applications, including personalized GAI-enabled blockchains, GAI-blockchain synergy, and privacy and security considerations within blockchain ecosystems. | 翻訳日:2024-01-30 17:12:50 公開日:2024-01-28 |
# GT-PCA:一般変換不変主成分分析による有効かつ解釈可能な次元化 GT-PCA: Effective and Interpretable Dimensionality Reduction with General Transform-Invariant Principal Component Analysis ( http://arxiv.org/abs/2401.15623v1 ) ライセンス: Link先を確認 | Florian Heinrichs | (参考訳) データ分析は、画像の場合の回転や、画像や時系列の場合のシフトなど、特定の変換に関して不変な手法を必要とすることが多い。
主成分分析(PCA)は広く使われている次元低減手法であるが,これらの変換に対する堅牢性は欠如している。
オートエンコーダのような現代の代替品は、特定の変換に関して不変であるが、一般に解釈できない。
汎用変換不変主成分分析 (GT-PCA) をPCAとオートエンコーダの効果的な代替として導入する。
本稿では,GT-PCAが合成および実データに基づく実験において,効率よく成分を推定するニューラルネットワークを提案する。 Data analysis often requires methods that are invariant with respect to specific transformations, such as rotations in case of images or shifts in case of images and time series. While principal component analysis (PCA) is a widely-used dimension reduction technique, it lacks robustness with respect to these transformations. Modern alternatives, such as autoencoders, can be invariant with respect to specific transformations but are generally not interpretable. We introduce General Transform-Invariant Principal Component Analysis (GT-PCA) as an effective and interpretable alternative to PCA and autoencoders. We propose a neural network that efficiently estimates the components and show that GT-PCA significantly outperforms alternative methods in experiments based on synthetic and real data. | 翻訳日:2024-01-30 17:12:28 公開日:2024-01-28 |
# 散逸進化はいつ気象情報を保存し増幅するか? When does dissipative evolution preserve and amplify metrological information? ( http://arxiv.org/abs/2401.15622v1 ) ライセンス: Link先を確認 | Jing Yang | (参考訳) 特別に選択された非エルミートセンシングを含むポストセレクション計測エンコーディングを用いて量子メトロロジーを研究する。
弱値増幅の場合と同様に、選択後の確率に対する平均メトロロジー精度は、選択後のフリーユニタリエンコーディングと比較して上昇しない。
それにもかかわらず、平均精度を損なうことなく、重要な増幅効果が達成できる条件を特定する。
これらの条件は、損失のない情報トランスデューサとして量子計測を設計するのに役立ちます。
これらの条件がポスト選択された非エルミートセンシングで破られた場合、平均精度の損失の普遍的な公式を得る。
したがって,本研究は非エルミートセンシングの長所と短所を明らかにするための統一的メトロロジー的枠組みを提供する。 We study quantum metrology with post-selection measurement encoding, which includes post-selected non-Hermitian sensing as a special case. As in the weak value amplification, the average metrological precision over the post-selection probability does not increase compared to the post-selection free unitary encoding. Nevertheless, we identify the conditions under which significant amplification effects can be achieved without the loss of the average precision. These conditions can help design quantum measurements as a lossless information transducer. When these conditions are violated in post-selected non-Hermitian sensing, we obtain a universal formula for the loss of the average precision. Hence our findings offer a unified metrological framework to clarify the pros and cons of non-Hermitian sensing. | 翻訳日:2024-01-30 17:12:16 公開日:2024-01-28 |
# SNAP:次の活動予測のためのセマンティックストーリー SNAP: Semantic Stories for Next Activity Prediction ( http://arxiv.org/abs/2401.15621v1 ) ライセンス: Link先を確認 | Alon Oved, Segev Shlomov, Sergey Zeltyn, Nir Mashkif and Avi Yaeli | (参考訳) 進行中のプロセスで次のアクティビティを予測することは、bpm(business process management)ドメインで最も一般的な分類タスクの1つです。
企業はリソース割り当ての最適化、運用効率の向上、リスク軽減と戦略的意思決定を支援することができる。
これは、BPMとAIの急速に進化する合流点において、競争力のあるエッジを提供します。
既存の最先端AIモデルによるビジネスプロセス予測は、プロセスイベントログ内で利用可能なセマンティック情報を完全に活用するものではない。
現在の高度なAI-BPMシステムは意味的にリッチなテキストデータを提供するため、新しい適切なモデルの必要性が高まっている。
このギャップに対処するために,プロセス履歴イベントログから意味的文脈的ストーリを構築し,それを次のアクティビティ予測に用いることで,言語基盤モデルを活用したSNAP手法を提案する。
我々は,SNAPアルゴリズムを6つのベンチマークデータセット上で9つの最先端モデルと比較し,SNAPが有意な性能を示した。 Predicting the next activity in an ongoing process is one of the most common classification tasks in the business process management (BPM) domain. It allows businesses to optimize resource allocation, enhance operational efficiency, and aids in risk mitigation and strategic decision-making. This provides a competitive edge in the rapidly evolving confluence of BPM and AI. Existing state-of-the-art AI models for business process prediction do not fully capitalize on available semantic information within process event logs. As current advanced AI-BPM systems provide semantically-richer textual data, the need for novel adequate models grows. To address this gap, we propose the novel SNAP method that leverages language foundation models by constructing semantic contextual stories from the process historical event logs and using them for the next activity prediction. We compared the SNAP algorithm with nine state-of-the-art models on six benchmark datasets and show that SNAP significantly outperforms them, especially for datasets with high levels of semantic content. | 翻訳日:2024-01-30 17:12:05 公開日:2024-01-28 |
# 不完全なdvl測定に対処するためのデータ駆動戦略 Data-Driven Strategies for Coping with Incomplete DVL Measurements ( http://arxiv.org/abs/2401.15620v1 ) ライセンス: Link先を確認 | Nadav Cohen and Itzik Klein | (参考訳) 自律型水中車両は深海作戦のために設計された特殊プラットフォームである。
彼らの機能にとって重要なのは自律ナビゲーションであり、慣性ナビゲーションシステムとドップラー速度ログに依存している。
現実のシナリオでは、不完全なドップラー速度測定が行われ、位置決めエラーやミッション中止が発生する。
このような状況に対処するため、モデルと学習アプローチが導出された。
本稿では、モデルに基づく平均推定器とともに、2つの最先端ディープラーニング手法、すなわちLiBeamsNetとMissBeamNetの比較分析を行う。
これらのアプローチは、2本のビームが使用できないときにドップラー速度ログビームを後退させる効果を評価できる。
本研究では,地中海で運用される自律型水中機に搭載されたdvlのデータを用いた。
いずれのディープラーニングアーキテクチャも,モデルベースアプローチよりも速度予測精度が16%以上向上していることが分かりました。 Autonomous underwater vehicles are specialized platforms engineered for deep underwater operations. Critical to their functionality is autonomous navigation, typically relying on an inertial navigation system and a Doppler velocity log. In real-world scenarios, incomplete Doppler velocity log measurements occur, resulting in positioning errors and mission aborts. To cope with such situations, a model and learning approaches were derived. This paper presents a comparative analysis of two cutting-edge deep learning methodologies, namely LiBeamsNet and MissBeamNet, alongside a model-based average estimator. These approaches are evaluated for their efficacy in regressing missing Doppler velocity log beams when two beams are unavailable. In our study, we used data recorded by a DVL mounted on an autonomous underwater vehicle operated in the Mediterranean Sea. We found that both deep learning architectures outperformed model-based approaches by over 16% in velocity prediction accuracy. | 翻訳日:2024-01-30 17:11:49 公開日:2024-01-28 |
# 拡散に基づくグラフ生成法 Diffusion-based graph generative methods ( http://arxiv.org/abs/2401.15617v1 ) ライセンス: Link先を確認 | Hongyang Chen, Can Xu, Lingyu Zheng, Qiang Zhang, Xuemin Lin | (参考訳) 最も最先端の生成法であるため、拡散法は幅広い世代のタスクにおいて大きな進歩を遂げている。
その中でもグラフ生成は、実生活における幅広い応用において重要な研究の注目を集めている。
本研究では,拡散に基づくグラフ生成手法を体系的かつ包括的に検討する。
まず,拡散確率モデル,スコアベース生成モデル,確率微分方程式の3つの主流パラダイムについて考察する。
次に、グラフ上の拡散モデルの最新の応用を分類し紹介する。
最後に,現在の研究の限界と今後の探査の方向性を指摘する。
この調査で得られた既存のメソッドの要約はhttps://github.com/zhejiangzhuque/Diffusion-based-Graph-Generative-Methodsにある。 Being the most cutting-edge generative methods, diffusion methods have shown great advances in wide generation tasks. Among them, graph generation attracts significant research attention for its broad application in real life. In our survey, we systematically and comprehensively review on diffusion-based graph generative methods. We first make a review on three mainstream paradigms of diffusion methods, which are denoising diffusion probabilistic models, score-based genrative models, and stochastic differential equations. Then we further categorize and introduce the latest applications of diffusion models on graphs. In the end, we point out some limitations of current studies and future directions of future explorations. The summary of existing methods metioned in this survey is in https://github.com/zhejiangzhuque/Diffusion-based-Graph-Generative-Methods. | 翻訳日:2024-01-30 17:11:36 公開日:2024-01-28 |
# キャンベル・ベーカー=ハウスドルフ=ディンキンの定理の形式に代わるリー群の算術の進歩 An advance in the arithmetic of the Lie groups as an alternative to the forms of the Campbell-Baker-Hausdorff-Dynkin theorem ( http://arxiv.org/abs/2401.15732v1 ) ライセンス: Link先を確認 | Sunghyun Kim, Zhichen Liu, and Richard A. Klemm | (参考訳) 作用素や行列の指数は量子論において広く用いられるが、評価するのは難しいこともある。
非可換作用素 ${\bf X}$ および ${\bf Y}$ に対して、キャンベル=ベーカー=ハウスドルフ=ディンキンの定理によれば、${\rm e}^{{\bf X}+{\bf Y}}$ は ${\rm e}^{\bf X}{\rm e}^{\bf Y}$ と等価ではないが、よく知られた無限級数公式によって与えられる。
3つの作用素の基底を持つリー代数に対して、$[{\bf X}, {\bf Y}] = \kappa{\bf Z}$ for scalar $\kappa$ and cyclic permutations ここで、${\rm e}^{a{\bf X}+b{\bf Y}}$が${\rm e}^{p{\bf Z}}{\rm e}^{q{\bf X}}{\rm e}^{q{\bf X}}{\rm e}^{q{\bf Z}}$ for scalar $p$および$q$と等しいことが証明されている。
また、${\rm e}^{a{\bf x}+b{\bf y}+c{\bf z}}$の拡張も提供される。
この方法は、原子核と分子核と電子スピンの定数および振動する横磁場および電場におけるダイナミクスに有用である。 The exponential of an operator or matrix is widely used in quantum theory, but it sometimes can be a challenge to evaluate. For non-commutative operators ${\bf X}$ and ${\bf Y}$, according to the Campbell-Baker-Hausdorff-Dynkin theorem, ${\rm e}^{{\bf X}+{\bf Y}}$ is not equivalent to ${\rm e}^{\bf X}{\rm e}^{\bf Y}$, but is instead given by the well-known infinite series formula. For a Lie algebra of a basis of three operators $\{{\bf X,Y,Z}\}$, such that $[{\bf X}, {\bf Y}] = \kappa{\bf Z}$ for scalar $\kappa$ and cyclic permutations, here it is proven that ${\rm e}^{a{\bf X}+b{\bf Y}}$ is equivalent to ${\rm e}^{p{\bf Z}}{\rm e}^{q{\bf X}}{\rm e}^{-p{\bf Z}}$ for scalar $p$ and $q$. Extensions for ${\rm e}^{a{\bf X}+b{\bf Y}+c{\bf Z}}$ are also provided. This method is useful for the dynamics of atomic and molecular nuclear and electronic spins in constant and oscillatory transverse magnetic and electric fields. | 翻訳日:2024-01-30 17:07:34 公開日:2024-01-28 |
# ディバイドとコンカー: 合成テキスト・画像生成のための言語モデルの構築と自己補正 Divide and Conquer: Language Models can Plan and Self-Correct for Compositional Text-to-Image Generation ( http://arxiv.org/abs/2401.15688v1 ) ライセンス: Link先を確認 | Zhenyu Wang, Enze Xie, Aoxue Li, Zhongdao Wang, Xihui Liu, Zhenguo Li | (参考訳) 高品質な画像を生成するためのテキストから画像へのモデルの大幅な進歩にもかかわらず、これらの方法は、複雑なテキストプロンプトの文脈において、特にオブジェクト属性とリレーションシップを保持する場合において、画像よりもテキストプロンプトの制御可能性を保証するのに苦労している。
本稿では,大規模言語モデル (llm) エージェントをコアとする合成テキスト対画像生成のためのトレーニングフリー手法であるcompagentを提案する。
CompAgentの根底にある基本的な考え方は、分割・分散の方法論に基づいている。
オブジェクト、属性、および関係を含む複数の概念を含む複雑なテキストプロンプトが与えられると、llmエージェントは最初それを分解し、個々のオブジェクトの抽出、それらの関連属性、そしてコヒーレントなシーンレイアウトの予測を伴います。
これらの個々の物体は独立して征服される。
その後、エージェントはテキスト、計画を分析して推論を行い、これらの孤立したオブジェクトを構成するツールを使用する。
評価と人的フィードバックのメカニズムを最終的にエージェントに組み込んで、潜在的な属性エラーを補正し、生成した画像を精査する。
llmエージェントの指導により、概念合成のためのツールとして、チューニングフリーなマルチコンセプタカスタマイズモデルとレイアウト・ツー・イメージ生成モデル、検証のためにエージェントと対話するツールとしてローカル画像編集方法を提案する。
シーンレイアウトは、これらのツール間の画像生成プロセスを制御し、複数のオブジェクト間の混乱を防止する。
CompAgentは、オープンワールドコンポジションT2I生成の総合ベンチマークであるT2I-CompBenchに対して、10%以上の改善を実現しています。
関連タスクの拡張は、潜在的なアプリケーションに対するコンパレータの柔軟性も示しています。 Despite significant advancements in text-to-image models for generating high-quality images, these methods still struggle to ensure the controllability of text prompts over images in the context of complex text prompts, especially when it comes to retaining object attributes and relationships. In this paper, we propose CompAgent, a training-free approach for compositional text-to-image generation, with a large language model (LLM) agent as its core. The fundamental idea underlying CompAgent is premised on a divide-and-conquer methodology. Given a complex text prompt containing multiple concepts including objects, attributes, and relationships, the LLM agent initially decomposes it, which entails the extraction of individual objects, their associated attributes, and the prediction of a coherent scene layout. These individual objects can then be independently conquered. Subsequently, the agent performs reasoning by analyzing the text, plans and employs the tools to compose these isolated objects. The verification and human feedback mechanism is finally incorporated into our agent to further correct the potential attribute errors and refine the generated images. Guided by the LLM agent, we propose a tuning-free multi-concept customization model and a layout-to-image generation model as the tools for concept composition, and a local image editing method as the tool to interact with the agent for verification. The scene layout controls the image generation process among these tools to prevent confusion among multiple objects. Extensive experiments demonstrate the superiority of our approach for compositional text-to-image generation: CompAgent achieves more than 10\% improvement on T2I-CompBench, a comprehensive benchmark for open-world compositional T2I generation. The extension to various related tasks also illustrates the flexibility of our CompAgent for potential applications. | 翻訳日:2024-01-30 17:06:56 公開日:2024-01-28 |
# media2face:マルチモダリティガイダンスによる顔アニメーション生成 Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance ( http://arxiv.org/abs/2401.15687v1 ) ライセンス: Link先を確認 | Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu | (参考訳) 音声からの3次元顔アニメーションの合成は注目されている。
高品質な4D顔データや豊富なマルチモダリティラベルが不足しているため、従来の手法は制限されたリアリズムとレキシブルコンディショニングの欠如に悩まされることが多い。
私たちはこの課題を三部作で解決する。
我々はまず,顔形状と画像の効率的な変分自動エンコーダである一般化ニューラルパラメトリック・ファシアル・アセット(GNPFA)を,高度に一般化された表現潜在空間にマッピングし,表現とアイデンティティを分離する。
そして、GNPFAを用いて、多数のビデオから高品質な表現と正確な頭部ポーズを抽出する。
M2F-Dデータセットは、大きく、多様性があり、スキャンレベルの3D顔アニメーションデータセットである。
最後に,音声,テキスト,画像からリッチなマルチモダリティ指導を受けながら,協調顔アニメーション生成のためのgnpfa潜在空間における拡散モデルであるmedia2faceを提案する。
広範な実験により, 顔アニメーション合成において高い忠実性を実現するだけでなく, 3次元顔アニメーションにおける表現性, スタイル適応性の範囲を広げることができた。 The synthesis of 3D facial animations from speech has garnered considerable attention. Due to the scarcity of high-quality 4D facial data and well-annotated abundant multi-modality labels, previous methods often suffer from limited realism and a lack of lexible conditioning. We address this challenge through a trilogy. We first introduce Generalized Neural Parametric Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial geometry and images to a highly generalized expression latent space, decoupling expressions and identities. Then, we utilize GNPFA to extract high-quality expressions and accurate head poses from a large array of videos. This presents the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial animation dataset with well-annotated emotional and style labels. Finally, we propose Media2Face, a diffusion model in GNPFA latent space for co-speech facial animation generation, accepting rich multi-modality guidances from audio, text, and image. Extensive experiments demonstrate that our model not only achieves high fidelity in facial animation synthesis but also broadens the scope of expressiveness and style adaptability in 3D facial animation. | 翻訳日:2024-01-30 17:06:22 公開日:2024-01-28 |
# 自閉症とADHDの評価 : 描画速度プロファイルとNEPSYテストの比較分析 Assessment of Autism and ADHD: A Comparative Analysis of Drawing Velocity Profiles and the NEPSY Test ( http://arxiv.org/abs/2401.15685v1 ) ライセンス: Link先を確認 | S. Fortea-Sevilla, A. Garcia-Sosa., P. Morales-Almeida, C. Carmona-Duarte | (参考訳) 学生の自閉症スペクトラム障害と注意欠陥/多動性障害の増加は、評価と診断技術の改善の必要性と、これらの障害にかかわる悪影響を軽減する効果的なツールの必要性を浮き彫りにしている。
タッチスクリーンモバイルデバイスの普及により、視覚的手がかりを超えて包括的なデータを収集する機会がある。
これらのデバイスは、速度プロファイルに関する情報の収集と可視化と、描画と手書き作業の完了に要する時間短縮を可能にする。
これらのデータは、臨床で区別が難しいasdとadhdの困難な症例を区別するのに役立つ速度プロファイルに基づいた新しい神経心理学検査の開発に利用できる。
本稿では, NEPSY-II評価における標準化タスクから得られた結果と, デジタルタブレットを用いて収集した速度分布の視覚的解析に基づく観測尺度を比較し, 組み合わせた概念実証を行う。 The increasing prevalence of Autism Spectrum Disorder and Attention-Deficit/ Hyperactivity Disorder among students highlights the need to improve evaluation and diagnostic techniques, as well as effective tools to mitigate the negative consequences associated with these disorders. With the widespread use of touchscreen mobile devices, there is an opportunity to gather comprehensive data beyond visual cues. These devices enable the collection and visualization of information on velocity profiles and the time taken to complete drawing and handwriting tasks. These data can be leveraged to develop new neuropsychological tests based on the velocity profile that assists in distinguishing between challenging cases of ASD and ADHD that are difficult to differentiate in clinical practice. In this paper, we present a proof of concept that compares and combines the results obtained from standardized tasks in the NEPSY-II assessment with a proposed observational scale based on the visual analysis of the velocity profile collected using digital tablets. | 翻訳日:2024-01-30 17:05:59 公開日:2024-01-28 |
# ディープラーニングを用いたリアルタイム顔マスク検出:Covid 19の防止 Detection of a facemask in real-time using deep learning methods: Prevention of Covid 19 ( http://arxiv.org/abs/2401.15675v1 ) ライセンス: Link先を確認 | Gautam Siddharth Kashyap, Jatin Sohlot, Ayesha Siddiqui, Ramsha Siddiqui, Karan Malik, Samar Wazir, and Alexander E. I. Brownlee | (参考訳) 新型コロナウイルス(covid-19)の感染が急速に拡大し、世界中で健康危機が拡大している。
世界保健機関(who)が発したcovid-19対策ガイドラインの中で、マスク着用が最も効果的だ。
多くの国ではマスクの着用を義務化しているが、混雑した場所でマスクを着用していることを保証するため、多くの人々の監視は難しい課題である。
新型コロナウイルス(covid-19)は、我々の日々の生活や世界貿易運動にすでに影響を与えています。
世界保健機関(who)によると、2021年4月末までに、世界は144,358,956人の新規コロナウイルス感染症(covid-19)が確認された。
これらの増加は、Covid-19の予防のためのリアルタイムシナリオにおいて、フェイスマスクの検出のための自動テクニックを動機付けている。
本研究では,Webカメラで静止あるいは動作中に記録されたフレーム内の1人,複数人を対象として,ディープラーニングを用いた手法を提案する。
私たちはまた、夜間光でアプローチを実験しました。
このモデルの正確性は文献の他の手法と比較すると良好であり、夜間の複数人の74%から昼間の1人の99%まで様々である。 A health crisis is raging all over the world with the rapid transmission of the novel-coronavirus disease (Covid-19). Out of the guidelines issued by the World Health Organisation (WHO) to protect us against Covid-19, wearing a facemask is the most effective. Many countries have necessitated the wearing of face masks, but monitoring a large number of people to ensure that they are wearing masks in a crowded place is a challenging task in itself. The novel-coronavirus disease (Covid-19) has already affected our day-to-day life as well as world trade movements. By the end of April 2021, the world has recorded 144,358,956 confirmed cases of novel-coronavirus disease (Covid-19) including 3,066,113 deaths according to the world health organization (WHO). These increasing numbers motivate automated techniques for the detection of a facemask in real-time scenarios for the prevention of Covid-19. We propose a technique using deep learning that works for single and multiple people in a frame recorded via webcam in still or in motion. We have also experimented with our approach in night light. The accuracy of our model is good compared to the other approaches in the literature; ranging from 74% for multiple people in a nightlight to 99% for a single person in daylight. | 翻訳日:2024-01-30 17:05:42 公開日:2024-01-28 |
# 音声特徴を用いたパーキンソン病予測のためのエコー状態ネットワークの評価 Evaluating Echo State Network for Parkinson's Disease Prediction using Voice Features ( http://arxiv.org/abs/2401.15672v1 ) ライセンス: Link先を確認 | Seyedeh Zahra Seyedi Hosseininian, Ahmadreza Tajari, Mohsen Ghalehnoie, Alireza Alfi | (参考訳) パーキンソン病(パーキンソンしょう、英: Parkinson's disease、PD)は、神経疾患である。
本研究の目的は, 臨床における重要な要因である精度と偽陰性の最小化を両立できる診断モデルの開発である。
限られたトレーニングデータから、ANOVAを利用した特徴選択戦略を用いて、最も情報性の高い特徴を識別する。
その後、Echo State Networks (ESN)、Random Forest、k-nearest Neighbors、Support Vector Classifier、Extreme Gradient Boosting、Decision Treeなどの機械学習手法が採用され、徹底的に評価されている。
結果の統計的分析では、ESNの異常な性能が強調され、優れた精度だけでなく、すべての手法の中で最も低い偽陰性率を示す。
同時に統計データは、ESN法は83%の症例において8%未満の偽陰性率を維持していることを示している。
ESNの診断精度と誤分類の最小化の微妙なバランスをとる能力は、特に限られたデータによって特徴づけられるシナリオにおいて、PD診断の模範的な選択として位置づけられている。
この研究は、より効率的で信頼性の高いpd診断への大きな一歩であり、患者の成果と医療のダイナミクスが向上する可能性を示唆している。 Parkinson's disease (PD) is a debilitating neurological disorder that necessitates precise and early diagnosis for effective patient care. This study aims to develop a diagnostic model capable of achieving both high accuracy and minimizing false negatives, a critical factor in clinical practice. Given the limited training data, a feature selection strategy utilizing ANOVA is employed to identify the most informative features. Subsequently, various machine learning methods, including Echo State Networks (ESN), Random Forest, k-nearest Neighbors, Support Vector Classifier, Extreme Gradient Boosting, and Decision Tree, are employed and thoroughly evaluated. The statistical analyses of the results highlight ESN's exceptional performance, showcasing not only superior accuracy but also the lowest false negative rate among all methods. Consistently, statistical data indicates that the ESN method consistently maintains a false negative rate of less than 8% in 83% of cases. ESN's capacity to strike a delicate balance between diagnostic precision and minimizing misclassifications positions it as an exemplary choice for PD diagnosis, especially in scenarios characterized by limited data. This research marks a significant step towards more efficient and reliable PD diagnosis, with potential implications for enhanced patient outcomes and healthcare dynamics. | 翻訳日:2024-01-30 17:05:23 公開日:2024-01-28 |
# ヨーダ:教師による言語モデルのためのプログレッシブラーニング YODA: Teacher-Student Progressive Learning for Language Models ( http://arxiv.org/abs/2401.15670v1 ) ライセンス: Link先を確認 | Jianqiao Lu, Wanjun Zhong, Yufei Wang, Zhijiang Guo, Qi Zhu, Wenyong Huang, Yanlin Wang, Fei Mi, Baojun Wang, Yasheng Wang, Lifeng Shang, Xin Jiang, Qun Liu | (参考訳) 大規模言語モデル(llm)は様々なタスクに適性を示しているが、それでも人間の学習効率に遅れをとっている。
この格差はしばしば、基本的な例から学習し、より複雑な問題を徐々に一般化し、対処し、継続的なフィードバックでスキルを磨き上げる、固有の人間の能力と結びついています。
そこで本研究では,モデルファインチューニングの有効性を高めるために,教師の指導過程をエミュレートする,教師の指導力に富む新しい学習フレームワークであるYodaを紹介する。
このフレームワークはインタラクティブな \textit{basic- Generalized-harder} ループで動作する。
教師エージェントは、生徒の回答に合わせたフィードバックを提供し、教育プロセスを体系的に整理する。
このプロセスは、学生の基本的な例を教え、一般化した質問を通じて理解を強化し、徐々に複雑にされた質問をすることで学習を強化することで展開する。
教師の指導により、学生はフィードバックで回答を反復的に洗練することを学び、提案された質問に対する堅牢で包括的な理解を形成する。
次に、人間の進歩的学習過程を反映した体系的手続きデータを用いてモデルトレーニングを行う。
数学の推論をテストベッドとして用いた実験では、YODAのデータでLLaMA2をトレーニングすると、SFTが大幅に向上する(GSM8Kでは+17.01\%、MATHでは+9.98\%)。
さらに,カリキュラム学習による学習は,学習の堅牢性をさらに向上させる。 Although large language models (LLMs) have demonstrated adeptness in a range of tasks, they still lag behind human learning efficiency. This disparity is often linked to the inherent human capacity to learn from basic examples, gradually generalize and handle more complex problems, and refine their skills with continuous feedback. Inspired by this, this paper introduces YODA, a novel teacher-student progressive learning framework that emulates the teacher-student education process to improve the efficacy of model fine-tuning. The framework operates on an interactive \textit{basic-generalized-harder} loop. The teacher agent provides tailored feedback on the student's answers, and systematically organizes the education process. This process unfolds by teaching the student basic examples, reinforcing understanding through generalized questions, and then enhancing learning by posing questions with progressively enhanced complexity. With the teacher's guidance, the student learns to iteratively refine its answer with feedback, and forms a robust and comprehensive understanding of the posed questions. The systematic procedural data, which reflects the progressive learning process of humans, is then utilized for model training. Taking math reasoning as a testbed, experiments show that training LLaMA2 with data from YODA improves SFT with significant performance gain (+17.01\% on GSM8K and +9.98\% on MATH). In addition, we find that training with curriculum learning further improves learning robustness. | 翻訳日:2024-01-30 17:04:57 公開日:2024-01-28 |
# 唇が嘘をついている:リップ同期ディープフェイクにおける音声と視覚の時間的不一致 Lips Are Lying: Spotting the Temporal Inconsistency between Audio and Visual in Lip-Syncing DeepFakes ( http://arxiv.org/abs/2401.15668v1 ) ライセンス: Link先を確認 | Weifeng Liu, Tianyi She, Jiawei Liu, Run Wang, Dongyu Yao, Ziyou Liang | (参考訳) 近年、DeepFakeの技術は高品質なビデオ合成において前例のない成功を収めている。
DeepFakeは、顔交換のようなエンターテイメントアプリケーションや、リップシンキング詐欺のような不正な利用に分岐することができる。
しかし、識別性も識別可能な視覚的アーティファクトも変更しないリップフォージェリービデオは、既存のDeepFake検出方法に深刻な課題をもたらす。
予備実験の結果,既存の手法の有効性は,リップシンクビデオに取り組むと劇的に低下するか,あるいは失敗することが判明した。
本稿では,唇運動と音声信号の整合性を利用した唇偽造識別のための新しい手法を提案する。
また, 唇と頭部の微妙な生物学的リンクを捉え, 精度を高めることで, 人間の自然認識を模倣する。
提案手法の有効性と進歩を明らかにするため,SOTAリップジェネレータを用いて高品質なLipSyncデータセットをキュレートする。
この高品質で多様なデータセットが、この挑戦的で興味深い分野のさらなる研究に役立つことを期待しています。
実験結果から, 口唇同期ビデオにおける平均精度は95.3%以上であり, ベースラインを著しく上回ることがわかった。
大規模な実験は、生き残った多様な入力変換におけるディープフェイクとロバスト性に取り組む能力を示す。
提案手法は,実シナリオ(例えばWeChatビデオコール)における最大90.2%の精度を実現し,実シナリオ展開におけるその強力な能力を示す。
この研究コミュニティの進展を促進するため、私たちはhttps://github.com/AaronComo/LipFD.comですべてのリソースをリリースします。 In recent years, DeepFake technology has achieved unprecedented success in high-quality video synthesis, whereas these methods also pose potential and severe security threats to humanity. DeepFake can be bifurcated into entertainment applications like face swapping and illicit uses such as lip-syncing fraud. However, lip-forgery videos, which neither change identity nor have discernible visual artifacts, present a formidable challenge to existing DeepFake detection methods. Our preliminary experiments have shown that the effectiveness of the existing methods often drastically decreases or even fails when tackling lip-syncing videos. In this paper, for the first time, we propose a novel approach dedicated to lip-forgery identification that exploits the inconsistency between lip movements and audio signals. We also mimic human natural cognition by capturing subtle biological links between lips and head regions to boost accuracy. To better illustrate the effectiveness and advances of our proposed method, we curate a high-quality LipSync dataset by employing the SOTA lip generator. We hope this high-quality and diverse dataset could be well served the further research on this challenging and interesting field. Experimental results show that our approach gives an average accuracy of more than 95.3% in spotting lip-syncing videos, significantly outperforming the baselines. Extensive experiments demonstrate the capability to tackle deepfakes and the robustness in surviving diverse input transformations. Our method achieves an accuracy of up to 90.2% in real-world scenarios (e.g., WeChat video call) and shows its powerful capabilities in real scenario deployment. To facilitate the progress of this research community, we release all resources at https://github.com/AaronComo/LipFD. | 翻訳日:2024-01-30 17:04:30 公開日:2024-01-28 |
# グラフ構造量子データのためのハイブリッド量子古典型ニューラルネットワークの学習可能性 Learnability of a hybrid quantum-classical neural network for graph-structured quantum data ( http://arxiv.org/abs/2401.15665v1 ) ライセンス: Link先を確認 | Yan-Ying Liang, Si-Le Tang, Zhe-Hao Yi, Hao-Zhen Si-Tu, Zhu-Jun Zheng | (参考訳) グラフ構造を持つ古典的なデータは、現実世界の多くの問題を扱うときは常に存在する。
グラフ構造を持つ量子データを、常に構造化量子データソースによって生成するため、並列に調査する必要がある。本論文では、グラフ構造量子データを学ぶために、深層残留学習(res-hqcnn)を備えたハイブリッド量子古典型ニューラルネットワークを利用する。
具体的には、グラフ構造量子データの特別な定義に基づいて、まず、res-hqcnnがグラフの有無にかかわらず半教師あり量子データの両方を学べるように、適切なコスト関数を見つける。
さらに、グラフ構造化トレーニングデータに対するres-hqcnnのトレーニングアルゴリズムを詳細に述べる。
次に,res-hqcnnの学習能力を示すために,量子データに対するグラフ構造情報の利用が,芸術の状況と比較して学習効率の向上につながることを示すために,広範な実験を行った。
同時に,高次量子ニューラルネットワークの学習における残差学習の利用が優れた性能をもたらすことを説明するために,同等の実験も設計した。 Classical data with graph structure always exists when dealing with many real-world problems. In parallel, quantum data with graph structure also need to be investigated since they are always produced by structured quantum data sources.In this paper, we make use of a hybrid quantum-classical neural network with deep residual learning (Res-HQCNN) to learn graph-structured quantum data. Specifically, based on the special definition of graph-structured quantum data, we first find suitable cost functions so that Res-HQCNN can learn both semisupervised quantum data with or without graphs. Moreover, the training algorithm of Res-HQCNN for graph-structured training data is given in detail. Next, in order to show the learning ability of Res-HQCNN,we perform extensive experiments to show that the using of information about graph structures for quantum data can lead to better learning efficiency compared with the state of the arts. At the same time, we also design comparable experiments to explain that the using of residual learning can also bring better performance when training for deep quantum neural networks. | 翻訳日:2024-01-30 17:04:02 公開日:2024-01-28 |
# CT再構成のための低分解能予備平衡網 Low-resolution Prior Equilibrium Network for CT Reconstruction ( http://arxiv.org/abs/2401.15663v1 ) ライセンス: Link先を確認 | Yijie Yang, Qifeng Gao, and Yuping Duan | (参考訳) X線CTにおける変分モデル学習のためのアンローリング法について検討した。
しかし, 勾配降下による正則化モデルを直接外すと, 良好な結果が得られないことがわかった。
本稿では,低解像度画像を導入し,ネットワークのロバスト性を改善するための効果的な正規化項を得る,新しい深層学習型CT再構成モデルを提案する。
提案手法では, 深い平衡構造を用いて実現したアルゴリズムの展開により, バックボーンネットワークアーキテクチャを構築する。
提案する低分解能事前平衡モデルの収束を理論的に議論し,収束を保証する条件を提供する。
低分解能先行平衡モデルが,ノイズ低減,コントラスト対雑音比,エッジディテールの保存において,他の最先端手法よりも優れていることを実証し,スパースビュー法と限定アングル再構成問題の両方について実験的に検討した。 The unrolling method has been investigated for learning variational models in X-ray computed tomography. However, it has been observed that directly unrolling the regularization model through gradient descent does not produce satisfactory results. In this paper, we present a novel deep learning-based CT reconstruction model, where the low-resolution image is introduced to obtain an effective regularization term for improving the network`s robustness. Our approach involves constructing the backbone network architecture by algorithm unrolling that is realized using the deep equilibrium architecture. We theoretically discuss the convergence of the proposed low-resolution prior equilibrium model and provide the conditions to guarantee convergence. Experimental results on both sparse-view and limited-angle reconstruction problems are provided, demonstrating that our end-to-end low-resolution prior equilibrium model outperforms other state-of-the-art methods in terms of noise reduction, contrast-to-noise ratio, and preservation of edge details. | 翻訳日:2024-01-30 17:03:43 公開日:2024-01-28 |
# データフリー一般化ゼロショット学習 Data-Free Generalized Zero-Shot Learning ( http://arxiv.org/abs/2401.15657v1 ) ライセンス: Link先を確認 | Bowen Tang, Long Yan, Jing Zhang, Qian Yu, Lu Sheng, Dong Xu | (参考訳) ディープラーニングモデルには、大規模なデータセットから豊富な知識を抽出する能力がある。
しかし、データの著作権とプライバシーに関する懸念から、データの共有がますます困難になっている。
これにより、既存のデータから新しい下流タスクや概念への知識の効果的な移行が妨げられる。
ゼロショット学習(ZSL)アプローチは、ベースクラスから学んだ意味知識を伝達することで、新しいクラスを認識することを目的としている。
しかし、伝統的な生成型zslメソッドは、しばしばベースクラスからの実際のイメージへのアクセスを必要とし、手動で注釈付き属性に依存する。
そこで本論文では,データフリーゼロショット学習(DFZSL)と呼ばれる,CLIPベースのベースクラスデータのみをゼロショット分類に使用可能な,困難かつ実用的な問題に対処する。
具体的には,DFZSLの3つの主要コンポーネントからなる汎用フレームワークを提案する。
まず,ベースデータの仮想特徴を復元するために,事前学習した分類器に基づいて,von mises-fisher (vmf) 分布からベースクラス画像のクリップ特徴をサンプルとしてモデル化する。
次に,CLIPのテキスト特徴を低コストなセマンティック情報として活用し,仮想画像特徴とテキスト特徴をさらに整合させる機能言語プロンプトチューニング(FLPT)手法を提案する。
第3に、よく整合した仮想画像特徴とそれに対応する意味テキスト特徴を用いて条件付き生成モデルを訓練し、新しいクラス特徴の生成を可能にし、ゼロショットの一般化を向上する。
我々のフレームワークは、一般化ZSLの5つの一般的なベンチマークと、ベースツーニューZSLの11のベンチマークで評価されている。
その結果,本手法の優位性と有効性を示した。
私たちのコードはhttps://github.com/ylong4/DFZSLで利用可能です。 Deep learning models have the ability to extract rich knowledge from large-scale datasets. However, the sharing of data has become increasingly challenging due to concerns regarding data copyright and privacy. Consequently, this hampers the effective transfer of knowledge from existing data to novel downstream tasks and concepts. Zero-shot learning (ZSL) approaches aim to recognize new classes by transferring semantic knowledge learned from base classes. However, traditional generative ZSL methods often require access to real images from base classes and rely on manually annotated attributes, which presents challenges in terms of data restrictions and model scalability. To this end, this paper tackles a challenging and practical problem dubbed as data-free zero-shot learning (DFZSL), where only the CLIP-based base classes data pre-trained classifier is available for zero-shot classification. Specifically, we propose a generic framework for DFZSL, which consists of three main components. Firstly, to recover the virtual features of the base data, we model the CLIP features of base class images as samples from a von Mises-Fisher (vMF) distribution based on the pre-trained classifier. Secondly, we leverage the text features of CLIP as low-cost semantic information and propose a feature-language prompt tuning (FLPT) method to further align the virtual image features and textual features. Thirdly, we train a conditional generative model using the well-aligned virtual image features and corresponding semantic text features, enabling the generation of new classes features and achieve better zero-shot generalization. Our framework has been evaluated on five commonly used benchmarks for generalized ZSL, as well as 11 benchmarks for the base-to-new ZSL. The results demonstrate the superiority and effectiveness of our approach. Our code is available in https://github.com/ylong4/DFZSL | 翻訳日:2024-01-30 17:03:14 公開日:2024-01-28 |
# LLsM:大規模言語モデルを用いた言語ステレオグラフィ LLsM: Generative Linguistic Steganography with Large Language Model ( http://arxiv.org/abs/2401.15656v1 ) ライセンス: Link先を確認 | Yihao Wang and Ruiqi Song and Ru Zhang and Jianyi Liu and Lingxiao Li | (参考訳) 言語ステガノグラフィー(LS)タスクは、秘密情報に基づいてステガノグラフィーテキスト(ステゴ)を生成することを目的としている。
認証を受けた受取人だけが、テキスト内の秘密情報の存在を認識し、それを正確に抽出することで、プライバシーを保護できる。
しかし,既存のスキームによるステゴの制御性は乏しく,スタイルやジャンル,テーマといった特定の談話の特徴を取り入れることは困難である。
その結果、ステゴは容易に検出でき、カバート通信を妥協する。
これらの問題に対処するため,本稿では,大言語モデル(llm)に基づく生成型lssであるllsmという新しいスキームを提案する。
我々は、llm llama2を、リッチな談話特性を包含する大規模構築データセットで微調整し、特定の談話を含むテキストを制御可能な方法で生成できるようにした。
そして、この談話特性を案内情報として使用し、秘密情報とともにPmpt形式で微調整LDMに入力する。
サンプリングおよび切り離しから導かれた候補プールは、ステゴが自然なテキスト分布を模倣するようにレンジエンコーディングを行う。
実験により、llsmは、テキスト品質、統計分析、談話マッチング、アンチステグアナリシスに関する一般的なベースラインよりも優れていることが示されている。
特にllsmのmauveは、いくつかのベースラインを70%-80%上回っており、その反ステグアナライザ性能は30%-40%高い。
また,LLsMが生成する長長のステゴを提示し,長長のLSタスクにおいてその潜在的な優位性を示す。 Linguistic Steganography (LS) tasks aim to generate steganographic texts (stego) based on secret information. Only authorized recipients can perceive the existence of secret information in the texts and accurately extract it, thereby preserving privacy. However, the controllability of the stego generated by existing schemes is poor, and the generated stego is difficult to contain specific discourse characteristics such as style, genre, and theme. As a result, the stego are often easily detectable, compromising covert communication. To address these problems, this paper proposes a novel scheme named LLsM, a generative LS based on a Large Language Model (LLM). We fine-tuned the LLM LLaMA2 with a large-scale constructed dataset encompassing rich discourse characteristics, which enables the fine-tuned LLM to generate texts with specific discourse in a controllable manner. Then the discourse characteristics are used as guiding information and inputted into the fine-tuned LLM in the form of Prompt together with secret information. The candidate pool, derived from sampling and truncation, undergoes range encoding to ensure the stego imitate natural text distribution. Experiments demonstrate that LLsM performs superior to prevalent baselines regarding text quality, statistical analysis, discourse matching, and anti-steganalysis. In particular, LLsM's MAUVE surpasses that of some baselines by 70%-80%, and its anti-steganalysis performance is 30%-40% higher. Notably, we also present the long stego generated by LLsM, showing its potential superiority in long LS tasks. | 翻訳日:2024-01-30 17:02:23 公開日:2024-01-28 |
# 位置問合せと拡散ベースアプローチによるワンステップの連続多重化 Continuous-Multiple Image Outpainting in One-Step via Positional Query and A Diffusion-based Approach ( http://arxiv.org/abs/2401.15652v1 ) ライセンス: Link先を確認 | Shaofeng Zhang, Jinfa Huang, Qiang Zhou, Zhibin Wang, Fan Wang, Jiebo Luo, Junchi Yan | (参考訳) Image outpaintingは、入力サブイメージの内容を元の境界を越えて生成することを目的としている。
これはコンテンツ生成において重要なタスクであるが、生成モデルに対するオープンな問題である。
本稿は、文献で未解決の2つの方向における画像出力の技術的フロンティアを推し進める。
1)任意かつ連続的な倍数で(制限なしで)塗装し、
2) 一つのステップで(大きな拡張倍数であっても)上達する。
さらに,従来のSOTA出力方式と対照的に,事前学習したバックボーンネットワークに依存しない手法を開発した。
トレーニング中に同じ画像からランダムにトリミングされたビューを利用して任意の相対的位置情報をキャプチャすることで、任意の多重露光を実現する。
具体的には、あるビューと位置埋め込みをクエリとして与えることで、別のビューを再構築できる。
推定では、アンカー画像とその対応する位置埋め込みを入力して任意の拡張倍数の画像を生成する。
ここでの1ステップのアウトペイント機能は、基本および固定された多重の$N$倍の最終的な倍数を得るために$N$倍で実行する必要がある従来のメソッドとは対照的に、特に注目すべきである。
提案手法(pqdiffと呼ばれる)を具体例として,公開ベンチマークで提案手法である \textbf{p}ositional \textbf{q}uery を用いて評価し,最先端手法よりも優れた性能を示す。
具体的には、PQDiffはScenery (\textbf{21.512})、Building Facades (\textbf{25.310})、WikiArts (\textbf{36.212})データセットの最先端のFIDスコアを達成している。
さらに、2.25x, 5x, 11.7x では、pqdiff はベンチマークのstate-of-the-art (sota) メソッドの時間のみ \textbf{40.6\%}, \textbf{20.3\%}, \textbf{10.2\%} を取る。 Image outpainting aims to generate the content of an input sub-image beyond its original boundaries. It is an important task in content generation yet remains an open problem for generative models. This paper pushes the technical frontier of image outpainting in two directions that have not been resolved in literature: 1) outpainting with arbitrary and continuous multiples (without restriction), and 2) outpainting in a single step (even for large expansion multiples). Moreover, we develop a method that does not depend on a pre-trained backbone network, which is in contrast commonly required by the previous SOTA outpainting methods. The arbitrary multiple outpainting is achieved by utilizing randomly cropped views from the same image during training to capture arbitrary relative positional information. Specifically, by feeding one view and positional embeddings as queries, we can reconstruct another view. At inference, we generate images with arbitrary expansion multiples by inputting an anchor image and its corresponding positional embeddings. The one-step outpainting ability here is particularly noteworthy in contrast to previous methods that need to be performed for $N$ times to obtain a final multiple which is $N$ times of its basic and fixed multiple. We evaluate the proposed approach (called PQDiff as we adopt a diffusion-based generator as our embodiment, under our proposed \textbf{P}ositional \textbf{Q}uery scheme) on public benchmarks, demonstrating its superior performance over state-of-the-art approaches. Specifically, PQDiff achieves state-of-the-art FID scores on the Scenery (\textbf{21.512}), Building Facades (\textbf{25.310}), and WikiArts (\textbf{36.212}) datasets. Furthermore, under the 2.25x, 5x and 11.7x outpainting settings, PQDiff only takes \textbf{40.6\%}, \textbf{20.3\%} and \textbf{10.2\%} of the time of the benchmark state-of-the-art (SOTA) method. | 翻訳日:2024-01-30 17:01:38 公開日:2024-01-28 |
# CPDM:水中画像強調のためのコンテンツ保存拡散モデル CPDM: Content-Preserving Diffusion Model for Underwater Image Enhancement ( http://arxiv.org/abs/2401.15649v1 ) ライセンス: Link先を確認 | Xiaowen Shi and Yuan-Gen Wang | (参考訳) 水環境における画像劣化は複雑で時間とともに変化するため、水中画像強調(UIE)は困難である。
既存の主流の手法は物理モデルまたはデータ駆動のいずれかに依存しており、撮像条件の変化やトレーニング不安定性によるパフォーマンスのボトルネックに悩まされている。
本稿では、UIEタスクに拡散モデルを適用するための最初の試みを行い、上記の課題に対処するためのコンテンツ保存拡散モデル(CPDM)を提案する。
cpdmはまず拡散モデルを安定トレーニングの基本モデルとして活用し、次に画像条件の変化に対応するコンテンツ保存フレームワークを設計した。
具体的には,生画像と生画像の違いの両方を入力として用いて条件付き入力モジュールを構築し,水中環境における生画像の変更を考慮し,モデルの適応性を向上させる。
原画像の本質的内容を保存するため,本研究では,原画像から低レベルの特徴を抽出し,コンテンツ認識トレーニングのためのコンテンツ補償モジュールを構築した。
広範な実験結果からcpdmの有効性が検証され,主観的および客観的な測定値において最先端の手法を上回った。 Underwater image enhancement (UIE) is challenging since image degradation in aquatic environments is complicated and changing over time. Existing mainstream methods rely on either physical-model or data-driven, suffering from performance bottlenecks due to changes in imaging conditions or training instability. In this article, we make the first attempt to adapt the diffusion model to the UIE task and propose a Content-Preserving Diffusion Model (CPDM) to address the above challenges. CPDM first leverages a diffusion model as its fundamental model for stable training and then designs a content-preserving framework to deal with changes in imaging conditions. Specifically, we construct a conditional input module by adopting both the raw image and the difference between the raw and noisy images as the input, which can enhance the model's adaptability by considering the changes involving the raw images in underwater environments. To preserve the essential content of the raw images, we construct a content compensation module for content-aware training by extracting low-level features from the raw images. Extensive experimental results validate the effectiveness of our CPDM, surpassing the state-of-the-art methods in terms of both subjective and objective metrics. | 翻訳日:2024-01-30 17:00:27 公開日:2024-01-28 |
# UP-CrackNet: 逆画像復元による教師なしPixel-Wise道路亀裂検出 UP-CrackNet: Unsupervised Pixel-Wise Road Crack Detection via Adversarial Image Restoration ( http://arxiv.org/abs/2401.15647v1 ) ライセンス: Link先を確認 | Nachuan Ma, Rui Fan, Lihua Xie | (参考訳) 過去10年間で、従来の手動視覚検査技術を置き換えることを目的として、クラックをより効率的に、正確に、客観的に検出する自動化手法が開発されてきた。
これらの手法のうち、セマンティックセグメンテーションアルゴリズムは画素ワイドなき裂検出タスクにおいて有望な結果を示した。
しかし、そのようなデータ駆動アルゴリズムを訓練するには、ピクセルレベルのアノテーションを付加した大量の人間アノテーションデータセットが必要である。
さらに、教師付き学習に基づく手法は、しばしば未発見データセットの一般化能力の低下に苦しむ。
そこで本研究では,UP-CrackNetと呼ばれる,教師なしの画素単位の道路亀裂検出ネットワークを提案する。
提案手法はまずマルチスケールの正方形マスクを生成し,特定領域を除去して無害道路画像をランダムに選別する。
その後、周辺非破壊領域から学習した意味的文脈を利用して、生成的な敵ネットワークを訓練し、崩壊した領域を復元する。
テストフェーズでは、入力画像と復元画像との差を計算してエラーマップを生成し、画素ワイドなクラック検出を可能にする。
その結果,up-cracknetは他の汎用非教師付き異常検出アルゴリズムよりも優れており,最先端教師付きき裂セグメンテーションアルゴリズムと比較して,同等の性能と優れた一般化性を示している。
私たちのソースコードは mias.group/UP-CrackNet で公開されています。 Over the past decade, automated methods have been developed to detect cracks more efficiently, accurately, and objectively, with the ultimate goal of replacing conventional manual visual inspection techniques. Among these methods, semantic segmentation algorithms have demonstrated promising results in pixel-wise crack detection tasks. However, training such data-driven algorithms requires a large amount of human-annotated datasets with pixel-level annotations, which is a highly labor-intensive and time-consuming process. Moreover, supervised learning-based methods often struggle with poor generalization ability in unseen datasets. Therefore, we propose an unsupervised pixel-wise road crack detection network, known as UP-CrackNet. Our approach first generates multi-scale square masks and randomly selects them to corrupt undamaged road images by removing certain regions. Subsequently, a generative adversarial network is trained to restore the corrupted regions by leveraging the semantic context learned from surrounding uncorrupted regions. During the testing phase, an error map is generated by calculating the difference between the input and restored images, which allows for pixel-wise crack detection. Our comprehensive experimental results demonstrate that UP-CrackNet outperforms other general-purpose unsupervised anomaly detection algorithms, and exhibits comparable performance and superior generalizability when compared with state-of-the-art supervised crack segmentation algorithms. Our source code is publicly available at mias.group/UP-CrackNet. | 翻訳日:2024-01-30 17:00:07 公開日:2024-01-28 |
# 術前-術中画像融合法による腹腔鏡下肝切除における拡張現実の客観的比較 An objective comparison of methods for augmented reality in laparoscopic liver resection by preoperative-to-intraoperative image fusion ( http://arxiv.org/abs/2401.15753v1 ) ライセンス: Link先を確認 | Sharib Ali, Yamid Espinel, Yueming Jin, Peng Liu, Bianca G\"uttner, Xukun Zhang, Lihua Zhang, Tom Dowrick, Matthew J. Clarkson, Shiting Xiao, Yifan Wu, Yijun Yang, Lei Zhu, Dai Sun, Lan Li, Micha Pfeiffer, Shahid Farid, Lena Maier-Hein, Emmanuel Buc, Adrien Bartoli | (参考訳) 腹腔鏡下肝切除のための拡張現実(Augmented reality)は、腹腔鏡下画像上に投射することで、外科医が肝臓内に埋め込まれた腫瘍や血管をローカライズできる可視化モードである。
CTまたはMRIデータから抽出した術前3Dモデルを術中腹腔鏡画像に登録する。
3D-2D融合の観点では、ほとんどのアルゴリズムは登録をガイドするために解剖学的ランドマークを使用している。
これらのランドマークには、肝臓の下尾根、ファルシフォーム靭帯、閉塞輪郭などがある。
通常は、腹腔鏡画像と3Dモデルの両方で手動で特徴付けられるが、これは時間がかかり、経験のないユーザーが行うとエラーを含むことがある。
そのため、手術室で拡張現実を効果的に使用できるように、このプロセスを自動化する必要がある。
今回我々は,医療画像・コンピュータ支援介入(miccai 2022)会議において,これらのランドマークを自動的に検出し,登録に利用する可能性を検証したp2ilf(preoperative-intraoperative laparoscopic fusion challenge)を開催する。
課題は2つのタスクに分けられた。
1)2次元及び3次元ランドマーク検出タスクと方法
2) 3D-2D 登録業務。
167枚の腹腔鏡画像と9例の術前3Dモデルによるトレーニングデータと、対応する2Dおよび3Dランドマークアノテーションが得られた。
4ヶ国から計6チームが参加し, 提案手法を16枚の画像と2つの術前3Dモデルで評価した。
すべてのチームが2Dおよび3Dランドマークセグメンテーションタスクのためのディープラーニングベースの方法と、登録タスクのための異なるレンダリングベースの方法を提案した。
実験結果に基づいて,本分野の研究の現在の限界と今後の方向性を決定する3つの重要な仮説を提案する。 Augmented reality for laparoscopic liver resection is a visualisation mode that allows a surgeon to localise tumours and vessels embedded within the liver by projecting them on top of a laparoscopic image. Preoperative 3D models extracted from CT or MRI data are registered to the intraoperative laparoscopic images during this process. In terms of 3D-2D fusion, most of the algorithms make use of anatomical landmarks to guide registration. These landmarks include the liver's inferior ridge, the falciform ligament, and the occluding contours. They are usually marked by hand in both the laparoscopic image and the 3D model, which is time-consuming and may contain errors if done by a non-experienced user. Therefore, there is a need to automate this process so that augmented reality can be used effectively in the operating room. We present the Preoperative-to-Intraoperative Laparoscopic Fusion Challenge (P2ILF), held during the Medical Imaging and Computer Assisted Interventions (MICCAI 2022) conference, which investigates the possibilities of detecting these landmarks automatically and using them in registration. The challenge was divided into two tasks: 1) A 2D and 3D landmark detection task and 2) a 3D-2D registration task. The teams were provided with training data consisting of 167 laparoscopic images and 9 preoperative 3D models from 9 patients, with the corresponding 2D and 3D landmark annotations. A total of 6 teams from 4 countries participated, whose proposed methods were evaluated on 16 images and two preoperative 3D models from two patients. All the teams proposed deep learning-based methods for the 2D and 3D landmark segmentation tasks and differentiable rendering-based methods for the registration task. Based on the experimental outcomes, we propose three key hypotheses that determine current limitations and future directions for research in this domain. | 翻訳日:2024-01-30 16:53:16 公開日:2024-01-28 |
# 主成分分析と木モデルを用いたリアルタイム脳波ベース感情認識モデル Real-time EEG-based Emotion Recognition Model using Principal Component Analysis and Tree-based Models for Neurohumanities ( http://arxiv.org/abs/2401.15743v1 ) ライセンス: Link先を確認 | Miguel A. Blanco-Rios, Milton O. Candela-Leal, Cecilia Orozco-Romo, Paulina Remis-Serna, Carol S. Velez-Saboya, Jorge De-J. Lozoya-Santos, Manuel Cebral-Loureda, Mauricio A. Ramirez-Moreno | (参考訳) 人文科学の分野では、個人が環境と対話し、人文科学(例えば没入空間)における強化された学習体験を創造できるツールが現在報告されていないため、教育革新の必要性が認識されている。
本研究は, 没入型空間における人文主義的文脈の学習過程において, 感情的モニタリングを取り入れ, 技術の統合と人文科学における教育方法論の発達を促進することで, このギャップに対処するソリューションを提案する。
この目的を達成するために,特定の感情を解釈・分類するリアルタイム感情検出脳波システムを開発した。
これらの感情は、賞賛、愛、憎しみ、欲望、喜び、悲しみを含む、デカルト(パッション)による初期の提案と一致した。
このシステムは、情緒データをneurohumanities labインタラクティブプラットフォームに統合し、包括的で没入的な学習環境を構築することを目的としている。
この研究は、Valence, Arousal, and Dominance(VAD)推定を5秒毎に提供するMLリアルタイム感情検出モデルを開発した。
pca, psd, rf, extra-treesを用いて, ベスト8チャネルとそのバンドパワーを抽出し, シフトに基づくデータ分割とクロスバリデーションを用いて複数のモデルを評価した。
性能を評価した後、Extra-Treesは96%の一般精度を達成し、文献で報告されたものよりも高い(88%の精度)。
提案されたモデルはvad変数のリアルタイム予測を提供し、デカルトの6つの主要な情熱を分類するために適応された。
しかし、vad値が得られれば、15以上の感情を分類し(vad感情マッピングで報告されている)、この応用範囲を広げることができる。 Within the field of Humanities, there is a recognized need for educational innovation, as there are currently no reported tools available that enable individuals to interact with their environment to create an enhanced learning experience in the humanities (e.g., immersive spaces). This project proposes a solution to address this gap by integrating technology and promoting the development of teaching methodologies in the humanities, specifically by incorporating emotional monitoring during the learning process of humanistic context inside an immersive space. In order to achieve this goal, a real-time emotion detection EEG-based system was developed to interpret and classify specific emotions. These emotions aligned with the early proposal by Descartes (Passions), including admiration, love, hate, desire, joy, and sadness. This system aims to integrate emotional data into the Neurohumanities Lab interactive platform, creating a comprehensive and immersive learning environment. This work developed a ML, real-time emotion detection model that provided Valence, Arousal, and Dominance (VAD) estimations every 5 seconds. Using PCA, PSD, RF, and Extra-Trees, the best 8 channels and their respective best band powers were extracted; furthermore, multiple models were evaluated using shift-based data division and cross-validations. After assessing their performance, Extra-Trees achieved a general accuracy of 96%, higher than the reported in the literature (88% accuracy). The proposed model provided real-time predictions of VAD variables and was adapted to classify Descartes' six main passions. However, with the VAD values obtained, more than 15 emotions can be classified (reported in the VAD emotion mapping) and extend the range of this application. | 翻訳日:2024-01-30 16:52:46 公開日:2024-01-28 |
# 業務用建物の需要応答に対する効率的なデータ駆動型MPC Efficient Data-Driven MPC for Demand Response of Commercial Buildings ( http://arxiv.org/abs/2401.15742v1 ) ライセンス: Link先を確認 | Marie-Christine Par\'e, Vasken Dermardiros, Antoine Lesage-Landry | (参考訳) モデル予測制御 (mpc) は, 熱的快適性を維持しつつ, 建物のエネルギー効率を著しく向上させることが示されている。
システムモデリングを容易にするために、ニューラルネットワークに基づくデータ駆動アプローチが提案されている。
しかし、そのようなアプローチは一般に非凸であり、計算上難解な最適化問題を引き起こす。
本研究は,小型商業ビルを対象とした簡易なエネルギー管理手法を提案する。
そして、我々のアプローチを利用して、リアルタイムな需要入札戦略を定式化します。
本稿では,データ駆動・混合整数凸 MPC を提案し,演算制約を考慮し,計算時間5分に制限された微分自由度最適化を用いて解く。
屋上ユニットヒーティング,換気,空調システムを個別に制御し,ほとんどの商業ビルの運転を正確にモデル化する。
提案手法では,入力凸リカレントニューラルネットワークを用いて熱力学をモデル化する。
当社のアプローチは,需要入札,使用時間,臨界ピークリベートプログラムなど,いくつかの要求応答(dr)設定に適用しています。
制御器の性能は最先端の建物シミュレーションで評価される。
提案手法は、他のデータ駆動型アプローチやセットポイントコントローラと比較して、DR参加によるエネルギー消費とコストを低減しつつ、熱的快適性を向上する。 Model predictive control (MPC) has been shown to significantly improve the energy efficiency of buildings while maintaining thermal comfort. Data-driven approaches based on neural networks have been proposed to facilitate system modelling. However, such approaches are generally nonconvex and result in computationally intractable optimization problems. In this work, we design a readily implementable energy management method for small commercial buildings. We then leverage our approach to formulate a real-time demand bidding strategy. We propose a data-driven and mixed-integer convex MPC which is solved via derivative-free optimization given a limited computational time of 5 minutes to respect operational constraints. We consider rooftop unit heating, ventilation, and air conditioning systems with discrete controls to accurately model the operation of most commercial buildings. Our approach uses an input convex recurrent neural network to model the thermal dynamics. We apply our approach in several demand response (DR) settings, including a demand bidding, a time-of-use, and a critical peak rebate program. Controller performance is evaluated on a state-of-the-art building simulation. The proposed approach improves thermal comfort while reducing energy consumption and cost through DR participation, when compared to other data-driven approaches or a set-point controller. | 翻訳日:2024-01-30 16:52:15 公開日:2024-01-28 |
# sernet-former:アテンションブースティングゲートとアテンションフュージョンネットワークを用いた効率的な残差ネットワークによる意味セグメンテーション SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks ( http://arxiv.org/abs/2401.15741v1 ) ライセンス: Link先を確認 | Serdar Erisen | (参考訳) セマンティクスセグメンテーションにおける最先端手法の効率を向上させるには、増大する計算コストと、グローバルおよびローカルコンテキストからのセマンティクス情報を融合するといった課題を克服する必要がある。
セマンティックセグメンテーションにおいて畳み込みニューラルネットワーク(CNN)が遭遇する最近の成功と問題に基づいて,一意に効率的な残余ネットワークを持つエンコーダデコーダアーキテクチャを提案する。
注意喚起ゲート(AbG)と注意喚起モジュール(AbM)は、特徴に基づく意味情報をエンコーダ内の効率的な残留ネットワークのグローバルコンテキストと融合させることを目的として展開される。
このデコーダネットワークは、AbMにインスパイアされた追加の注意融合ネットワーク(AfN)で開発されている。
AfNは、デコーダ部に追加の畳み込み層を配置することにより、意味情報の1対1変換の効率を向上させるように設計されている。
我々のネットワークは、挑戦的なCamVidとCityscapesデータセットでテストされており、提案手法は、ResNet-50のような既存のベースラインに大幅に改善されている。
我々の知る限り、開発ネットワークであるSERNet-FormerはCamVidデータセット上で最先端の結果(84.62 %はIoU)を達成し、Cityscapesバリデーションデータセットでは挑戦的な結果(87.35 %はIoU)を達成している。 Improving the efficiency of state-of-the-art methods in semantic segmentation requires overcoming the increasing computational cost as well as issues such as fusing semantic information from global and local contexts. Based on the recent success and problems that convolutional neural networks (CNNs) encounter in semantic segmentation, this research proposes an encoder-decoder architecture with a unique efficient residual network. Attention-boosting gates (AbGs) and attention-boosting modules (AbMs) are deployed by aiming to fuse the feature-based semantic information with the global context of the efficient residual network in the encoder. Respectively, the decoder network is developed with the additional attention-fusion networks (AfNs) inspired by AbM. AfNs are designed to improve the efficiency in the one-to-one conversion of the semantic information by deploying additional convolution layers in the decoder part. Our network is tested on the challenging CamVid and Cityscapes datasets, and the proposed methods reveal significant improvements on the existing baselines, such as ResNet-50. To the best of our knowledge, the developed network, SERNet-Former, achieves state-of-the-art results (84.62 % mean IoU) on CamVid dataset and challenging results (87.35 % mean IoU) on Cityscapes validation dataset. | 翻訳日:2024-01-30 16:51:56 公開日:2024-01-28 |
# segmentanytree:レーザー走査データを用いた木分割のためのセンサおよびプラットフォーム非依存ディープラーニングモデル SegmentAnyTree: A sensor and platform agnostic deep learning model for tree segmentation using laser scanning data ( http://arxiv.org/abs/2401.15739v1 ) ライセンス: Link先を確認 | Maciej Wielgosz, Stefano Puliti, Binbin Xiang, Konrad Schindler, Rasmus Astrup | (参考訳) 本研究では,空中走査型(ULS),地上走査型(TLS),移動型(MLS)の様々なレーザ走査型に適用可能な深層学習モデルを用いて,ライダーデータにおけるツリークラウン(ITC)セグメンテーションを推し進める。
3次元森林景観解析におけるデータ特性の相違による伝達可能性の課題に対処する。
本研究は、プラットフォーム(ULS, MLS)とデータ密度に基づくモデルの性能評価を行い、スパースバージョンを含む入力データが異なる5つのシナリオをテストし、適応性とキャノピー層の有効性を評価する。
pointgroupアーキテクチャに基づいたこのモデルは、セマンティクスとインスタンスセグメンテーションのヘッドを分離した3d cnnで、さまざまなポイントクラウドデータセット上で検証される。
その結果,クラウドスペーシフィケーションが性能を高め,疎データ処理を補助し,密林における検出を改善した。
モデルは、sq あたり 50 ポイントでうまく機能する。
m 密度は 1 sq あたり 10 点以下である。
脱落率が高いため。
LAUTx、Wytham Woods、TreeLearnのデータセットに新しいベンチマークを設定し、検出、省略、手数料率、F1スコアで既存のメソッド(例えば、Point2Tree、TLS2trees)を上回っている。
本研究は,多様なlidarデータに対するセンサ非依存モデルの実現可能性を示し,センサ固有のアプローチを超越し,特に複雑な森林において,樹木のセグメンテーションにおける新たな基準を設定する。
これは将来の生態系モデリングと森林管理の進歩に寄与する。 This research advances individual tree crown (ITC) segmentation in lidar data, using a deep learning model applicable to various laser scanning types: airborne (ULS), terrestrial (TLS), and mobile (MLS). It addresses the challenge of transferability across different data characteristics in 3D forest scene analysis. The study evaluates the model's performance based on platform (ULS, MLS) and data density, testing five scenarios with varying input data, including sparse versions, to gauge adaptability and canopy layer efficacy. The model, based on PointGroup architecture, is a 3D CNN with separate heads for semantic and instance segmentation, validated on diverse point cloud datasets. Results show point cloud sparsification enhances performance, aiding sparse data handling and improving detection in dense forests. The model performs well with >50 points per sq. m densities but less so at 10 points per sq. m due to higher omission rates. It outperforms existing methods (e.g., Point2Tree, TLS2trees) in detection, omission, commission rates, and F1 score, setting new benchmarks on LAUTx, Wytham Woods, and TreeLearn datasets. In conclusion, this study shows the feasibility of a sensor-agnostic model for diverse lidar data, surpassing sensor-specific approaches and setting new standards in tree segmentation, particularly in complex forests. This contributes to future ecological modeling and forest management advancements. | 翻訳日:2024-01-30 16:51:31 公開日:2024-01-28 |
# 長期の台風軌道予測:再解析を伴わない物理条件によるアプローチ Long-Term Typhoon Trajectory Prediction: A Physics-Conditioned Approach Without Reanalysis Data ( http://arxiv.org/abs/2401.15726v1 ) ライセンス: Link先を確認 | Young-Jae Park, Minseok Seo, Doyi Kim, Hyeri Kim, Sanghoon Choi, Beomkyu Choi, Jeongwon Ryu, Sohee Son, Hae-Gon Jeon, Yeji Choi | (参考訳) 気候変動がエスカレートする中で、台風の強度とその後の被害が急増している。
正確な軌道予測は効果的な損傷制御に不可欠である。
従来の物理モデルは包括的ではあるが計算集約的であり、予測者の専門知識に大きく依存している。
現代のデータ駆動手法は、気象条件の真の表現に最も近いと見なされる再分析データに依存することが多い。
しかし,予測モデルを観測データに校正するため,再解析データはリアルタイムに生成されず,調整に時間を要する。
ERA5のようなこの再分析データは、現実世界の困難な状況では不十分である。
最適準備性は、標準物理学モデルの能力を超えて、少なくとも72時間前の予測を必要とする。
これらの制約に対応して,実時間統一モデル(um)データを利用して,再分析データの制限を回避する手法を提案する。
本モデルでは,6時間間隔で72時間前処理を行い,最新データ駆動モデルと数値天気予報モデルの両方に優れる。
rthree{typhoons}によって引き起こされる逆行を緩和しようとする我々の努力に合わせて、前処理された \textit{physics track}データセットをリリースします。 In the face of escalating climate changes, typhoon intensities and their ensuing damage have surged. Accurate trajectory prediction is crucial for effective damage control. Traditional physics-based models, while comprehensive, are computationally intensive and rely heavily on the expertise of forecasters. Contemporary data-driven methods often rely on reanalysis data, which can be considered to be the closest to the true representation of weather conditions. However, reanalysis data is not produced in real-time and requires time for adjustment because prediction models are calibrated with observational data. This reanalysis data, such as ERA5, falls short in challenging real-world situations. Optimal preparedness necessitates predictions at least 72 hours in advance, beyond the capabilities of standard physics models. In response to these constraints, we present an approach that harnesses real-time Unified Model (UM) data, sidestepping the limitations of reanalysis data. Our model provides predictions at 6-hour intervals for up to 72 hours in advance and outperforms both state-of-the-art data-driven methods and numerical weather prediction models. In line with our efforts to mitigate adversities inflicted by \rthree{typhoons}, we release our preprocessed \textit{PHYSICS TRACK} dataset, which includes ERA5 reanalysis data, typhoon best-track, and UM forecast data. | 翻訳日:2024-01-30 16:51:02 公開日:2024-01-28 |
# RE-GAINS & EnCHANT: クエリ応答強化のためのインテリジェントツール操作システム RE-GAINS & EnCHANT: Intelligent Tool Manipulation Systems For Enhanced Query Responses ( http://arxiv.org/abs/2401.15724v1 ) ライセンス: Link先を確認 | Sahil Girhepuje, Siva Sankar Sajeev, Purvam Jain, Arya Sikder, Adithya Rama Varma, Ryan George, Akshay Govind Srinivasan, Mahendra Kurup, Ashmit Sinha, Sudip Mondal | (参考訳) LLMの顕著な成功にもかかわらず、入力クエリやツール引数の記述が不十分なため、ツール呼び出しやツールチェーンに悩まされている。
llmがapi呼び出しによって複雑なユーザクエリを解決するためのツール操作に取り組めるように,re-gainsとenchantという2つの新しいフレームワークを提案する。
EnCHANTはオープンソースのソリューションで、LLMフォーマットインクルーダー、LLM(OpenChat 3.5)、レトリバー(ToolBenchのAPI Retriever)を利用している。
RE-GAINSはOpenAIモデルと組み込みに基づいており、RAP論文に基づいた特別なプロンプトを使用している。
どちらのソリューションもクエリ毎に0.01ドル以下でレイテンシが最小で、フレームワークの有用性を示している。 Despite the remarkable success of LLMs, they still suffer from tool invocation and tool chaining due to inadequate input queries and/or tool argument descriptions. We propose two novel frameworks, RE-GAINS and EnCHANT, enabling LLMs to tackle tool manipulation for solving complex user queries by making API calls. EnCHANT is an open-source solution that makes use of an LLM format enforcer, an LLM(OpenChat 3.5) and a retriever(ToolBench's API Retriever). RE-GAINS is based on OpenAI models and embeddings using a special prompt based on the RAP paper. Both solutions cost less than $0.01 per query with minimal latency, therefore showcasing the usefulness of the frameworks. | 翻訳日:2024-01-30 16:50:38 公開日:2024-01-28 |
# 医用画像深部能動学習のための獲得機能の検討 A Study of Acquisition Functions for Medical Imaging Deep Active Learning ( http://arxiv.org/abs/2401.15721v1 ) ライセンス: Link先を確認 | Bonaventure F. P. Dossou | (参考訳) ディープラーニング革命は近年、画期的な成果をもたらしている。
乳がんの検出からタンパク質の折り畳みまで、ディープラーニングアルゴリズムは非常に重要な進歩の核心にある。
しかし、これらの近代的な進歩は、特に可用性が低いラベル付きデータにおいて、ますますデータ不足になりつつある。
本研究では,ラベル付きデータ(あるいは注釈予算が非常に限られている)の不足状況において,アクティブラーニングが極めて効果的であることを示す。
我々はISIC 2016データセットにおけるいくつかの選択基準(BALD, MeanSTD, MaxEntropy)を比較した。
また,プールサイズがモデルの性能に及ぼす影響についても検討した。
以上の結果から, メラノーマ検出タスクには不確実性が有用であり, 論文の著者の仮説である \textit{bald} が他の獲得関数よりも平均的に優れていることを裏付ける。
しかし,分析により,すべての獲得関数が正の(良質な)サンプルではうまく動作しないことが明らかとなり,実世界において重要なクラスアンバランスの活用が示唆された。
我々は、この現在の仕事を改善するのに役立つ将来の仕事の方向性を提案して締めくくります。
私たちの実装のコードは、 \url{https://github.com/bonaventuredossou/ece526_course_project}でオープンソースです。 The Deep Learning revolution has enabled groundbreaking achievements in recent years. From breast cancer detection to protein folding, deep learning algorithms have been at the core of very important advancements. However, these modern advancements are becoming more and more data-hungry, especially on labeled data whose availability is scarce: this is even more prevalent in the medical context. In this work, we show how active learning could be very effective in data scarcity situations, where obtaining labeled data (or annotation budget is very limited). We compare several selection criteria (BALD, MeanSTD, and MaxEntropy) on the ISIC 2016 dataset. We also explored the effect of acquired pool size on the model's performance. Our results suggest that uncertainty is useful to the Melanoma detection task, and confirms the hypotheses of the author of the paper of interest, that \textit{bald} performs on average better than other acquisition functions. Our extended analyses however revealed that all acquisition functions perform badly on the positive (cancerous) samples, suggesting exploitation of class unbalance, which could be crucial in real-world settings. We finish by suggesting future work directions that would be useful to improve this current work. The code of our implementation is open-sourced at \url{https://github.com/bonaventuredossou/ece526_course_project} | 翻訳日:2024-01-30 16:50:25 公開日:2024-01-28 |
# マルコフ連鎖における中心極限定理の収束率とTD学習への応用 Rates of Convergence in the Central Limit Theorem for Markov Chains, with an Application to TD Learning ( http://arxiv.org/abs/2401.15719v1 ) ライセンス: Link先を確認 | R. Srikant | (参考訳) スタイン法を用いてベクトル値マルティンゲール差分に対する非漸近中心極限定理を証明し、ポアソン方程式を用いてマルコフ連鎖の関数に結果を拡張する。
その結果、平均化を伴う時間差学習(td)のための非漸近中心極限定理の確立にこれらの結果が適用可能であることを示した。 We prove a non-asymptotic central limit theorem for vector-valued martingale differences using Stein's method, and use Poisson's equation to extend the result to functions of Markov Chains. We then show that these results can be applied to establish a non-asymptotic central limit theorem for Temporal Difference (TD) learning with averaging. | 翻訳日:2024-01-30 16:50:04 公開日:2024-01-28 |
# クリックでチェックニュース:NLPを利用したプロクレムリンプロパガンダ検出 Check News in One Click: NLP-Empowered Pro-Kremlin Propaganda Detection ( http://arxiv.org/abs/2401.15717v1 ) ライセンス: Link先を確認 | Veronika Solopova, Viktoriia Herman, Christoph Benzm\"uller, Tim Landgraf | (参考訳) 多くのヨーロッパ市民はクレムリン・プロパガンダ運動の標的となり、ウクライナに対する公的支援を最小化し、不信と不統一の気候を育み、選挙を形作ることを目指していた(meister, 2022)。
この課題に対処するために,7言語で利用可能なnlpによるプログレムリンプロパガンダ検出アプリケーションである'check news in 1 click'を開発した。
ユーザ調査を行い,質問紙回答と組み合わせたユーザエントリとモデル行動を分析し,提案した解釈解の利点と欠点について検討した。 Many European citizens become targets of the Kremlin propaganda campaigns, aiming to minimise public support for Ukraine, foster a climate of mistrust and disunity, and shape elections (Meister, 2022). To address this challenge, we developed ''Check News in 1 Click'', the first NLP-empowered pro-Kremlin propaganda detection application available in 7 languages, which provides the lay user with feedback on their news, and explains manipulative linguistic features and keywords. We conducted a user study, analysed user entries and models' behaviour paired with questionnaire answers, and investigated the advantages and disadvantages of the proposed interpretative solution. | 翻訳日:2024-01-30 16:49:55 公開日:2024-01-28 |
# 精密ベクトル埋め込みを可能にするエキスパートのコントラスト学習と混合 Contrastive Learning and Mixture of Experts Enables Precise Vector Embeddings ( http://arxiv.org/abs/2401.15713v1 ) ライセンス: Link先を確認 | Rohan Kapur, Logan Hallee, Arjun Patel, Bohdan Khomtchouk | (参考訳) トランスフォーマーニューラルネットワークの進歩により、文の類似性モデル、特に自然言語入力の効果的なベクトル表現の作成能力は大幅に向上した。
しかし、これらのモデルはドメイン固有の文脈、特に専門的な科学的サブフィールドにおいて顕著な課題に直面している。
伝統的な手法は、ニッチ内の類似性を過度に一般化するか、小さな違いに過度に敏感にするか、不正確なテキスト分類とサブパーベクトル表現をもたらすか、この体制でしばしば苦労する。
検索と検索がますます重要になっている時代には、正確かつ簡潔な数値表現が不可欠である。
本稿では,生物医学領域に着目し,共引用を類似度指標としてニッチデータセットを組み立てることでこの問題を解決した。
我々は、最先端モデルを微調整するための2つの重要な戦略を採用している。
1.事前学習されたモデルを1つのドメインに調整するドメイン固有の微調整
2. 専門家の混在による普遍的適用性(MoE)。複数のドメインに対する強制ルーティングを備えた事前訓練モデルの同時適用。
トレーニングアプローチでは,より高速な学習に抽象化を用いることを強調し,効率的なコントラスト学習に複数の負のランク付け損失を取り入れた。
特に、N$のエキスパートを備えたMoEは、N$の個人モデルの有効性を達成し、様々なタスクのための多目的なワンサイズ・ファイト・オール・トランスフォーマーネットワークの新しい時代を告げています。
この手法は、科学的テキスト分類の指標が大幅に進歩し、ベクトルデータベースの検索とコンパイルの強化を約束する。 The advancement of transformer neural networks has significantly elevated the capabilities of sentence similarity models, particularly in creating effective vector representations of natural language inputs. However, these models face notable challenges in domain-specific contexts, especially in highly specialized scientific sub-fields. Traditional methods often struggle in this regime, either overgeneralizing similarities within a niche or being overly sensitive to minor differences, resulting in inaccurate text classification and subpar vector representation. In an era where retrieval augmentation and search are increasingly crucial, precise and concise numerical representations are essential. In this paper, we target this issue by assembling niche datasets using co-citations as a similarity metric, focusing on biomedical domains. We employ two key strategies for fine-tuning state-of-the-art models: 1. Domain-specific Fine-Tuning, which tailors pretrained models to a single domain, and 2. Universal Applicability with Mixture of Experts (MoE), adapting pretrained models with enforced routing for multiple domains simultaneously. Our training approach emphasizes the use of abstracts for faster training, incorporating Multiple Negative Rankings loss for efficient contrastive learning. Notably, our MoE variants, equipped with $N$ experts, achieve the efficacy of $N$ individual models, heralding a new era of versatile, One-Size-Fits-All transformer networks for various tasks. This methodology marks significant advancements in scientific text classification metrics and holds promise for enhancing vector database search and compilation. | 翻訳日:2024-01-30 16:49:40 公開日:2024-01-28 |
# 原型埋め込みによるテキスト・画像拡散のオブジェクト駆動ワンショット微調整 Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding ( http://arxiv.org/abs/2401.15708v1 ) ライセンス: Link先を確認 | Jianxiang Lu, Cong Xie, Hui Guo | (参考訳) テキスト対画像生成の分野では,大規模テキスト対画像生成モデルが著しい進歩を遂げているため,多くの微調整手法が提案されている。
しかし、これらのモデルは、特にワンショットのシナリオにおいて、しばしば新しいオブジェクトに苦しむ。
提案手法は,単一の入力画像と関心領域のみを用いて,オブジェクト駆動方式で一般化可能性と忠実性の問題に対処することを目的としている。
一般化性の向上とオーバーフィッティングの緩和を目的として,本パラダイムでは,拡散モデルを微調整する前に,オブジェクトの外観とクラスに基づいてプロトタイプの埋め込みを初期化する。
そして、微調整の間、オブジェクトクラスの事前知識を保存するためのクラス特徴化正規化を提案する。
忠実度をさらに向上するために,複数のオブジェクトを組み込むためのオブジェクト固有の損失を導入する。
全体として、新しいオブジェクトを組み込むオブジェクト指向メソッドは、既存の概念と高い忠実性と一般化とをシームレスに統合することができる。
我々の手法はいくつかの既存手法より優れている。
コードはリリースされます。 As large-scale text-to-image generation models have made remarkable progress in the field of text-to-image generation, many fine-tuning methods have been proposed. However, these models often struggle with novel objects, especially with one-shot scenarios. Our proposed method aims to address the challenges of generalizability and fidelity in an object-driven way, using only a single input image and the object-specific regions of interest. To improve generalizability and mitigate overfitting, in our paradigm, a prototypical embedding is initialized based on the object's appearance and its class, before fine-tuning the diffusion model. And during fine-tuning, we propose a class-characterizing regularization to preserve prior knowledge of object classes. To further improve fidelity, we introduce object-specific loss, which can also use to implant multiple objects. Overall, our proposed object-driven method for implanting new objects can integrate seamlessly with existing concepts as well as with high fidelity and generalization. Our method outperforms several existing works. The code will be released. | 翻訳日:2024-01-30 16:49:14 公開日:2024-01-28 |
# happyrouting: スケーラブルなインザワイルドナビゲーションのための感情認識ルートトラジェクタの学習 HappyRouting: Learning Emotion-Aware Route Trajectories for Scalable In-The-Wild Navigation ( http://arxiv.org/abs/2401.15695v1 ) ライセンス: Link先を確認 | David Bethge, Daniel Bulanda, Adam Kozlowski, Thomas Kosch, Albrecht Schmidt, Tobias Grosse-Puppendahl | (参考訳) ルートはドライバーの感情をトリガーする重要な部分である。
ナビゲーションシステムでは、最短ルートや最短ルートなどのナビゲーション戦略を選択することができる。
しかし、ドライバーの感情的な幸福は考慮していない。
HappyRoutingはナビゲーションベースの新しい共感型カーインタフェースで、ドライバーが現実の交通を案内し、ポジティブな感情を喚起する。
本稿では,設計上の考察,技術アーキテクチャの導出,ルーティング最適化フレームワークの実装を提案する。
我々の貢献は、静的および動的文脈データに基づいて経路に沿って感情を予測する機械学習ベースの感情マップ層である。
実世界運転研究 (N=13) において, HappyRouting の評価を行い, 幸福なルートは主観的評価値が11%(p=.007。
ハッピールートは平均で1.25倍長いが、参加者はハッピールートを短く感じ、現在の最速のルーティングメカニズムに代わる感情に富んだ代替手段を提示した。
本稿では,感情ベースのルーティングをナビゲーションアプリに統合し,モビリティ利用のための感情的幸福を促進する方法について論じる。 Routes represent an integral part of triggering emotions in drivers. Navigation systems allow users to choose a navigation strategy, such as the fastest or shortest route. However, they do not consider the driver's emotional well-being. We present HappyRouting, a novel navigation-based empathic car interface guiding drivers through real-world traffic while evoking positive emotions. We propose design considerations, derive a technical architecture, and implement a routing optimization framework. Our contribution is a machine learning-based generated emotion map layer, predicting emotions along routes based on static and dynamic contextual data. We evaluated HappyRouting in a real-world driving study (N=13), finding that happy routes increase subjectively perceived valence by 11% (p=.007). Although happy routes take 1.25 times longer on average, participants perceived the happy route as shorter, presenting an emotion-enhanced alternative to today's fastest routing mechanisms. We discuss how emotion-based routing can be integrated into navigation apps, promoting emotional well-being for mobility use. | 翻訳日:2024-01-30 16:48:57 公開日:2024-01-28 |
# ひとつは: 大規模マルチビュークラスタリングのための新しいデュアルスペース協調学習ベースライン One for all: A novel Dual-space Co-training baseline for Large-scale Multi-View Clustering ( http://arxiv.org/abs/2401.15691v1 ) ライセンス: Link先を確認 | Zisen Kong, Zhiqiang Fu, Dongxia Chang, Yiming Wang, Yao Zhao | (参考訳) 本稿では,Dual-space Co-training Large-scale Multi-view Clustering (DSCMC)という,新しいマルチビュークラスタリングモデルを提案する。
このアプローチの主な目的は,2つの異なる空間でのコトレーニングを活用することで,クラスタリング性能を向上させることである。
元の空間では、異なるビューから潜在一貫したアンカーグラフを得るために射影行列を学ぶ。
このプロセスでは、各ビュー内のデータポイント間の固有の関係と構造をキャプチャする。
同時に、様々なビューからのサンプルを共有潜在空間にマッピングするために、特徴変換行列を用いる。
この変換は複数のビューからの情報のアライメントを促進し、基盤となるデータ分布の包括的な理解を可能にする。
我々は, 潜在一貫性アンカーグラフの構成と特徴変換を共同で最適化し, 識別的アンカーグラフを生成する。
このアンカーグラフは、マルチビューデータの本質的な特性を効果的に捉え、その後のクラスタリング分析の信頼できる基盤となる。
さらに,異なる視点間の多様な情報の影響を避けるために,要素分割法を提案する。
このアルゴリズムは近似線形計算複雑性を持ち,大規模データセットへの適用性が保証される。
実験により,既存の手法に比べてクラスタリング性能が優れており,計算量を大幅に削減できることを示した。 In this paper, we propose a novel multi-view clustering model, named Dual-space Co-training Large-scale Multi-view Clustering (DSCMC). The main objective of our approach is to enhance the clustering performance by leveraging co-training in two distinct spaces. In the original space, we learn a projection matrix to obtain latent consistent anchor graphs from different views. This process involves capturing the inherent relationships and structures between data points within each view. Concurrently, we employ a feature transformation matrix to map samples from various views to a shared latent space. This transformation facilitates the alignment of information from multiple views, enabling a comprehensive understanding of the underlying data distribution. We jointly optimize the construction of the latent consistent anchor graph and the feature transformation to generate a discriminative anchor graph. This anchor graph effectively captures the essential characteristics of the multi-view data and serves as a reliable basis for subsequent clustering analysis. Moreover, the element-wise method is proposed to avoid the impact of diverse information between different views. Our algorithm has an approximate linear computational complexity, which guarantees its successful application on large-scale datasets. Through experimental validation, we demonstrate that our method significantly reduces computational complexity while yielding superior clustering performance compared to existing approaches. | 翻訳日:2024-01-30 16:48:40 公開日:2024-01-28 |
# 従属変数に対する高次元偽発見率制御 High-Dimensional False Discovery Rate Control for Dependent Variables ( http://arxiv.org/abs/2401.15796v1 ) ライセンス: Link先を確認 | Jasin Machkour, Michael Muma, Daniel P. Palomar | (参考訳) 大規模な高次元データからの再現可能な発見を保証するアルゴリズムは、多くの信号処理アプリケーションにおいて重要である。
近年,多変量偽発見率(fdr)制御手法が登場し,変数数がサンプル数を超える高次元の設定でも保証されている。
しかしながら、これらの手法は、ゲノミクスやファイナンスといった分野に共通する特徴である高依存性の可変群の存在下で、FDRを確実に制御できないことが多い。
この問題に取り組むため,我々は,一般的な依存関係構造を考慮した新しいフレームワークを提案する。
提案する依存性を考慮したT-Rexセレクタは,T-Rexフレームワーク内に階層的グラフィカルモデルを統合し,変数間の依存性構造を効果的に活用する。
マルティンゲール理論を用いて, 可変ペナリゼーション機構がfdr制御を保証することを証明した。
さらに,依存性をキャプチャするグラフィカルモデルと非グラフィックモデルの両方を設計する上で必要な明確な条件を述べ,証明することにより,fdr制御フレームワークをさらに一般化する。
さらに,選択した変数数を最大化しながらfdrを制御するように,グラフィカルモデルとt-rexフレームワークのパラメータを同時決定する完全統合最適キャリブレーションアルゴリズムを定式化する。
数値実験と乳癌生存率解析のユースケースは、fdrを制御し、以前に乳癌と同定された遺伝子を確実に検出する最先端のベンチマーク手法の中で、提案手法が唯一のものであることを示している。
オープンソース実装は、CRANのRパッケージTRexSelectorで利用可能である。 Algorithms that ensure reproducible findings from large-scale, high-dimensional data are pivotal in numerous signal processing applications. In recent years, multivariate false discovery rate (FDR) controlling methods have emerged, providing guarantees even in high-dimensional settings where the number of variables surpasses the number of samples. However, these methods often fail to reliably control the FDR in the presence of highly dependent variable groups, a common characteristic in fields such as genomics and finance. To tackle this critical issue, we introduce a novel framework that accounts for general dependency structures. Our proposed dependency-aware T-Rex selector integrates hierarchical graphical models within the T-Rex framework to effectively harness the dependency structure among variables. Leveraging martingale theory, we prove that our variable penalization mechanism ensures FDR control. We further generalize the FDR-controlling framework by stating and proving a clear condition necessary for designing both graphical and non-graphical models that capture dependencies. Additionally, we formulate a fully integrated optimal calibration algorithm that concurrently determines the parameters of the graphical model and the T-Rex framework, such that the FDR is controlled while maximizing the number of selected variables. Numerical experiments and a breast cancer survival analysis use-case demonstrate that the proposed method is the only one among the state-of-the-art benchmark methods that controls the FDR and reliably detects genes that have been previously identified to be related to breast cancer. An open-source implementation is available within the R package TRexSelector on CRAN. | 翻訳日:2024-01-30 16:40:52 公開日:2024-01-28 |
# sign-perturbed sums identification法のサンプル複雑性:スカラーケース Sample Complexity of the Sign-Perturbed Sums Identification Method: Scalar Case ( http://arxiv.org/abs/2401.15792v1 ) ライセンス: Link先を確認 | Szabolcs Szentp\'eteri and Bal\'azs Csan\'ad Cs\'aji | (参考訳) Sign-Perturbed Sum (SPS) は、任意の有限サンプルサイズに対して、真のデータ生成システムの信頼性領域を構築することができる強力な有限サンプルシステム識別アルゴリズムである。
SPSは一連の論文で開発され、一般の線形システムから閉ループのセットアップにおいても、非線形および非パラメトリックなアプローチまで幅広い応用がある。
SPSのいくつかの理論的性質は文献で証明されたが, これまでのところ, サンプルの複雑さは分析されなかった。
本稿では,このギャップを埋めることを目的として,SPSのサンプル複雑性に関する最初の結果を提供する。
本稿では,スカラー線形回帰問題に着目し,SPS信頼区間の挙動について検討する。
3つの異なる仮定の下、高い確率上限を提供し、観測ノイズが準ガウス的であれば、sps信頼区間の大きさは真のパラメータの周りの幾何学的速度で縮小することを示した。
また、従来提案されていた信頼領域の外部近似に類似した境界が成り立つことを示す。
最後に,理論収束率と経験収束率を比較したシミュレーション実験を行う。 Sign-Perturbed Sum (SPS) is a powerful finite-sample system identification algorithm which can construct confidence regions for the true data generating system with exact coverage probabilities, for any finite sample size. SPS was developed in a series of papers and it has a wide range of applications, from general linear systems, even in a closed-loop setup, to nonlinear and nonparametric approaches. Although several theoretical properties of SPS were proven in the literature, the sample complexity of the method was not analysed so far. This paper aims to fill this gap and provides the first results on the sample complexity of SPS. Here, we focus on scalar linear regression problems, that is we study the behaviour of SPS confidence intervals. We provide high probability upper bounds, under three different sets of assumptions, showing that the sizes of SPS confidence intervals shrink at a geometric rate around the true parameter, if the observation noises are subgaussian. We also show that similar bounds hold for the previously proposed outer approximation of the confidence region. Finally, we present simulation experiments comparing the theoretical and the empirical convergence rates. | 翻訳日:2024-01-30 16:40:25 公開日:2024-01-28 |
# カーネルに基づく漸近的同時信頼バンドの改善 Improving Kernel-Based Nonasymptotic Simultaneous Confidence Bands ( http://arxiv.org/abs/2401.15791v1 ) ライセンス: Link先を確認 | Bal\'azs Csan\'ad Cs\'aji and B\'alint Horv\'ath | (参考訳) 本論文は,非漸近的かつ不定形的保証を持つ非パラメトリック同時信頼バンドの構築の問題について検討する。
対象関数は帯域制限と仮定され、アプローチはパーリー・ウィーナー再生カーネルヒルベルト空間の理論に基づいている。
本論文の出発点は,最近開発された3種類の改良を提案するアルゴリズムである。
まず、対称性仮定をより弱い分布不変性原理に置き換えることで雑音の仮定を緩和する。
そこで我々は,対象関数のノルムを推定するより効率的な手法を提案し,最後に,基礎となる凸最適化問題の制約を厳格化することにより,信頼バンドの構築を強化する。
改良は数値実験によっても説明できる。 The paper studies the problem of constructing nonparametric simultaneous confidence bands with nonasymptotic and distribition-free guarantees. The target function is assumed to be band-limited and the approach is based on the theory of Paley-Wiener reproducing kernel Hilbert spaces. The starting point of the paper is a recently developed algorithm to which we propose three types of improvements. First, we relax the assumptions on the noises by replacing the symmetricity assumption with a weaker distributional invariance principle. Then, we propose a more efficient way to estimate the norm of the target function, and finally we enhance the construction of the confidence bands by tightening the constraints of the underlying convex optimization problems. The refinements are also illustrated through numerical experiments. | 翻訳日:2024-01-30 16:40:06 公開日:2024-01-28 |
# リレーショナル量子力学の組合せ問題 The Combination Problem for Relational Quantum Mechanics ( http://arxiv.org/abs/2401.15790v1 ) ライセンス: Link先を確認 | Emily Adlam | (参考訳) 関連量子力学における構造的に類似した組合せ問題への対処法を考えるための出発点として,パンプシスト結合問題に関する既存の文献を用いる。
この2つの課題の類似点と相違点に留意し、RQMの文脈における類似した解決策の可能性を評価するとともに、パンサイリスト問題に対する様々な解決策を考察する。
RQMの組合せ問題は、RQMの正統的なバージョンよりも、クロスパースペクティブリンクによるRQMの方が総合的に優れていると私は主張する。 This article uses the existing literature on the panpsychist combination problem as a starting point to think about how to address a structurally similar combination problem in relational quantum mechanics. I note some similarities and differences between the two problems, and I consider various proposed solutions to the panpsychist problem, assessing the prospects for a similar solution in the context of RQM. I argue that overall the prospects for solving RQM's combination problem look better for RQM with cross-perspective links than for orthodox versions of RQM. | 翻訳日:2024-01-30 16:39:53 公開日:2024-01-28 |
# 230,439 テスト障害後:flaky障害分類器の実証評価 230,439 Test Failures Later: An Empirical Evaluation of Flaky Failure Classifiers ( http://arxiv.org/abs/2401.15788v1 ) ライセンス: Link先を確認 | Abdulrahman Alshammari, Paul Ammann, Michael Hilton, Jonathan Bell | (参考訳) フレーキーテスト(Fraky test)は、コードの変更がなくても、決定論的にパスまたはフェールできるテストである。誤ったアラームのソースであるにもかかわらず、フレーキーテストは検出された後にテストスイートに留まることが多い。
したがって、フレキテスト研究における重要なオープンな問題は、フレキネスによってテストが失敗したのか、バグを検出したのかを素早く判断する方法である。
テストが失敗すると、それが定義によって不安定になります。もしテストが永続的に失敗すると、おそらく本当の失敗になります。
しかし、このアプローチは非効率かつ非効率である。
開発者がすでにテストの失敗をトリアージするために使用している別のアプローチは、新しく発見されたテストの失敗と、以前目撃した不安定で真の失敗にマッチする、障害の重複解消である。
しかし、フレキなテスト失敗の症状は真の失敗の症状と似ているため、本当のテスト失敗を無視されるフレキな失敗として誤分類するリスクがある。
22のオープンソースjavaプロジェクトの498のflakyテストのデータセットを使用して、230,439件の障害メッセージ(flakyとnotの両方)の大規模なデータセットを収集し、障害の重複排除の有効性を実証的に調査しました。
プロジェクトによっては、このアプローチが極めて効果的である(100\%の特異性を持つ)ことが分かっていますが、他のプロジェクトでは、アプローチは完全に非効率です。
これらの不安定で非脆弱な障害の特徴を分析することで、開発者はこのアプローチにどう依存すべきか、有用なガイダンスを提供します。 Flaky tests are tests that can non-deterministically pass or fail, even in the absence of code changes.Despite being a source of false alarms, flaky tests often remain in test suites once they are detected, as they also may be relied upon to detect true failures. Hence, a key open problem in flaky test research is: How to quickly determine if a test failed due to flakiness, or if it detected a bug? The state-of-the-practice is for developers to re-run failing tests: if a test fails and then passes, it is flaky by definition; if the test persistently fails, it is likely a true failure. However, this approach can be both ineffective and inefficient. An alternate approach that developers may already use for triaging test failures is failure de-duplication, which matches newly discovered test failures to previously witnessed flaky and true failures. However, because flaky test failure symptoms might resemble those of true failures, there is a risk of missclassifying a true test failure as a flaky failure to be ignored. Using a dataset of 498 flaky tests from 22 open-source Java projects, we collect a large dataset of 230,439 failure messages (both flaky and not), allowing us to empirically investigate the efficacy of failure de-duplication. We find that for some projects, this approach is extremely effective (with 100\% specificity), while for other projects, the approach is entirely ineffective. By analyzing the characteristics of these flaky and non-flaky failures, we provide useful guidance on how developers should rely on this approach. | 翻訳日:2024-01-30 16:39:44 公開日:2024-01-28 |
# YOLO学習を用いた農業用リアルタイム物体検出とロボット操作 Real-time object detection and robotic manipulation for agriculture using a YOLO-based learning approach ( http://arxiv.org/abs/2401.15785v1 ) ライセンス: Link先を確認 | Hongyu Zhao, Zezhi Tang, Zhenhong Li, Yi Dong, Yuancheng Si, Mingyang Lu, George Panoutsos | (参考訳) 一般的な栽培作物の収穫プロセスの最適化は、農業工業化の目的において非常に重要である。
今日では、機械ビジョンの活用によって作物の自動識別が可能となり、収穫効率の向上に繋がるが、依然として課題が残っている。
本研究では,共生環境下での作物の検出と収穫(ロボット操作)を同時に行うために,畳み込みニューラルネットワーク(CNN)の2つの異なるアーキテクチャを組み合わせた新しい枠組みを提案する。
シミュレーション環境における作物画像はランダムな回転、切り欠き、明るさ、コントラスト調整により、データセット生成のための拡張画像を生成する。
アルゴリズムフレームワークは、クロップローカライゼーションのための従来の長方形のバウンディングボックスにのみ使用される。
提案手法は,ロボット操作の把握位置を明らかにするために,視覚幾何学グループモデルを用いて取得した画像データを利用する。 The optimisation of crop harvesting processes for commonly cultivated crops is of great importance in the aim of agricultural industrialisation. Nowadays, the utilisation of machine vision has enabled the automated identification of crops, leading to the enhancement of harvesting efficiency, but challenges still exist. This study presents a new framework that combines two separate architectures of convolutional neural networks (CNNs) in order to simultaneously accomplish the tasks of crop detection and harvesting (robotic manipulation) inside a simulated environment. Crop images in the simulated environment are subjected to random rotations, cropping, brightness, and contrast adjustments to create augmented images for dataset generation. The you only look once algorithmic framework is employed with traditional rectangular bounding boxes for crop localization. The proposed method subsequently utilises the acquired image data via a visual geometry group model in order to reveal the grasping positions for the robotic manipulation. | 翻訳日:2024-01-30 16:39:15 公開日:2024-01-28 |
# スペイン語臨床テキストからの症状認識のための微調整大言語モデル Fine-Tuned Large Language Models for Symptom Recognition from Spanish Clinical Text ( http://arxiv.org/abs/2401.15780v1 ) ライセンス: Link先を確認 | Mai A. Shaaban, Abbas Akkasi, Adnan Khan, Majid Komeili, Mohammad Yaqub | (参考訳) 臨床報告における症状の正確な認識は、医療や生物医学の自然言語処理の分野で非常に重要である。
これらのエンティティは臨床情報抽出に不可欠なビルディングブロックとして機能し、大量のテキストデータから重要な医学的洞察を検索することができる。
さらに、これらの実体を識別・分類する能力は、医療専門家の診断・治療計画を支援する高度な臨床意思決定支援システムの開発に基礎的である。
本研究では,スペイン医学文献における症状,徴候,所見の共有化に関する課題であるSympTEMISTに参加した。
オーガナイザがリリースしたデータと、微調整された大きな言語モデルのセットを組み合わせます。 The accurate recognition of symptoms in clinical reports is significantly important in the fields of healthcare and biomedical natural language processing. These entities serve as essential building blocks for clinical information extraction, enabling retrieval of critical medical insights from vast amounts of textual data. Furthermore, the ability to identify and categorize these entities is fundamental for developing advanced clinical decision support systems, aiding healthcare professionals in diagnosis and treatment planning. In this study, we participated in SympTEMIST, a shared task on the detection of symptoms, signs and findings in Spanish medical documents. We combine a set of large language models fine-tuned with the data released by the organizers. | 翻訳日:2024-01-30 16:39:00 公開日:2024-01-28 |
# cantnlp@LT-EDI-2024:アンダーリソース言語におけるLGBTQ+ヘイトスピーチの自動検出 cantnlp@LT-EDI-2024: Automatic Detection of Anti-LGBTQ+ Hate Speech in Under-resourced Languages ( http://arxiv.org/abs/2401.15777v1 ) ライセンス: Link先を確認 | Sidney G.-J. Wong and Matthew Durward | (参考訳) 本稿では,LT-EDI-2024における共有タスクの一環として開発されたソーシャルメディアコメント検出システムにおけるホモフォビア/トランスフォビアについて述べる。
トランスフォーマティブに基づく10の言語条件(英語、スペイン語、グジャラティ、ヒンディー語、カンナダ語、マラヤラム語、マラティ語、タミル語、トゥルー語、テルグ語)の分類モデルを開発しました。
ラベル付き学習データに見られるソーシャルメディア言語の言語的現実を反映するために,ドメイン適応中のスクリプトスイッチ型言語データの合成および有機的なインスタンスを導入した。
我々のシステムは、他の言語条件におけるパフォーマンスレベルが異なるgujaratiとteluguの2位にランクインした。
その結果、スクリプトスイッチングのようなパラ言語的動作の要素を組み込むことで、言語検出システムの性能が向上する可能性が示唆された。 This paper describes our homophobia/transphobia in social media comments detection system developed as part of the shared task at LT-EDI-2024. We took a transformer-based approach to develop our multiclass classification model for ten language conditions (English, Spanish, Gujarati, Hindi, Kannada, Malayalam, Marathi, Tamil, Tulu, and Telugu). We introduced synthetic and organic instances of script-switched language data during domain adaptation to mirror the linguistic realities of social media language as seen in the labelled training data. Our system ranked second for Gujarati and Telugu with varying levels of performance for other language conditions. The results suggest incorporating elements of paralinguistic behaviour such as script-switching may improve the performance of language detection systems especially in the cases of under-resourced languages conditions. | 翻訳日:2024-01-30 16:38:51 公開日:2024-01-28 |
# 差分プライバシーとコンテキスト統合の統合 Integrating Differential Privacy and Contextual Integrity ( http://arxiv.org/abs/2401.15774v1 ) ライセンス: Link先を確認 | Sebastian Benthall and Rachel Cummings | (参考訳) 本稿では,差分プライバシー(dp)とコンテキスト整合性(ci)を統合するための最初のフレームワークを提案する。
DPは、統計ノイズをデータベース内で表現された個人に関する情報に注入するアルゴリズムの特性である。
CIはプライバシを,社会的コンテキストに適した情報フローとして定義する。
分析されたこれらのパラダイムは、情報フローのプライバシーを分析する2つの次元(記述的および規範的特性)を概説する。
新しい統合フレームワークは、それぞれの定義が独立して検討されているときに達成できないCIとDPの両方にメリットがあることを示します。これは、DPにおけるエプシロンパラメータの文脈的に誘導されたチューニングを可能にし、PETや機械学習など、現実のシステムで発生する幅広い情報フローにCIを適用することを可能にする。
我々は,米国国勢調査局におけるDPの使用に基づくケーススタディで結論付けた。 In this work, we propose the first framework for integrating Differential Privacy (DP) and Contextual Integrity (CI). DP is a property of an algorithm that injects statistical noise to obscure information about individuals represented within a database. CI defines privacy as information flow that is appropriate to social context. Analyzed together, these paradigms outline two dimensions on which to analyze privacy of information flows: descriptive and normative properties. We show that our new integrated framework provides benefits to both CI and DP that cannot be attained when each definition is considered in isolation: it enables contextually-guided tuning of the epsilon parameter in DP, and it enables CI to be applied to a broader set of information flows occurring in real-world systems, such as those involving PETs and machine learning. We conclude with a case study based on the use of DP in the U.S. Census Bureau. | 翻訳日:2024-01-30 16:38:34 公開日:2024-01-28 |
# z正規化とnpフリーに基づくk-means時系列クラスタリングの評価 Evaluation of k-means time series clustering based on z-normalization and NP-Free ( http://arxiv.org/abs/2401.15773v1 ) ライセンス: Link先を確認 | Ming-Chang Lee, Jia-Chun Lin, and Volker Stolz | (参考訳) 様々な領域でk平均時系列クラスタリングが広く使われているが、異なる時系列正規化アプローチによる包括的評価に関する文献にはギャップがある。
本稿では,k平均時系列クラスタリングの性能評価を実世界のオープンソース時系列データセット上で行った。
この評価は、z-正規化とNP-Freeの2つの異なる正規化技術に焦点を当てている。
前者は、時系列の最もよく使われる正規化手法の1つである。
後者はリアルタイム時系列表現アプローチであり、時系列正規化アプローチとして機能する。
本研究の目的は,これら2つの正規化手法がk-means時系列クラスタリングに与える影響を,クラスタリング品質の観点から評価することである。
実験では、データセット内のクラスタの品質を評価するための確立された指標であるsilhouette scoreを採用している。
これら2つの正規化手法を用いて,k平均時系列クラスタリングの性能を体系的に検討することにより,k平均時系列クラスタリング評価の現在のギャップを解消し,時系列クラスタリングの開発に有用な知見を提供する。 Despite the widespread use of k-means time series clustering in various domains, there exists a gap in the literature regarding its comprehensive evaluation with different time series normalization approaches. This paper seeks to fill this gap by conducting a thorough performance evaluation of k-means time series clustering on real-world open-source time series datasets. The evaluation focuses on two distinct normalization techniques: z-normalization and NP-Free. The former is one of the most commonly used normalization approach for time series. The latter is a real-time time series representation approach, which can serve as a time series normalization approach. The primary objective of this paper is to assess the impact of these two normalization techniques on k-means time series clustering in terms of its clustering quality. The experiments employ the silhouette score, a well-established metric for evaluating the quality of clusters in a dataset. By systematically investigating the performance of k-means time series clustering with these two normalization techniques, this paper addresses the current gap in k-means time series clustering evaluation and contributes valuable insights to the development of time series clustering. | 翻訳日:2024-01-30 16:38:19 公開日:2024-01-28 |
# Bayesian Nonparametricsがデータ駆動ロバスト最適化に到達 Bayesian Nonparametrics meets Data-Driven Robust Optimization ( http://arxiv.org/abs/2401.15771v1 ) ライセンス: Link先を確認 | Nicola Bariletto (1), Nhat Ho (1) ((1) The University of Texas at Austin) | (参考訳) 機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
リスクは通常、経験的データ分布に関して計算されるが、分布の不確実性のために、貧弱で不安定なアウト・オブ・サンプル性能をもたらす可能性がある。
分布的ロバスト最適化の精神において、ベイズ非パラメトリック(すなわちディリクレ過程)理論と、滑らかな曖昧性逆選好の最近の決定論的モデルからの洞察を組み合わせることにより、新しいロバストな基準を提案する。
第一に,リッジとラッソ回帰を用いた標準正規化経験的リスク最小化手法との新たなつながりに注目した。
そこで,理論上,ロバスト最適化法の性能に関する良質な有限サンプルおよび漸近統計的保証の存在を実証する。
本研究は,ディリクレ過程表現に基づく基準の扱いやすい近似法を提案し,検討する。
また,基準の滑らかさが標準勾配に基づく数値最適化につながることを示した。
最後に,高次元スパース線形回帰およびロバストな位置パラメータ推定タスクに適用することにより,提案手法の動作に関する知見を提供する。 Training machine learning and statistical models often involves optimizing a data-driven risk criterion. The risk is usually computed with respect to the empirical data distribution, but this may result in poor and unstable out-of-sample performance due to distributional uncertainty. In the spirit of distributionally robust optimization, we propose a novel robust criterion by combining insights from Bayesian nonparametric (i.e., Dirichlet Process) theory and recent decision-theoretic models of smooth ambiguity-averse preferences. First, we highlight novel connections with standard regularized empirical risk minimization techniques, among which Ridge and LASSO regressions. Then, we theoretically demonstrate the existence of favorable finite-sample and asymptotic statistical guarantees on the performance of the robust optimization procedure. For practical implementation, we propose and study tractable approximations of the criterion based on well-known Dirichlet Process representations. We also show that the smoothness of the criterion naturally leads to standard gradient-based numerical optimization. Finally, we provide insights into the workings of our method by applying it to high-dimensional sparse linear regression and robust location parameter estimation tasks. | 翻訳日:2024-01-30 16:38:04 公開日:2024-01-28 |
# PILOT:ケース・ローによる訴訟のアウトカム予測 PILOT: Legal Case Outcome Prediction with Case Law ( http://arxiv.org/abs/2401.15770v1 ) ライセンス: Link先を確認 | Lang Cao, Zifeng Wang, Cao Xiao, Jimeng Sun | (参考訳) 機械学習は、訴訟の結果を予測する約束を示しているが、ほとんどの研究は、訴訟法システムではなく、民事法ケースに集中している。
訴訟結果の予測を事例法で行う上で,2つのユニークな課題を特定した。
第一に、意思決定において裁判官の基本的な証拠となる関連する前例を特定することが重要である。
第二に、初期の事例は異なる法的文脈に従う可能性があるため、時間とともに法原則の進化を考慮する必要がある。
本稿では,判例結果予測のための新しいモデルpilot (predicting legal case outcome)を提案する。
関連するケース検索と時間パターンハンドリングの2つのモジュールから構成される。
既存の判例結果予測モデルのパフォーマンスをベンチマークするために,大規模事例法データベースからデータセットを収集した。
本手法は,前例を正確に同定し,ケースローの予測を行う際の時間的変化を緩和することの重要性を実証する。 Machine learning shows promise in predicting the outcome of legal cases, but most research has concentrated on civil law cases rather than case law systems. We identified two unique challenges in making legal case outcome predictions with case law. First, it is crucial to identify relevant precedent cases that serve as fundamental evidence for judges during decision-making. Second, it is necessary to consider the evolution of legal principles over time, as early cases may adhere to different legal contexts. In this paper, we proposed a new model named PILOT (PredictIng Legal case OuTcome) for case outcome prediction. It comprises two modules for relevant case retrieval and temporal pattern handling, respectively. To benchmark the performance of existing legal case outcome prediction models, we curated a dataset from a large-scale case law database. We demonstrate the importance of accurately identifying precedent cases and mitigating the temporal shift when making predictions for case law, as our method shows a significant improvement over the prior methods that focus on civil law case outcome predictions. | 翻訳日:2024-01-30 16:37:42 公開日:2024-01-28 |
# iotネットワークにおける低制御オーバーヘッド適応クラスタリングのための集中型強化学習フレームワーク A Centralized Reinforcement Learning Framework for Adaptive Clustering with Low Control Overhead in IoT Networks ( http://arxiv.org/abs/2401.15767v1 ) ライセンス: Link先を確認 | F. Fernando Jurado-Lasso, J. F. Jurado, and Xenofon Fafoutis | (参考訳) 無線センサネットワーク(WSN)は、IoT(Internet of Things)デバイスにセンサーとアクチュエータ機能を実現する上で、重要な役割を果たす。
リモートおよびリソース制約のある環境で運用されているこれらのIoTデバイスは、ネットワーク長寿に不可欠なエネルギー消費に関連する課題に直面している。
クラスタリングプロトコルは、IoTデバイスのエネルギー負担を軽減する効果的なソリューションとして登場した。
本稿では,クラスタヘッド(chs)とノード間割り当てを戦略的に選択するための混合整数線形プログラミング(milp)を用いた,新しいクラスタリングプロトコルである強化学習ベースコントローラ(leach-rlc)を用いた低エネルギー適応クラスタリング階層を提案する。
さらに、Reinforcement Learning (RL)エージェントを統合して、新しいクラスタを生成するための最適なタイミングを学習することで、制御オーバーヘッドを最小限にする。
LEACH-RLCは、ネットワーク全体の性能を損なうことなく、制御オーバーヘッド削減のバランスをとることを目指している。
大規模なシミュレーションを通じて,新たなクラスタリングソリューションを生成するための周波数および時空モーメントについて検討する。
その結果,LEACH-RLCは従来のLEACHとLEACH-Cよりも優れた性能を示し,ネットワーク寿命の向上,平均エネルギー消費の削減,制御オーバーヘッドの最小化を示した。
提案されたプロトコルは、WSNの効率性と適応性の向上に貢献し、IoTデプロイメントにおける重要な課題に対処する。 Wireless Sensor Networks (WSNs) play a pivotal role in enabling Internet of Things (IoT) devices with sensing and actuation capabilities. Operating in remote and resource-constrained environments, these IoT devices face challenges related to energy consumption, crucial for network longevity. Clustering protocols have emerged as an effective solution to alleviate energy burdens on IoT devices. This paper introduces Low-Energy Adaptive Clustering Hierarchy with Reinforcement Learning-based Controller (LEACH-RLC), a novel clustering protocol that employs a Mixed Integer Linear Programming (MILP) for strategic selection of cluster heads (CHs) and node-to-cluster assignments. Additionally, it integrates a Reinforcement Learning (RL) agent to minimize control overhead by learning optimal timings for generating new clusters. Addressing key research questions, LEACH-RLC seeks to balance control overhead reduction without compromising overall network performance. Through extensive simulations, this paper investigates the frequency and opportune moments for generating new clustering solutions. Results demonstrate the superior performance of LEACH-RLC over conventional LEACH and LEACH-C, showcasing enhanced network lifetime, reduced average energy consumption, and minimized control overhead. The proposed protocol contributes to advancing the efficiency and adaptability of WSNs, addressing critical challenges in IoT deployments. | 翻訳日:2024-01-30 16:37:25 公開日:2024-01-28 |
# 疲労モニタリング用脳波 EEG for fatigue monitoring ( http://arxiv.org/abs/2401.15766v1 ) ライセンス: Link先を確認 | Ildar Rakhmatulin | (参考訳) 生理的疲労(英: physiological fatigue)とは、長期にわたる精神的または身体的な運動によって生じる認知的および身体的パフォーマンスの低下状態であり、医療、航空、輸送、産業部門など様々な分野において重大な課題をもたらす。
疲労が人的パフォーマンスに与える影響を理解するにつれ、効果的な疲労モニタリング技術の開発への関心が高まっている。
これらの技術の中で、脳波検査(EEG)は、非侵襲性、高時間分解能、神経活動に対する感受性による生理的疲労を客観的に評価するための有望なツールとして登場した。
本稿では,脳波を用いた生理疲労のモニタリングの現状を包括的に分析することを目的とする。 Physiological fatigue, a state of reduced cognitive and physical performance resulting from prolonged mental or physical exertion, poses significant challenges in various domains, including healthcare, aviation, transportation, and industrial sectors. As the understanding of fatigue's impact on human performance grows, there is a growing interest in developing effective fatigue monitoring techniques. Among these techniques, electroencephalography (EEG) has emerged as a promising tool for objectively assessing physiological fatigue due to its non-invasiveness, high temporal resolution, and sensitivity to neural activity. This paper aims to provide a comprehensive analysis of the current state of the use of EEG for monitoring physiological fatigue. | 翻訳日:2024-01-30 16:36:39 公開日:2024-01-28 |
# フルスライド画像と臨床病理学的特徴を統合したマルチモデルアプローチによる乳癌再発リスクの予測 Prediction of Breast Cancer Recurrence Risk Using a Multi-Model Approach Integrating Whole Slide Imaging and Clinicopathologic Features ( http://arxiv.org/abs/2401.15805v1 ) ライセンス: Link先を確認 | Manu Goyal, Jonathan D. Marotti, Adrienne A. Workman, Elaine P. Kuhn, Graham M. Tooker, Seth K. Ramin, Mary D. Chamberlin, Roberta M. diFlorio-Alexander, Saeed Hassanpour | (参考訳) 乳癌は世界中の女性に最も多い悪性腫瘍であり、その形態学的および生物学的多様性で有名であり、治療後の再発リスクは様々である。
Oncotype DX Breast Recurrence Score testは、エストロゲン受容体陽性乳癌に対する重要な予測学的および予後学的遺伝子検査であり、治療戦略を導くが、そのような検査は高価であり、遅延ケアであり、広く利用できない。
本研究の目的は,スライド画像全体と臨床病理学的データを分析し,関連する乳癌再発リスクを予測し,これらの患者を低リスクと高リスクの2つのリスクグループに分類する多モデルアプローチを開発することである。
提案手法は, 畳み込みニューラルネットワークを用いた特徴抽出と視覚変換を行い, 臨床病理学的データを解析し, 2つのリスクカテゴリに分類するロジスティック回帰モデルによって補完する。
本法は Oncotype DX test 以前の臨床病理学的特徴を有する乳がんのヘマトキシリン933例とエオシン含有全スライディング画像を用いて訓練,試験を行った。
モデルの性能は、ダートマス・ヘルスの198人の患者とシカゴ大学の418人の患者の内部試験セットを用いて評価された。
マルチモデルアプローチは、内部セットで0.92(95% CI: 0.88-0.96)、外部コホートで0.85(95% CI: 0.79-0.90)のAUCを達成した。
以上の結果から,提案手法は,乳がん患者に対するパーソナライズ治療を支援する代替手段となり,その結果を改善できる可能性が示唆された。 Breast cancer is the most common malignancy affecting women worldwide and is notable for its morphologic and biologic diversity, with varying risks of recurrence following treatment. The Oncotype DX Breast Recurrence Score test is an important predictive and prognostic genomic assay for estrogen receptor-positive breast cancer that guides therapeutic strategies; however, such tests can be expensive, delay care, and are not widely available. The aim of this study was to develop a multi-model approach integrating the analysis of whole slide images and clinicopathologic data to predict their associated breast cancer recurrence risks and categorize these patients into two risk groups according to the predicted score: low and high risk. The proposed novel methodology uses convolutional neural networks for feature extraction and vision transformers for contextual aggregation, complemented by a logistic regression model that analyzes clinicopathologic data for classification into two risk categories. This method was trained and tested on 993 hematoxylin and eosin-stained whole-slide images of breast cancers with corresponding clinicopathological features that had prior Oncotype DX testing. The model's performance was evaluated using an internal test set of 198 patients from Dartmouth Health and an external test set of 418 patients from the University of Chicago. The multi-model approach achieved an AUC of 0.92 (95 percent CI: 0.88-0.96) on the internal set and an AUC of 0.85 (95 percent CI: 0.79-0.90) on the external cohort. These results suggest that with further validation, the proposed methodology could provide an alternative to assist clinicians in personalizing treatment for breast cancer patients and potentially improving their outcomes. | 翻訳日:2024-01-30 16:26:31 公開日:2024-01-28 |
# 量子畳み込みニューラルネットワークを用いた脳腫瘍診断 Brain Tumor Diagnosis Using Quantum Convolutional Neural Networks ( http://arxiv.org/abs/2401.15804v1 ) ライセンス: Link先を確認 | Muhammad Al-Zafar Khan, Nouhaila Innan, Abdullah Al Omar Galib, Mohamed Bennai | (参考訳) 量子畳み込みニューラルネットワーク(qcnns)の医療診断への統合は、脳腫瘍の分類の革新的な進歩を意味する。
本研究は、脳がん画像の特定と分類に適したQCNNモデルの高精度設計と実行について詳述する。
提案したQCNNアーキテクチャとアルゴリズムは99.67%の例外的な分類精度を達成し,臨床応用の強力なツールとしての可能性を示した。
このモデルの性能は、迅速かつ信頼性の高い脳腫瘍診断を促進する能力を強調し、治療計画における意思決定プロセスの合理化を図っている。
これらの発見は、医療画像における量子コンピューティングと量子機械学習方法論のさらなる研究と応用を強く支持しており、量子エンハンスド診断が患者のケアと治療結果の標準を著しく高める可能性を示唆している。 Integrating Quantum Convolutional Neural Networks (QCNNs) into medical diagnostics represents a transformative advancement in the classification of brain tumors. This research details a high-precision design and execution of a QCNN model specifically tailored to identify and classify brain cancer images. Our proposed QCNN architecture and algorithm have achieved an exceptional classification accuracy of 99.67%, demonstrating the model's potential as a powerful tool for clinical applications. The remarkable performance of our model underscores its capability to facilitate rapid and reliable brain tumor diagnoses, potentially streamlining the decision-making process in treatment planning. These findings strongly support the further investigation and application of quantum computing and quantum machine learning methodologies in medical imaging, suggesting a future where quantum-enhanced diagnostics could significantly elevate the standard of patient care and treatment outcomes. | 翻訳日:2024-01-30 16:25:58 公開日:2024-01-28 |
# GarchingSim:フォトリアリスティックシーンとミニマリストワークフローを備えた自律走行シミュレータ GarchingSim: An Autonomous Driving Simulator with Photorealistic Scenes and Minimalist Workflow ( http://arxiv.org/abs/2401.15803v1 ) ライセンス: Link先を確認 | Liguo Zhou, Yinglei Song, Yichao Gao, Zhou Yu, Michael Sodamin, Hongshen Liu, Liang Ma, Lian Liu, Hao Liu, Yang Liu, Haichuan Li, Guang Chen, Alois Knoll | (参考訳) 自動運転アルゴリズムの実際の道路テストは、特に小さなスタートアップや研究機関にとって、高価で時には実用的ではない。
したがって、シミュレーションはこれらのアルゴリズムを評価する重要な方法となる。
しかし、フリーでオープンソースのシミュレータが利用できることは限られており、初心者や学際研究者にとってインストールと設定のプロセスは大変である。
ユーザフレンドリーなワークフローを維持しながら、フォトリアリスティックなシーンを備えた自動運転シミュレータを導入する。
シミュレータはROS2やSocket.IOを通じて外部のアルゴリズムと通信でき、既存のソフトウェアスタックと互換性がある。
さらに,車両の物理的効果の実現性を高めるため,シミュレータ内で高精度な車両動力学モデルを実装した。
シミュレータは、合成データの生成や機械学習ベースのアルゴリズムによる運転など、さまざまな機能を提供する。
さらに、デプロイプロセスの単純さを優先し、初心者が親しみやすく、ユーザフレンドリーであることを確認します。 Conducting real road testing for autonomous driving algorithms can be expensive and sometimes impractical, particularly for small startups and research institutes. Thus, simulation becomes an important method for evaluating these algorithms. However, the availability of free and open-source simulators is limited, and the installation and configuration process can be daunting for beginners and interdisciplinary researchers. We introduce an autonomous driving simulator with photorealistic scenes, meanwhile keeping a user-friendly workflow. The simulator is able to communicate with external algorithms through ROS2 or Socket.IO, making it compatible with existing software stacks. Furthermore, we implement a highly accurate vehicle dynamics model within the simulator to enhance the realism of the vehicle's physical effects. The simulator is able to serve various functions, including generating synthetic data and driving with machine learning-based algorithms. Moreover, we prioritize simplicity in the deployment process, ensuring that beginners find it approachable and user-friendly. | 翻訳日:2024-01-30 16:25:43 公開日:2024-01-28 |
# 低内在データ次元における生成逆数モデルの統計的特性について On the Statistical Properties of Generative Adversarial Models for Low Intrinsic Data Dimension ( http://arxiv.org/abs/2401.15801v1 ) ライセンス: Link先を確認 | Saptarshi Chakraborty and Peter L. Bartlett | (参考訳) GAN(Generative Adversarial Networks)の顕著な成功にもかかわらず、それらの統計的精度の理論的保証は悲観的である。
特に、自然画像などのGANが適用されるデータ分布は、通常高次元の特徴空間において固有の低次元構造を持つと仮定されることが多いが、これは最先端解析における導出率に反映されないことが多い。
本稿では,データと潜伏空間の固有次元から推定された密度の統計的保証を導出することにより,GANの理論と実践のギャップと,その双方向なGAN(Bi-directional GANs)のギャップを埋めようとしている。
我々は、未知のターゲット分布から$n$のサンプルにアクセスでき、ネットワークアーキテクチャが適切に選択された場合、ターゲットスケールから推定される推定値のWasserstein-1距離が$O\left(n^{-1/d_\mu } \right)$ for GANsと$O\left(n^{-1/(d_\mu+\ell)} \right)$ for BiGANsでそれぞれ$d_\mu$と$\ell$は、データ分布とラテント空間の上部Wasserstein-1次元であることを示す。
この理論解析は, 誤差率$n$の指数がデータ次元に依存するのではなく, GANの理論的解析と最適輸送文献からの既知の急激な速度とのギャップを埋めるのに役立つという意味で, これらの手法が次元の呪いを避けることに成功していることを示唆している。
さらに,gansは,より大型のジェネレータネットワークを用いて,非スムース分布においても,最小最大速度を効果的に達成できることを実証する。 Despite the remarkable empirical successes of Generative Adversarial Networks (GANs), the theoretical guarantees for their statistical accuracy remain rather pessimistic. In particular, the data distributions on which GANs are applied, such as natural images, are often hypothesized to have an intrinsic low-dimensional structure in a typically high-dimensional feature space, but this is often not reflected in the derived rates in the state-of-the-art analyses. In this paper, we attempt to bridge the gap between the theory and practice of GANs and their bidirectional variant, Bi-directional GANs (BiGANs), by deriving statistical guarantees on the estimated densities in terms of the intrinsic dimension of the data and the latent space. We analytically show that if one has access to $n$ samples from the unknown target distribution and the network architectures are properly chosen, the expected Wasserstein-1 distance of the estimates from the target scales as $O\left( n^{-1/d_\mu } \right)$ for GANs and $O\left( n^{-1/(d_\mu+\ell)} \right)$ for BiGANs, where $d_\mu$ and $\ell$ are the upper Wasserstein-1 dimension of the data-distribution and latent-space dimension, respectively. The theoretical analyses not only suggest that these methods successfully avoid the curse of dimensionality, in the sense that the exponent of $n$ in the error rates does not depend on the data dimension but also serve to bridge the gap between the theoretical analyses of GANs and the known sharp rates from optimal transport literature. Additionally, we demonstrate that GANs can effectively achieve the minimax optimal rate even for non-smooth underlying distributions, with the use of larger generator networks. | 翻訳日:2024-01-30 16:25:27 公開日:2024-01-28 |
# SHAPとLIMEによる安定した特徴ランク付け Provably Stable Feature Rankings with SHAP and LIME ( http://arxiv.org/abs/2401.15800v1 ) ライセンス: Link先を確認 | Jeremy Goldwasser and Giles Hooker | (参考訳) 特徴属性は、機械学習モデルの予測を理解するためのユビキタスツールである。
しかし、shapやlimeなどの入力変数をスコアリングする一般的な方法は、ランダムサンプリングによる不安定度が高い。
複数の仮説テストからアイデアを活用し、最も重要な特徴を高い確率で正しくランク付けする帰属法を考案する。
我々のアルゴリズム RankSHAP は、最高シェープ値が 1-\alpha$ を超える確率で正しい順序を持つことを保証している。
実証的な結果は、その妥当性と印象的な計算効率を示している。
我々はまた、LIMEの同様の結果を得るために、以前の作業に基づいて構築し、最も重要な機能が正しい順序で選択されることを保証します。 Feature attributions are ubiquitous tools for understanding the predictions of machine learning models. However, popular methods for scoring input variables such as SHAP and LIME suffer from high instability due to random sampling. Leveraging ideas from multiple hypothesis testing, we devise attribution methods that correctly rank the most important features with high probability. Our algorithm RankSHAP guarantees that the $K$ highest Shapley values have the proper ordering with probability exceeding $1-\alpha$. Empirical results demonstrate its validity and impressive computational efficiency. We also build on previous work to yield similar results for LIME, ensuring the most important features are selected in the right order. | 翻訳日:2024-01-30 16:24:47 公開日:2024-01-28 |
# unmasked: 言語情報付き求人プロンプトによるマスキング言語モデルにおけるジェンダーバイアスの定量化 UnMASKed: Quantifying Gender Biases in Masked Language Models through Linguistically Informed Job Market Prompts ( http://arxiv.org/abs/2401.15798v1 ) ライセンス: Link先を確認 | I\~nigo Parra | (参考訳) 言語モデル(LM)は、技術進歩の領域において重要なものとなっている。
彼らの能力は広範で変身的だが、しばしば訓練に使用される人間の生成したデータセットにエンコードされる社会バイアスを含んでいる。
この研究は、マスク付き言語モデル(MLM)に存在する固有のバイアスについて、特にジェンダーバイアスに焦点を当てている。
本研究では, BERT, RoBERTa, DistilBERT, BERT-multilingual, XLM-RoBERTa, DistilBERT-multilingualの6つのモデルについて検討した。
この手法は、2つのサブセットに分岐した新しいデータセットを用いており、1つは、英語で主語代名詞を生成するモデルを促すプロンプトと、もう1つは、プロンプトの代名詞に関連する動詞、副詞、形容詞の確率を返すモデルを含む。
この分析により、すべてのモデルのステレオタイプ的な性別アライメントが明らかとなり、多言語変異は相対的にバイアスを減少させる。 Language models (LMs) have become pivotal in the realm of technological advancements. While their capabilities are vast and transformative, they often include societal biases encoded in the human-produced datasets used for their training. This research delves into the inherent biases present in masked language models (MLMs), with a specific focus on gender biases. This study evaluated six prominent models: BERT, RoBERTa, DistilBERT, BERT-multilingual, XLM-RoBERTa, and DistilBERT-multilingual. The methodology employed a novel dataset, bifurcated into two subsets: one containing prompts that encouraged models to generate subject pronouns in English, and the other requiring models to return the probabilities of verbs, adverbs, and adjectives linked to the prompts' gender pronouns. The analysis reveals stereotypical gender alignment of all models, with multilingual variants showing comparatively reduced biases. | 翻訳日:2024-01-30 16:24:36 公開日:2024-01-28 |
# WebVoyager: 大規模マルチモーダルモデルによるエンドツーエンドWebエージェントの構築 WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models ( http://arxiv.org/abs/2401.13919v2 ) ライセンス: Link先を確認 | Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu | (参考訳) 大規模言語モデル(LLMs)の進歩は、現実の世界における自律的アプリケーションの開発によって特徴付けられる新しい時代へと繋がる。
既存のWebエージェントは通常、1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
このギャップを埋めるために、WebVoyagerを紹介します。これは、LMM(Large Multimodal Model)を利用したWebエージェントで、現実世界のWebサイトと対話することで、エンド・ツー・エンドの指示を完了します。
さらに,GPT-4Vの頑健なマルチモーダル理解機能を活用し,オープンエンドWebエージェントタスクの自動評価の課題に対処する,Webエージェントのための新しい評価プロトコルを提案する。
我々は、広く使われている15のウェブサイトから現実世界のタスクを収集し、エージェントを評価することで、新しいベンチマークを作成する。
GPT-4(All Tools)とWebVoyager(text-only)の両方の性能をはるかに上回る55.7%のタスク成功率を実現し、実用アプリケーションにおけるWebVoyagerの異常な能力を強調した。
提案した自動評価は,人間の判断と85.3%の一致を達成し,実世界におけるWebエージェントのさらなる発展の道を開いた。 The advancement of large language models (LLMs) leads to a new era marked by the development of autonomous applications in the real world, which drives innovation in the creation of advanced web-based agents. Existing web agents typically only handle one input modality and are evaluated only in simplified web simulators or static web snapshots, greatly limiting their applicability in real-world scenarios. To bridge this gap, we introduce WebVoyager, an innovative Large Multimodal Model (LMM) powered web agent that can complete user instructions end-to-end by interacting with real-world websites. Moreover, we propose a new evaluation protocol for web agents to address the challenges of automatic evaluation of open-ended web agent tasks, leveraging the robust multimodal comprehension capabilities of GPT-4V. We create a new benchmark by gathering real-world tasks from 15 widely used websites to evaluate our agents. We show that WebVoyager achieves a 55.7% task success rate, significantly surpassing the performance of both GPT-4 (All Tools) and the WebVoyager (text-only) setups, underscoring the exceptional capability of WebVoyager in practical applications. We found that our proposed automatic evaluation achieves 85.3% agreement with human judgment, paving the way for further development of web agents in a real-world setting. | 翻訳日:2024-01-30 11:41:27 公開日:2024-01-28 |
# オープンワールドにおける人工物体の適応的移動操作 Adaptive Mobile Manipulation for Articulated Objects In the Open World ( http://arxiv.org/abs/2401.14403v2 ) ライセンス: Link先を確認 | Haoyu Xiong, Russell Mendonca, Kenneth Shaw, Deepak Pathak | (参考訳) 家庭などのオープンな非構造環境にロボットを配置することは、長年にわたる研究課題だった。
しかし、ロボットは、しばしばクローズオフラボでのみ研究されており、以前の移動操作は、おそらくこの地域の氷山の一角であるピック・モブ・プレイスに制限されている。
本稿では, 実世界のドア, キャビネット, 引き出し, 冷蔵庫など, 現実的なオブジェクト操作を実現するためのフルスタックアプローチであるOpen-World Mobile Manipulation Systemを紹介する。
このロボットは、適応的な学習フレームワークを使用して、まず行動クローニングを通じて小さなデータ集合から学習し、続いてトレーニング分布外にある新しいオブジェクトについてオンラインの実践から学習する。
また、安全かつ自律的なオンライン適応が可能な低コストなモバイル操作ハードウェアプラットフォームを、約20,000USドルで開発しています。
実験では,CMUキャンパスの4つの建物にまたがる20個の明瞭な物体を用いた。
各オブジェクトに対する1時間未満のオンライン学習で、システムは、オンライン適応を用いて、bcプリトレーニングの50%から95%に成功率を上げることができる。
ビデオ結果: https://open-world-mobilemanip.github.io/ Deploying robots in open-ended unstructured environments such as homes has been a long-standing research problem. However, robots are often studied only in closed-off lab settings, and prior mobile manipulation work is restricted to pick-move-place, which is arguably just the tip of the iceberg in this area. In this paper, we introduce Open-World Mobile Manipulation System, a full-stack approach to tackle realistic articulated object operation, e.g. real-world doors, cabinets, drawers, and refrigerators in open-ended unstructured environments. The robot utilizes an adaptive learning framework to initially learns from a small set of data through behavior cloning, followed by learning from online practice on novel objects that fall outside the training distribution. We also develop a low-cost mobile manipulation hardware platform capable of safe and autonomous online adaptation in unstructured environments with a cost of around 20,000 USD. In our experiments we utilize 20 articulate objects across 4 buildings in the CMU campus. With less than an hour of online learning for each object, the system is able to increase success rate from 50% of BC pre-training to 95% using online adaptation. Video results at https://open-world-mobilemanip.github.io/ | 翻訳日:2024-01-30 11:30:05 公開日:2024-01-28 |
# スコアに基づく構造的事前値を用いたガウス図形モデルの推定 Estimation of partially known Gaussian graphical models with score-based structural priors ( http://arxiv.org/abs/2401.14340v2 ) ライセンス: Link先を確認 | Mart\'in Sevilla, Antonio Garc\'ia Marques, Santiago Segarra | (参考訳) 本稿では,基礎となるグラフに関する事前情報を含む部分既知のガウス図形モデルの支持推定のための新しいアルゴリズムを提案する。
精度行列上の(単純)先行値を用いた最大極大あるいは最大後値基準に基づく点推定を提供する古典的アプローチとは対照的に、我々はグラフの先行を考慮し、後続分布からサンプルを生成するためにアニールランゲイン拡散に依存する。
Langevinサンプルは、基礎となるグラフのスコア関数にアクセスする必要があるため、グラフニューラルネットワークを使用して、グラフデータセットからスコアを効果的に推定する(事前に利用できるか、既知の分布から生成されるか)。
数値実験は我々のアプローチの利点を実証する。 We propose a novel algorithm for the support estimation of partially known Gaussian graphical models that incorporates prior information about the underlying graph. In contrast to classical approaches that provide a point estimate based on a maximum likelihood or a maximum a posteriori criterion using (simple) priors on the precision matrix, we consider a prior on the graph and rely on annealed Langevin diffusion to generate samples from the posterior distribution. Since the Langevin sampler requires access to the score function of the underlying graph prior, we use graph neural networks to effectively estimate the score from a graph dataset (either available beforehand or generated from a known distribution). Numerical experiments demonstrate the benefits of our approach. | 翻訳日:2024-01-30 11:29:45 公開日:2024-01-28 |