このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240506となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 生態学における細粒度および粗粒度検出の比較
Comparing fine-grained and coarse-grained object detection for ecology ( http://arxiv.org/abs/2407.00018v1 ) ライセンス: Link先を確認 | Jess Tam, Justin Kay, | (参考訳) コンピュータビジョンアプリケーションは、野生生物の監視タスクでますます人気がある。
特定の絶滅危惧種のような単一の種のモニタリングに焦点を当てる研究もあるが、捕食者のようなより大きな機能群を監視する研究もある。
本研究では,オーストラリア・ニューサウスウェールズ州北西部で収集されたカメラトラップ画像を用いて,単一クラスに複数種を組み合わせることでモデル結果がどう影響するか,負のサンプルを追加することでモデル性能が向上するかを検討した。
単一のクラスにマージすることで最も恩恵を受けた種は、主に形態学的に類似した種、すなわちマクロポッドであることがわかった。
異なる外見を持つ種は合併すると混合の結果が得られたが、例えばブタとヤギは非ネイティブな大型哺乳類として融合した。
また,ほとんどの事例において,負のサンプルを追加することでモデル性能が極端に向上し,限界ゲインがランダムか一貫性があるかを調べるため,より包括的な調査を行うことが推奨された。
形態学的に類似した種を機能群あるいは高い分類群として分類し,生態学的推測を導出できることが示唆された。
それでも、クラスをマージするか否かは、探索すべき生態学的問題に依存する。
Computer vision applications are increasingly popular for wildlife monitoring tasks. While some studies focus on the monitoring of a single species, such as a particular endangered species, others monitor larger functional groups, such as predators. In our study, we used camera trap images collected in north-western New South Wales, Australia, to investigate how model results were affected by combining multiple species in single classes, and whether the addition of negative samples can improve model performance. We found that species that benefited the most from merging into a single class were mainly species that look alike morphologically, i.e. macropods. Whereas species that looked distinctively different gave mixed results when merged, e.g. merging pigs and goats together as non-native large mammals. We also found that adding negative samples improved model performance marginally in most instances, and recommend conducting a more comprehensive study to explore whether the marginal gains were random or consistent. We suggest that practitioners could classify morphologically similar species together as a functional group or higher taxonomic group to draw ecological inferences. Nevertheless, whether to merge classes or not will depend on the ecological question to be explored. | 翻訳日:2024-07-22 22:48:25 公開日:2024-05-06 |
# 視覚言語モデルに基づくクロスモーダル・セマンティック・コミュニケーションシステム
Visual Language Model based Cross-modal Semantic Communication Systems ( http://arxiv.org/abs/2407.00020v1 ) ライセンス: Link先を確認 | Feibo Jiang, Chuanguo Tang, Li Dong, Kezhi Wang, Kun Yang, Cunhua Pan, | (参考訳) 近年,セマンティック・コミュニケーション(SC)が新たなコミュニケーションパラダイムとして登場し,革新的なセマンティック・トランスミッションの概念を通じて,シャノンの物理的能力限界を超越することに成功した。
それにもかかわらず、既存の画像意味コミュニケーション(ISC)システムは、低セマンティック密度、破滅的な忘れ込み、不確実な信号対雑音比(SNR)など、動的環境におけるいくつかの課題に直面している。
これらの課題に対処するために,視覚言語モデルに基づくクロスモーダル・セマンティック・コミュニケーション(VLM-CSC)システムを提案する。
1)クロスモーダル知識ベース(CKB)は、送信機におけるセマンティックスパース画像から高密度のテキストセマンティクスを抽出し、受信機におけるテキストセマンティクスに基づいて元のイメージを再構成する。
高密度セマンティクスの伝達は、帯域幅の圧力を軽減するのに寄与する。
2) メモリアシスト型エンコーダとデコーダ (MED) は, セマンティックエンコーダとデコーダを併用し, セマンティックエンコーダとデコーダは, セマンティック特徴の分布にドリフトが存在する場合に, 動的環境における破滅的な忘れを克服する。
(3)ノイズアテンションモジュール(NAM)は,SNRに基づくセマンティックコーディングとチャネルコーディングを適応的に調整し,CSCシステムの堅牢性を確保する。
実験により, CSCシステムの有効性, 適応性, 堅牢性を検証した。
Semantic Communication (SC) has emerged as a novel communication paradigm in recent years, successfully transcending the Shannon physical capacity limits through innovative semantic transmission concepts. Nevertheless, extant Image Semantic Communication (ISC) systems face several challenges in dynamic environments, including low semantic density, catastrophic forgetting, and uncertain Signal-to-Noise Ratio (SNR). To address these challenges, we propose a novel Vision-Language Model-based Cross-modal Semantic Communication (VLM-CSC) system. The VLM-CSC comprises three novel components: (1) Cross-modal Knowledge Base (CKB) is used to extract high-density textual semantics from the semantically sparse image at the transmitter and reconstruct the original image based on textual semantics at the receiver. The transmission of high-density semantics contributes to alleviating bandwidth pressure. (2) Memory-assisted Encoder and Decoder (MED) employ a hybrid long/short-term memory mechanism, enabling the semantic encoder and decoder to overcome catastrophic forgetting in dynamic environments when there is a drift in the distribution of semantic features. (3) Noise Attention Module (NAM) employs attention mechanisms to adaptively adjust the semantic coding and the channel coding based on SNR, ensuring the robustness of the CSC system. The experimental simulations validate the effectiveness, adaptability, and robustness of the CSC system. | 翻訳日:2024-07-22 22:48:25 公開日:2024-05-06 |
# ランダム処理を支援するニューラルネットワークテクスチャ圧縮
Neural Graphics Texture Compression Supporting Random Acces ( http://arxiv.org/abs/2407.00021v1 ) ライセンス: Link先を確認 | Farzad Farhadzadeh, Qiqi Hou, Hoang Le, Amir Said, Randall Rauwendaal, Alex Bourd, Fatih Porikli, | (参考訳) レンダリングの進歩は、解像度、複雑さ、新しいテクスチャコンポーネントを含むテクスチャ資産の著しい成長につながったが、このデータボリュームの増大は、その圧縮の進歩とは一致していない。
一方、NIC(Neural Image Compression)は大幅に進歩し、有望な結果を示したが、提案手法はニューラルテクスチャ圧縮に直接適用できない。
まず、テクスチャ圧縮は、並列レンダリング中のランダムアクセスを伴うオンデマンドおよびリアルタイムデコーディングを必要とする(例えばGPU上のブロックテクスチャデ圧縮)。
さらに、NICはマルチレゾリューション再構成(マイプレベル)をサポートしておらず、異なるテクスチャチャネルの集合を効率的に圧縮する機能も備えていない。
本研究では,従来のGPUテクスチャ表現とNIC技術を統合したテクスチャセット圧縮手法を提案する。
この目的を達成するために、畳み込みエンコーダを用いた非対称自動エンコーダフレームワークを提案し、ボトルネックラテント空間の詳細な情報をキャプチャし、デコーダ側では、所定のテクスチャ座標とミップレベルに対して、遅延特徴と位置情報をサンプリングした完全に接続されたネットワークを利用する。
この潜在データは、スキャンストライドを単に変更することで、マルチレゾリューションデータへの簡易なアクセスを可能にするために定義される。
実験により, 従来のテクスチャ圧縮よりもはるかに優れた結果が得られ, ニューラルネットワークを用いた最新の手法よりも大幅に改善された。
Advances in rendering have led to tremendous growth in texture assets, including resolution, complexity, and novel textures components, but this growth in data volume has not been matched by advances in its compression. Meanwhile Neural Image Compression (NIC) has advanced significantly and shown promising results, but the proposed methods cannot be directly adapted to neural texture compression. First, texture compression requires on-demand and real-time decoding with random access during parallel rendering (e.g. block texture decompression on GPUs). Additionally, NIC does not support multi-resolution reconstruction (mip-levels), nor does it have the ability to efficiently jointly compress different sets of texture channels. In this work, we introduce a novel approach to texture set compression that integrates traditional GPU texture representation and NIC techniques, designed to enable random access and support many-channel texture sets. To achieve this goal, we propose an asymmetric auto-encoder framework that employs a convolutional encoder to capture detailed information in a bottleneck-latent space, and at decoder side we utilize a fully connected network, whose inputs are sampled latent features plus positional information, for a given texture coordinate and mip level. This latent data is defined to enable simplified access to multi-resolution data by simply changing the scanning strides. Experimental results demonstrate that this approach provides much better results than conventional texture compression, and significant improvement over the latest method using neural networks. | 翻訳日:2024-07-22 22:48:25 公開日:2024-05-06 |
# 部分境界データからのインピーダンストモグラフィ画像分割のためのデータ駆動手法
Data-driven approaches for electrical impedance tomography image segmentation from partial boundary data ( http://arxiv.org/abs/2407.01559v1 ) ライセンス: Link先を確認 | Alexander Denker, Zeljko Kereta, Imraj Singh, Tom Freudenberg, Tobias Kluth, Peter Maass, Simon Arridge, | (参考訳) 電気インピーダンストモグラフィ(EIT)は非侵襲的な画像撮影において重要な役割を担っている。
本稿では,3つのデータ駆動型EIT画像再構成手法を提案する。
これらの3つのアプローチはもともと2023年のクオピオ・トモグラフィー・チャレンジ(KTC2023)に提出された。
まず,KTC2023で1位となった後処理手法を提案する。
さらに,完全学習かつ条件付き拡散手法を提案する。
これら3つの手法は、バックボーンと同様のニューラルネットワークに基づいており、合成されたデータセットを使用してトレーニングされており、これらの異なるデータ駆動の再構築手法を公平に比較する機会を与えている。
Electrical impedance tomography (EIT) plays a crucial role in non-invasive imaging, with both medical and industrial applications. In this paper, we present three data-driven reconstruction methods for EIT imaging. These three approaches were originally submitted to the Kuopio tomography challenge 2023 (KTC2023). First, we introduce a post-processing approach, which achieved first place at KTC2023. Further, we present a fully learned and a conditional diffusion approach. All three methods are based on a similar neural network as a backbone and were trained using a synthetically generated data set, providing with an opportunity for a fair comparison of these different data-driven reconstruction methods. | 翻訳日:2024-07-22 22:28:39 公開日:2024-05-06 |
# ChatGPT と Vaccine Hesitancy の比較 : 評価尺度による英語,スペイン語,フランス語の反応の比較
ChatGPT and Vaccine Hesitancy: A Comparison of English, Spanish, and French Responses Using a Validated Scale ( http://arxiv.org/abs/2407.09481v1 ) ライセンス: Link先を確認 | Saubhagya Joshi, Eunbin Ha, Yonaira Rivera, Vivek K. Singh, | (参考訳) ChatGPTは人気の情報システムであり(2023年8月に10億回以上訪れた)、ユーザクエリに対する自然言語応答を生成できる。
公衆衛生決定に影響を及ぼす可能性があるため、予防接種などの健康関連トピックに対する回答の質と公平性について研究することが重要である。
我々は、シャピロらによって提案されたVacine Hesitancy Scale(VHS)を用いて、英語、スペイン語、フランス語におけるChatGPT応答の重大さを測定する。
以下に示す。
(a)ChatGPT応答は、過去の文献で報告されたヒトの回答者に比べて、過敏感が低いことを示す。
(b)ChatGPTの応答は言語によって大きく異なり、英語の応答は平均的に最も過敏であり、スペイン語は最小である。
(c)ChatGPT応答は、異なるモデルパラメータ間でほぼ一致しているが、スケール要因(ワクチン能力、リスク)によって若干のばらつきが見られる。
結果は、健康関連Web情報の質とエクイティを評価し改善することに関心のある研究者に影響を及ぼす。
ChatGPT is a popular information system (over 1 billion visits in August 2023) that can generate natural language responses to user queries. It is important to study the quality and equity of its responses on health-related topics, such as vaccination, as they may influence public health decision-making. We use the Vaccine Hesitancy Scale (VHS) proposed by Shapiro et al.1 to measure the hesitancy of ChatGPT responses in English, Spanish, and French. We find that: (a) ChatGPT responses indicate less hesitancy than those reported for human respondents in past literature; (b) ChatGPT responses vary significantly across languages, with English responses being the most hesitant on average and Spanish being the least; (c) ChatGPT responses are largely consistent across different model parameters but show some variations across the scale factors (vaccine competency, risk). Results have implications for researchers interested in evaluating and improving the quality and equity of health-related web information. | 翻訳日:2024-07-22 13:48:17 公開日:2024-05-06 |
# SoraとV-JEPAは、完全な実世界モデルを学んでいない - 創造的イマジネーションの理論によるビデオAIの哲学的分析
Sora and V-JEPA Have Not Learned The Complete Real World Model -- A Philosophical Analysis of Video AIs Through the Theory of Productive Imagination ( http://arxiv.org/abs/2407.10311v1 ) ライセンス: Link先を確認 | Jianqiu Zhang, | (参考訳) Open AIのSoraは例外的なパフォーマンスを示しているが、その技術力が現実の真正な理解に匹敵するかどうかについて精査されている。
批評家は、MetaのV-JEPAの欠如は、共同埋め込みアプローチの修正を目指している。
この議論は、AI(Artificial General Intelligence, AGI)の今後の方向性を決める上で不可欠である。
我々は、カント哲学に基づくコヒーレントな世界モデルを生み出す生産的想像論を発展させることで、この議論を豊かにする。
我々は、真の世界理解が可能なコヒーレント世界モデルの3つの必須要素を同定する: 孤立した物体の表現、空間と時間にわたる変化の優先法則、そしてカント圏である。
我々の分析によると、Soraは変化の優先法則やカント的カテゴリーの監督によって制限されているため、トレーニングのスケールアップによって修正できない欠陥が指摘されている。
V-JEPAは、変化の優先法則の文脈依存的な側面を学ぶ。
しかし、カント語圏を完全に理解し、経験を取り入れることに失敗し、現在、どちらのシステムも包括的な世界理解を達成していないと結論づける。
それでも、それぞれのシステムは、AI生産的な想像力に基づくエンジンの進化に不可欠なコンポーネントを開発した。
最後に、乱れた知覚入力を構造化されたコヒーレントな世界モデルに変換するように設計された統合埋め込みシステムを中心に、AI生産的な想像力に基づくエンジンのための革新的なトレーニングフレームワークを提案する。
我々の哲学的分析は、現代のビデオAI技術における重要な課題と、将来推論や計画に応用できる真の世界理解が可能なAIシステムを実現するための道筋を浮き彫りにしている。
Sora from Open AI has shown exceptional performance, yet it faces scrutiny over whether its technological prowess equates to an authentic comprehension of reality. Critics contend that it lacks a foundational grasp of the world, a deficiency V-JEPA from Meta aims to amend with its joint embedding approach. This debate is vital for steering the future direction of Artificial General Intelligence(AGI). We enrich this debate by developing a theory of productive imagination that generates a coherent world model based on Kantian philosophy. We identify three indispensable components of the coherent world model capable of genuine world understanding: representations of isolated objects, an a priori law of change across space and time, and Kantian categories. Our analysis reveals that Sora is limited because of its oversight of the a priori law of change and Kantian categories, flaws that are not rectifiable through scaling up the training. V-JEPA learns the context-dependent aspect of the a priori law of change. Yet it fails to fully comprehend Kantian categories and incorporate experience, leading us to conclude that neither system currently achieves a comprehensive world understanding. Nevertheless, each system has developed components essential to advancing an integrated AI productive imagination-understanding engine. Finally, we propose an innovative training framework for an AI productive imagination-understanding engine, centered around a joint embedding system designed to transform disordered perceptual input into a structured, coherent world model. Our philosophical analysis pinpoints critical challenges within contemporary video AI technologies and a pathway toward achieving an AI system capable of genuine world understanding, such that it can be applied for reasoning and planning in the future. | 翻訳日:2024-07-22 12:59:07 公開日:2024-05-06 |
# 効果的な設計検証 -- PythonとCocotbによる制約付きランダム
Effective Design Verification -- Constrained Random with Python and Cocotb ( http://arxiv.org/abs/2407.10312v1 ) ライセンス: Link先を確認 | Deepak Narayan Gadde, Suruchi Kumari, Aman Kumar, | (参考訳) シンプルさと35のキーワード(v3.7)により、世界で最も広く使われている言語であるPythonは、ハードウェアとソフトウェアエンジニアの両方を惹きつけている。
Pythonベースの検証環境では、cocotbやcocotb-coverageといったオープンソースのライブラリを活用している。
これらのライブラリはテストベンチの開発を著しく緩和し、セットアップコストを削減できる可能性がある。
本稿の目的は,Python-Cocotbの検証設定を設計IPで評価し,その特徴と性能指標を現在のデファクトハードウェア検証言語であるSystemVerilogと比較することである。
Being the most widely used language across the world due to its simplicity and with 35 keywords (v3.7), Python attracts both hardware and software engineers. Python-based verification environment leverages open-source libraries such as cocotb and cocotb-coverage that enables interfacing the tesbenches with any available simulator and facilitating constrained randomization, coverage respectively. These libraries significantly ease the development of testbenches and have the potential to reduce the setup cost. The goal of this paper is to assess the effectiveness of a Python-Cocotb verification setup with design IPs and compare its features and performance metrics with the current de-facto hardware verification language i.e., SystemVerilog. | 翻訳日:2024-07-22 12:59:07 公開日:2024-05-06 |
# 継続的機能にわたるプロセス変数分析:新しいフレームワーク
Process Variant Analysis Across Continuous Features: A Novel Framework ( http://arxiv.org/abs/2406.04347v1 ) ライセンス: Link先を確認 | Ali Norouzifar, Majid Rafiei, Marcus Dees, Wil van der Aalst, | (参考訳) 情報システムから抽出されたイベントデータは、しばしば、データの複雑で理解が難しい様々なプロセスの実行を含んでいる。
時間的変化のみを識別する現在の研究とは異なり、プロセスのパフォーマンスに影響を及ぼす可能性のある他の次元に注力する。
本研究は, 従来のプロセス分析では見過ごされがちな, ケースの持続時間やリスクスコアなど, 継続的な特徴に基づいて, 運用プロセス内のケースを効果的にセグメント化することの課題に対処するものである。
本研究では, 連続次元における制御フローの挙動変化を検出するために, すべり窓法と地球移動器距離を組み合わせた新しい手法を提案する。
このアプローチは、ケースセグメンテーション、類似セグメントの階層的なマージ、およびそれらのペアワイズ比較を可能にし、プロセスの振る舞いに関する包括的な視点を提供する。
オランダの保険会社UWVと共同で実際のケーススタディを行い,本手法の有効性を実証した。
本研究は, プロセス効率の向上, 異常な動作の指摘, プロセス比較, 結果予測に有用なインプットを提供することで, 組織に貢献する。
Extracted event data from information systems often contain a variety of process executions making the data complex and difficult to comprehend. Unlike current research which only identifies the variability over time, we focus on other dimensions that may play a role in the performance of the process. This research addresses the challenge of effectively segmenting cases within operational processes based on continuous features, such as duration of cases, and evaluated risk score of cases, which are often overlooked in traditional process analysis. We present a novel approach employing a sliding window technique combined with the earth mover's distance to detect changes in control flow behavior over continuous dimensions. This approach enables case segmentation, hierarchical merging of similar segments, and pairwise comparison of them, providing a comprehensive perspective on process behavior. We validate our methodology through a real-life case study in collaboration with UWV, the Dutch employee insurance agency, demonstrating its practical applicability. This research contributes to the field by aiding organizations in improving process efficiency, pinpointing abnormal behaviors, and providing valuable inputs for process comparison, and outcome prediction. | 翻訳日:2024-07-01 08:10:07 公開日:2024-05-06 |
# スペックル構造を用いた胸腹部穿刺ロボットによる高精度手術ナビゲーション
High-precision surgical navigation using speckle structured light-based thoracoabdominal puncture robot ( http://arxiv.org/abs/2406.06478v1 ) ライセンス: Link先を確認 | Zezhao Guo, Yanzhong Guo, Zhanfang Zhao, | (参考訳) 抽象的背景 経皮的穿刺外科手術では、針挿入点が患者の胸部と腹部の体表面に配置される。
軟部組織上の任意の点を特定することで,従来の反射球追跡法を適用することは困難である。
患者の胸部と腹部の体表面は呼吸の変動があり、不規則に見える。
胸と腹部は規則的で滑らかで、明らかな特徴を欠いているため、体表面の針挿入点を見つけることは困難である。
方法 従来の反射型球光学マーカーや磁気位置決め式ナビゲーション・追跡法とは異なる手法を設計・実験する。
患者の体表面を識別し、直径24mmの中空リングに収まるためのスペックル構造光カメラをベースとしている。
実験結果から, 本方式は, 複数角度の物体表面点の小型・柔軟・高精度位置決めが可能であり, 0.033-0.563mmの位置決め精度と7-30フレーム/sの画像が得られることがわかった。
結語 この方法で用いられる位置認識リング材料は、CT下でよく画像化することができるので、体表面の光学的位置決めと、CT下での生体イメージング位置決めを組み合わせ、統合された患者の内外位置決め世界座標を形成して、内外登録を実現することができる。
位置統合。
このシステムは6自由度、上下、前後、左右、全回転で動きを感知し、ミリ秒以下の精度で動きを検知する。
Abstract Background During percutaneous puncture robotic surgical navigation, the needle insertion point is positioned on the patient's chest and abdomen body surface. By locating any point on the soft skin tissue, it is difficult to apply the traditional reflective ball tracking method. The patient's chest and abdomen body surface has fluctuations in breathing and appears irregular. The chest and abdomen are regular and smooth, lacking obvious features, and it is challenging to locate the needle insertion point on the body surface. Methods This paper designs and experiments a method that is different from previous reflective ball optical markers or magnetic positioning surgical navigation and tracking methods. It is based on a speckle structured light camera to identify the patient's body surface and fit it into a hollow ring with a diameter of 24mm. Results Experimental results show that this method of the system can be small, flexible, and high-precision positioning of any body surface point at multiple angles, achieving a positioning accuracy of 0.033-0.563mm and an image of 7-30 frames/s. Conclusions The positioning recognition ring material used in this method can be well imaged under CT, so the optical positioning of the body surface and the in vivo imaging positioning under CT can be combined to form a unified patient's internal and external positioning world coordinates to achieve internal and external registration. Positioning integration. The system senses motion with six degrees of freedom, up and down, front and back, left and right, and all rotations, with sub-millimeter accuracy, and has broad application prospects in future puncture surgeries. | 翻訳日:2024-07-01 08:10:07 公開日:2024-05-06 |
# SparrowSNN: エネルギー効率の良いECG分類のためのハードウェア/ソフトウェア共同設計
SparrowSNN: A Hardware/software Co-design for Energy Efficient ECG Classification ( http://arxiv.org/abs/2406.06543v1 ) ライセンス: Link先を確認 | Zhanglu Yan, Zhenyu Bai, Tulika Mitra, Weng-Fai Wong, | (参考訳) 心臓病は世界中の死因の1つである。
リスクが高く、しばしば非対称的な性質を考えると、リアルタイムの継続的監視が不可欠である。
従来の人工ニューラルネットワーク(ANN)とは異なり、スパイクニューラルネットワーク(SNN)はそのエネルギー効率でよく知られている。
しかしながら、心臓疾患を検出するためのSNN実装の現在のエネルギー測定は、しばしばハードウェアのオーバーヘッドを見下ろす経験的値に依存している。
さらに、SNNの整数とファイアアクティベーションは、複数のメモリアクセスと繰り返し計算を必要とするため、エネルギー効率をさらに損なう可能性がある。
本稿では、ハードウェアの観点から標準SNNワークフローを再設計したsparrowSNNを提案し、心拍分類に使用される超低消費電力ウェアラブルデバイスに最適化されたSNN専用のASIC設計を提案する。
MIT-BIHデータセットを用いて、我々のSNNはSNNに対して98.29%の最先端の精度を達成し、エネルギー消費量は6.1uW当たり31.39nJ、エネルギー使用量は6.1uWである。
また、SNNと量子化ANNのエネルギー対精度のトレードオフを比較し、SNNの使用方法に関する洞察を提供する。
Heart disease is one of the leading causes of death worldwide. Given its high risk and often asymptomatic nature, real-time continuous monitoring is essential. Unlike traditional artificial neural networks (ANNs), spiking neural networks (SNNs) are well-known for their energy efficiency, making them ideal for wearable devices and energy-constrained edge computing platforms. However, current energy measurement of SNN implementations for detecting heart diseases typically rely on empirical values, often overlooking hardware overhead. Additionally, the integer and fire activations in SNNs require multiple memory accesses and repeated computations, which can further compromise energy efficiency. In this paper, we propose sparrowSNN, a redesign of the standard SNN workflow from a hardware perspective, and present a dedicated ASIC design for SNNs, optimized for ultra-low power wearable devices used in heartbeat classification. Using the MIT-BIH dataset, our SNN achieves a state-of-the-art accuracy of 98.29% for SNNs, with energy consumption of 31.39nJ per inference and power usage of 6.1uW, making sparrowSNN the highest accuracy with the lowest energy use among comparable systems. We also compare the energy-to-accuracy trade-offs between SNNs and quantized ANNs, offering recommendations on insights on how best to use SNNs. | 翻訳日:2024-07-01 08:00:19 公開日:2024-05-06 |
# SWE-agent: エージェント・コンピュータ・インタフェースによるソフトウェア・エンジニアリングの自動化
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering ( http://arxiv.org/abs/2405.15793v1 ) ライセンス: Link先を確認 | John Yang, Carlos E. Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao, Karthik Narasimhan, Ofir Press, | (参考訳) ソフトウェアエンジニアリングは、コード生成とコンピュータとのインタラクションの両方に熟練を必要とする困難なタスクである。
本稿では,ソフトウェア工学の課題を解決するために,言語モデルを用いてコンピュータと対話する自律システムであるSWE-agentを紹介する。
カスタマイズされたエージェント・コンピュータ・インタフェース(ACI)は、エージェントがコードファイルを作成し、編集し、リポジトリ全体をナビゲートし、プログラムを実行する能力を大幅に向上させることを示す。
SWE-benchでは、SWE-agentは12.5%の問題を解決することができる。
ACI設計がエージェントの行動とパフォーマンスにどのように影響するかを考察し、効果的な設計に関する洞察を提供する。
Software engineering is a challenging task requiring proficiency in both code generation and interacting with computers. In this paper, we introduce SWE-agent, an autonomous system that uses a language model to interact with a computer to solve software engineering tasks. We show that a custom-built agent-computer interface (ACI) greatly enhances the ability of an agent to create and edit code files, navigate entire repositories and execute programs. On SWE-bench, SWE-agent is able to solve 12.5% of issues, compared to the previous best of 3.8% achieved with retrieval-augmented generation (RAG). We explore how ACI design impacts an agent's behavior and performance, and provide insights on effective design. | 翻訳日:2024-06-02 14:39:48 公開日:2024-05-06 |
# アスファルト舗装の機能性能に対する保守政策の長期的影響評価のための因果推論手法
Causal inference approach to appraise long-term effects of maintenance policy on functional performance of asphalt pavements ( http://arxiv.org/abs/2405.10329v1 ) ライセンス: Link先を確認 | Lingyun You, Nanning Guo, Zhengwu Long, Fusong Wang, Chundi Si, Aboelkasim Diab, | (参考訳) 最も一般的な交通インフラであるアスファルト舗装は、繰り返しの交通負荷や連続的な気候周期によるストレスやひずみによる機能的または構造的損傷による交通安全上の深刻な問題を引き起こす傾向がある。
インフラネットワークの品質や高いサービス性は、国家の都市化と産業発展に不可欠である。
アスファルト舗装の優れた機能舗装性能を維持し, 寿命を延ばすためには, 維持方針の下での舗装の長期性能を評価し, 舗装条件に基づいて好適な選択肢を選択する必要がある。
保守政策を評価する上での大きな課題は、車両負荷の不確実性の制御と、気候環境における凍結ソーサイクルの障害による結果評価の有効な治療を行うことである。
本研究では,従来の因果構造モデルと潜在的結果モデルフレームワークを組み合わせた新たな因果推論手法を提案する。
3つの根本的な問題に注意が向けられた。
1)環境負荷下における変数前の因果関係の検出(因果構造同定)
2 共変量以外の結果に対する治療の直接的な因果効果(因果効果の特定)及び
3)因果関係の感度解析
その結果, 本手法は, 予防的維持治療の効果を正確に評価し, 異なる予防的維持アプローチの機能を十分に発揮するための維持時間を評価できることが示唆された。
この枠組みは、政策立案者が舗装の適切な保守戦略を開発するのに役立つ。
Asphalt pavements as the most prevalent transportation infrastructure, are prone to serious traffic safety problems due to functional or structural damage caused by stresses or strains imposed through repeated traffic loads and continuous climatic cycles. The good quality or high serviceability of infrastructure networks is vital to the urbanization and industrial development of nations. In order to maintain good functional pavement performance and extend the service life of asphalt pavements, the long-term performance of pavements under maintenance policies needs to be evaluated and favorable options selected based on the condition of the pavement. A major challenge in evaluating maintenance policies is to produce valid treatments for the outcome assessment under the control of uncertainty of vehicle loads and the disturbance of freeze-thaw cycles in the climatic environment. In this study, a novel causal inference approach combining a classical causal structural model and a potential outcome model framework is proposed to appraise the long-term effects of four preventive maintenance treatments for longitudinal cracking over a 5-year period of upkeep. Three fundamental issues were brought to our attention: 1) detection of causal relationships prior to variables under environmental loading (identification of causal structure); 2) obtaining direct causal effects of treatment on outcomes excluding covariates (identification of causal effects); and 3) sensitivity analysis of causal relationships. The results show that the method can accurately evaluate the effect of preventive maintenance treatments and assess the maintenance time to cater well for the functional performance of different preventive maintenance approaches. This framework could help policymakers to develop appropriate maintenance strategies for pavements. | 翻訳日:2024-05-27 03:17:55 公開日:2024-05-06 |
# 人工知能の光における研究情報:品質とデータ生態学
Research information in the light of artificial intelligence: quality and data ecologies ( http://arxiv.org/abs/2405.12997v1 ) ライセンス: Link先を確認 | Otmane Azeroual, Tibor Koltay, | (参考訳) 本稿では,研究情報に適したAI技術を見つけるための多分野間アプローチを提案する。
RIM(Professional Research Information Management)は、研究者にとってデータ駆動型ツールとしてますます重要になりつつある。
これは科学知識プロセスの基礎であるだけでなく、他のデータにも関係している。
プロジェクトの開始からRIMにおけるAIメソッドの継続的な運用までの基本段階の概念とプロセスモデルが提示され、大学や研究機関がRIMに格納されている間、不正で不完全な研究情報を扱う際に、研究者を支援することを目的としたAIプロジェクトの実装が説明される。
我々の目的は、研究機関や大学各部署が協力し、研究情報やデータ管理を改善するために適切な支援を行う場合、研究情報がAIに関連するデータリテラシーやデータ品質の問題とどのように調和するかを示すことである。
This paper presents multi- and interdisciplinary approaches for finding the appropriate AI technologies for research information. Professional research information management (RIM) is becoming increasingly important as an expressly data-driven tool for researchers. It is not only the basis of scientific knowledge processes, but also related to other data. A concept and a process model of the elementary phases from the start of the project to the ongoing operation of the AI methods in the RIM is presented, portraying the implementation of an AI project, meant to enable universities and research institutions to support their researchers in dealing with incorrect and incomplete research information, while it is being stored in their RIMs. Our aim is to show how research information harmonizes with the challenges of data literacy and data quality issues, related to AI, also wanting to underline that any project can be successful if the research institutions and various departments of universities, involved work together and appropriate support is offered to improve research information and data management. | 翻訳日:2024-05-27 03:08:05 公開日:2024-05-06 |
# ERAGent: 精度、効率、パーソナライゼーションを改善した検索言語モデルの強化
ERAGent: Enhancing Retrieval-Augmented Language Models with Improved Accuracy, Efficiency, and Personalization ( http://arxiv.org/abs/2405.06683v1 ) ライセンス: Link先を確認 | Yunxiao Shi, Xing Zi, Zijing Shi, Haimin Zhang, Qiang Wu, Min Xu, | (参考訳) 言語モデルのための検索拡張生成(RAG)は言語理解システムを大幅に改善する。
応答生成の基本的な検索対象のパイプラインは、様々なコンポーネントの統合によってより拡張されたプロセスへと進化し、時にはループ構造も形成されている。
応答精度の向上が進んでいるにもかかわらず、多面的意味情報の検索を必要とする複雑な質問に対する検索品質の低下、長期提供中の知識の再検索の効率の低下、パーソナライズされた応答の欠如といった課題が続いている。
これらの制限を超越して、RAG領域の進歩を具現化した最先端のフレームワークであるERAGentを導入する。
我々の貢献は、より良い検索品質を得るために、シナジスティックに操作されたモジュールである強化質問リライタと知識フィルタの導入である。
Retrieval Triggerは、応答品質を犠牲にすることなく、外部知識検索を効率化するために組み込まれている。
ERAGentは学習したユーザープロファイルを組み込むことで応答をパーソナライズする。
ERAGentの効率性とパーソナライズ特性はExperiential Learnerモジュールによって支えられている。
6つのデータセットと3つの質問応答タスクにわたる厳密な評価は、ERAGentの優れた精度、効率、パーソナライゼーションを証明し、RAG分野を前進させる可能性と実用システムへの適用性を強調した。
Retrieval-augmented generation (RAG) for language models significantly improves language understanding systems. The basic retrieval-then-read pipeline of response generation has evolved into a more extended process due to the integration of various components, sometimes even forming loop structures. Despite its advancements in improving response accuracy, challenges like poor retrieval quality for complex questions that require the search of multifaceted semantic information, inefficiencies in knowledge re-retrieval during long-term serving, and lack of personalized responses persist. Motivated by transcending these limitations, we introduce ERAGent, a cutting-edge framework that embodies an advancement in the RAG area. Our contribution is the introduction of the synergistically operated module: Enhanced Question Rewriter and Knowledge Filter, for better retrieval quality. Retrieval Trigger is incorporated to curtail extraneous external knowledge retrieval without sacrificing response quality. ERAGent also personalizes responses by incorporating a learned user profile. The efficiency and personalization characteristics of ERAGent are supported by the Experiential Learner module which makes the AI assistant being capable of expanding its knowledge and modeling user profile incrementally. Rigorous evaluations across six datasets and three question-answering tasks prove ERAGent's superior accuracy, efficiency, and personalization, emphasizing its potential to advance the RAG field and its applicability in practical systems. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-06 |
# QuakeBERT: 迅速な地震影響評価のためのソーシャルメディアテキストの正確な分類
QuakeBERT: Accurate Classification of Social Media Texts for Rapid Earthquake Impact Assessment ( http://arxiv.org/abs/2405.06684v1 ) ライセンス: Link先を確認 | Jin Han, Zhe Zheng, Xin-Zheng Lu, Ke-Yin Chen, Jia-Rui Lin, | (参考訳) ソーシャルメディアは災害対応を援助するが、騒音に悩まされ、正確な影響評価やレジリエントな都市の決定を妨げている。
そこで本研究では,第1のドメイン固有LLMモデルと,地震の早期影響評価のための統合手法を提案する。
まず, 地震の物理的, 社会的影響を考慮し, マイクロブラッグを分類・フィルタリングするためにいくつかのカテゴリを導入し, 異なる場所にある20の地震から7282個の地震関連マイクロブロッグからなるデータセットを開発した。
次に,様々な要因を体系的に分析し,ドメイン固有大言語モデル(LLM)であるQuakeBERTを開発し,マイクロブロッグの正確な分類とフィルタリングを行う。
一方, 世論傾向分析, 感情分析, キーワードに基づく身体的影響定量化を統合した統合的手法を導入し, ソーシャル・メディア・テキストに基づく地震の物理的影響と社会的影響の両方を評価する。
実験の結果、データの多様性とデータボリュームがQuakeBERTの性能を上回り、マクロ平均F1スコアを27%増加させる一方、最良の分類モデルQuakeBERTはマクロ平均F1スコアを60.87%から84.33%に改善することでCNNまたはRNNベースのモデルより優れていることが示された。
最後に, 提案手法を適用した2つの地震の震度と震源深度を同程度に評価する。
提案手法は, 騒音を正確に検出することで, 影響評価プロセスを効果的に向上し, より回復力のある都市を創出できることを示す。
Social media aids disaster response but suffers from noise, hindering accurate impact assessment and decision making for resilient cities, which few studies considered. To address the problem, this study proposes the first domain-specific LLM model and an integrated method for rapid earthquake impact assessment. First, a few categories are introduced to classify and filter microblogs considering their relationship to the physical and social impacts of earthquakes, and a dataset comprising 7282 earthquake-related microblogs from twenty earthquakes in different locations is developed as well. Then, with a systematic analysis of various influential factors, QuakeBERT, a domain-specific large language model (LLM), is developed and fine-tuned for accurate classification and filtering of microblogs. Meanwhile, an integrated method integrating public opinion trend analysis, sentiment analysis, and keyword-based physical impact quantification is introduced to assess both the physical and social impacts of earthquakes based on social media texts. Experiments show that data diversity and data volume dominate the performance of QuakeBERT and increase the macro average F1 score by 27%, while the best classification model QuakeBERT outperforms the CNN- or RNN-based models by improving the macro average F1 score from 60.87% to 84.33%. Finally, the proposed approach is applied to assess two earthquakes with the same magnitude and focal depth. Results show that the proposed approach can effectively enhance the impact assessment process by accurate detection of noisy microblogs, which enables effective post-disaster emergency responses to create more resilient cities. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-06 |
# マルチジャンルAIによるストーリー構成
Multigenre AI-powered Story Composition ( http://arxiv.org/abs/2405.06685v1 ) ライセンス: Link先を確認 | Edirlei Soares de Lima, Margot M. E. Neggers, Antonio L. Furtado, | (参考訳) 本稿では,対話型ストーリーコンポジションを主題的整合性を実現する方法として,ジャンルパターンの構築方法を示す。
議論を始めるために、我々は、以前の叙事詩作品に基づいて、喜劇、ロマンスという5つの基本的なジャンル、すなわち叙事詩のプロットの意味において、悲劇、風刺、ミステリーの存在について論じる。
パターンを構成するには、まずジャンルの特徴にマッチする例を検索し、次にそれらの共通点を見つけるために例のグループに最も具体的な一般化の形式を適用する。
どちらのフェーズにおいても、AIエージェントは有効であり、私たちのPatternTellerプロトタイプはストーリーコンポジションプロセスを操作するために呼び出され、ユーザの所定の前提からストーリーを生成する機会を提供し、選択されたパターンのガイダンスの下で開発され、コンポジションステージに沿ってユーザの提案を適合させようとする。
This paper shows how to construct genre patterns, whose purpose is to guide interactive story composition in a way that enforces thematic consistency. To start the discussion we argue, based on previous seminal works, for the existence of five fundamental genres, namely comedy, romance - in the sense of epic plots, flourishing since the twelfth century -, tragedy, satire, and mystery. To construct the patterns, a simple two-phase process is employed: first retrieving examples that match our genre characterizations, and then applying a form of most specific generalization to the groups of examples in order to find their commonalities. In both phases, AI agents are instrumental, with our PatternTeller prototype being called to operate the story composition process, offering the opportunity to generate stories from a given premise of the user, to be developed under the guidance of the chosen pattern and trying to accommodate the user's suggestions along the composition stages. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-06 |
# Word2World: 大きな言語モデルによるストーリーと世界の生成
Word2World: Generating Stories and Worlds through Large Language Models ( http://arxiv.org/abs/2405.06686v1 ) ライセンス: Link先を確認 | Muhammad U. Nasir, Steven James, Julian Togelius, | (参考訳) 大規模言語モデル(LLM)は様々な分野にまたがってその価値を証明している。
LLMは、手続き的コンテンツ生成(PCG)にも大きな可能性を示しているが、事前訓練されたLCMを通して直接レベルを生成することは依然として困難である。
この研究は、LLMがタスク固有の微調整なしにストーリーを通して手続き的にプレイ可能なゲームを設計できるシステムであるWord2Worldを紹介した。
Word2WorldはLLMの能力を活用して多様なコンテンツを作成し、情報を抽出する。
これらの能力を組み合わせることで、LLMはゲームのためのストーリーを作成し、物語をデザインし、タイルを適切な場所に配置し、コヒーレントな世界やプレイ可能なゲームを作ることができる。
我々は異なるLLMでWord2Worldをテストし、それぞれのステップを検証するために徹底的なアブレーション研究を行う。
私たちはhttps://github.com/umair-nasir14/Word2World.orgでコードをオープンソース化しました。
Large Language Models (LLMs) have proven their worth across a diverse spectrum of disciplines. LLMs have shown great potential in Procedural Content Generation (PCG) as well, but directly generating a level through a pre-trained LLM is still challenging. This work introduces Word2World, a system that enables LLMs to procedurally design playable games through stories, without any task-specific fine-tuning. Word2World leverages the abilities of LLMs to create diverse content and extract information. Combining these abilities, LLMs can create a story for the game, design narrative, and place tiles in appropriate places to create coherent worlds and playable games. We test Word2World with different LLMs and perform a thorough ablation study to validate each step. We open-source the code at https://github.com/umair-nasir14/Word2World. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-06 |
# 私を雇うか? 職業属性を用いた言語モデルの振る舞いの検討
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes ( http://arxiv.org/abs/2405.06687v1 ) ライセンス: Link先を確認 | Damin Zhang, Yi Zhang, Geetanjali Bihani, Julia Rayz, | (参考訳) さまざまなダウンストリームタスクにおける印象的なパフォーマンスにより、大規模な言語モデル(LLM)は、リクルートやレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。
自然言語データに基づいてトレーニングされたモデルの既知の問題は、人間のバイアスの存在であり、システムの公平性に影響を与える可能性がある。
本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
本フレームワークは,マルチラウンド質問応答によるLCMの行動におけるジェンダーステレオタイプの存在を調査・定量化するために設計されている。
従来の研究に触発されて、権威機関がリリースした標準的な職業分類知識ベースを活用してデータセットを構築した。
我々は3つのLDM(RoBERTa-large, GPT-3.5-turbo, Llama2-70b-chat)を試験したところ、すべてのモデルが人間のバイアスに類似した性別ステレオタイプを示すが、好みは異なることがわかった。
GPT-3.5-turbo と Llama2-70b-chat の異なる選好は、現在のアライメント法が偏りを損なうには不十分であり、従来のジェンダーステレオタイプと矛盾する新しいバイアスをもたらす可能性を示唆している。
With the impressive performance in various downstream tasks, large language models (LLMs) have been widely integrated into production pipelines, like recruitment and recommendation systems. A known issue of models trained on natural language data is the presence of human biases, which can impact the fairness of the system. This paper investigates LLMs' behavior with respect to gender stereotypes, in the context of occupation decision making. Our framework is designed to investigate and quantify the presence of gender stereotypes in LLMs' behavior via multi-round question answering. Inspired by prior works, we construct a dataset by leveraging a standard occupation classification knowledge base released by authoritative agencies. We tested three LLMs (RoBERTa-large, GPT-3.5-turbo, and Llama2-70b-chat) and found that all models exhibit gender stereotypes analogous to human biases, but with different preferences. The distinct preferences of GPT-3.5-turbo and Llama2-70b-chat may imply the current alignment methods are insufficient for debiasing and could introduce new biases contradicting the traditional gender stereotypes. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-06 |
# MEET: 木をベースとしたSEMGハンドジェスチャ識別の専門家の混在
MEET: Mixture of Experts Extra Tree-Based sEMG Hand Gesture Identification ( http://arxiv.org/abs/2405.09562v1 ) ライセンス: Link先を確認 | Naveen Gehlot, Ashutosh Jena, Rajesh Kumar, Mahipal Bukya, | (参考訳) 近年、人工知能(AI)は大きな進歩を遂げ、バイオメディカル、ロボティクス、教育、産業など様々な分野の応用を探求する新たな可能性を開いた。
これらの分野の中で、ヒトの手のジェスチャー認識は、近年、筋電図(EMG)を用いたロボットの手の動き制御の研究分野として注目されている研究対象である。
表面筋電図(sEMG)は筋電図で用いられる主要な技法であり、非侵襲的な性質から人気があり、前腕表面に置かれた信号取得装置を用いてジェスチャーの動きを捉えている。
さらに、これらの信号は、時間と周波数領域分析を通じて、重要な手作り特徴を抽出するために前処理される。
これらは便利で、手の動きを特定する機械学習(ML)モデルへの入力として機能する。
しかし、複数のクラスとバイアスを扱うことは、MLモデルの性能に影響を与える大きな制限である。
そこで,この問題に対処するために,より正確で効果的な手の動きを特定するために,MEET(Expert Extra Tree)モデルが新たに提案されている。
このモデルは専門家と呼ばれる個々のMLモデルを組み合わせており、それぞれが最小限の2つのクラスに焦点を当てている。
さらに、ゲートとして知られる完全に訓練されたモデルを用いて、個々の専門家モデルの出力を計測する。
ゲートモデルと専門家モデルの融合は、専門家追加木(MEET)モデルの混合として知られている。
本研究は,手の動きが6つある4つの被験者について検討し,その識別をMEET分類器を含む11種類のモデルで評価した。
その結果,MEET分類器は他のアルゴリズムの中で最も優れており,手の動きを正確に識別できることがわかった。
Artificial intelligence (AI) has made significant advances in recent years and opened up new possibilities in exploring applications in various fields such as biomedical, robotics, education, industry, etc. Among these fields, human hand gesture recognition is a subject of study that has recently emerged as a research interest in robotic hand control using electromyography (EMG). Surface electromyography (sEMG) is a primary technique used in EMG, which is popular due to its non-invasive nature and is used to capture gesture movements using signal acquisition devices placed on the surface of the forearm. Moreover, these signals are pre-processed to extract significant handcrafted features through time and frequency domain analysis. These are helpful and act as input to machine learning (ML) models to identify hand gestures. However, handling multiple classes and biases are major limitations that can affect the performance of an ML model. Therefore, to address this issue, a new mixture of experts extra tree (MEET) model is proposed to identify more accurate and effective hand gesture movements. This model combines individual ML models referred to as experts, each focusing on a minimal class of two. Moreover, a fully trained model known as the gate is employed to weigh the output of individual expert models. This amalgamation of the expert models with the gate model is known as a mixture of experts extra tree (MEET) model. In this study, four subjects with six hand gesture movements have been considered and their identification is evaluated among eleven models, including the MEET classifier. Results elucidate that the MEET classifier performed best among other algorithms and identified hand gesture movement accurately. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-06 |
# ストレス型物質! - 生理的ストレス検出のクロスデータセットの一般化性に影響を与える因子を探索する
Stressor Type Matters! -- Exploring Factors Influencing Cross-Dataset Generalizability of Physiological Stress Detection ( http://arxiv.org/abs/2405.09563v1 ) ライセンス: Link先を確認 | Pooja Prajod, Bhargavi Mahesh, Elisabeth André, | (参考訳) 心拍変動(HRV)機能を用いた自動ストレス検出は、心電図(ECG)や血液量パルス(BVP)などの信号を測定する非邪魔なウェアラブルセンサーを使用することで、大きな注目を集めている。
しかし、そのような生理的信号によるストレス検出は、知覚的なストレス強度や測定装置などの要因に影響された記録信号のばらつきにより、かなり困難である。
その結果、あるデータセット上で開発されたストレス検出モデルは、異なる条件下で収集された目に見えないデータに対して不十分に動作する可能性がある。
この課題に対処するために、二元応力検出のためのHRV機能に基づいて訓練された機械学習モデルの一般化可能性について検討する。
我々の目標は、一般化性能を評価することを超えて、一般化可能性に最も大きな影響を及ぼすデータセットの特徴を特定することを目的としている。
我々は、ストレス誘発技術、ストレス強度、センサーデバイスなど、少なくとも1つの特性の1つが異なる4つの公開ストレスデータセット(WESAD、SWELL-KW、ForDigitStress、VerBIO)を活用している。
クロスデータセット評価手法を用いて、これらの特徴のどれがモデルの一般化可能性に強く影響するかを考察する。
以上の結果から,モデル一般化可能性に重要な因子であるストレスタイプが示唆された。
モデルがデータセット全体にわたって優れたパフォーマンスを達成したのは,ストレスの種類(例えば,私たちの場合の社会的ストレス)が一貫している場合です。
ストレス強度や測定装置のブランドなどの要因は、データセット間のパフォーマンスに最小限の影響を及ぼした。
本研究は,新しい環境にHRVベースのストレスモデルを展開する際のストレスタイプをマッチングすることを推奨する。
我々の知る限りでは、HRVベースのストレスモデルのクロスデータセット適用性に影響を与える要因を体系的に研究するのはこれが初めてである。
Automatic stress detection using heart rate variability (HRV) features has gained significant traction as it utilizes unobtrusive wearable sensors measuring signals like electrocardiogram (ECG) or blood volume pulse (BVP). However, detecting stress through such physiological signals presents a considerable challenge owing to the variations in recorded signals influenced by factors, such as perceived stress intensity and measurement devices. Consequently, stress detection models developed on one dataset may perform poorly on unseen data collected under different conditions. To address this challenge, this study explores the generalizability of machine learning models trained on HRV features for binary stress detection. Our goal extends beyond evaluating generalization performance; we aim to identify the characteristics of datasets that have the most significant influence on generalizability. We leverage four publicly available stress datasets (WESAD, SWELL-KW, ForDigitStress, VerBIO) that vary in at least one of the characteristics such as stress elicitation techniques, stress intensity, and sensor devices. Employing a cross-dataset evaluation approach, we explore which of these characteristics strongly influence model generalizability. Our findings reveal a crucial factor affecting model generalizability: stressor type. Models achieved good performance across datasets when the type of stressor (e.g., social stress in our case) remains consistent. Factors like stress intensity or brand of the measurement device had minimal impact on cross-dataset performance. Based on our findings, we recommend matching the stressor type when deploying HRV-based stress models in new environments. To the best of our knowledge, this is the first study to systematically investigate factors influencing the cross-dataset applicability of HRV-based stress models. | 翻訳日:2024-05-19 13:49:26 公開日:2024-05-06 |
# 二次制約付き混合整数問題における非有界性への対処
Addressing Unboundedness in Quadratically-Constrained Mixed-Integer Problems ( http://arxiv.org/abs/2405.05978v1 ) ライセンス: Link先を確認 | Guy Zepko, Ofer M. Shir, | (参考訳) 二次的に制約された非有界整数プログラムは決定不能であることの区別を保ち、数学的プログラミング(MP)技法のソフトスポットの可能性を示し、そうでなければ整数や混合整数(MI)問題を扱うのに良い選択となる。
非有界決定変数と2次制約を対象とするMI凸2次目的関数の最小化という課題を考察する。
このようなモデルを扱うためのホワイトボックスMPソルバの理論的弱点を考えると、我々は進化戦略(ES)ファミリーのブラックボックスメタヒューリスティックスに目を向け、この課題を解決する能力に疑問を投げかける。
CPLEXソルバの性能を、ペナルティによる制約を扱う最先端MI ESと比較する。
我々の系統的な調査は、CPLEXソルバが困難(探索空間の次元が増加するにつれてタイムアウト)に遭遇するところから始まり、詳細な分析によって報告する。
全体として、ブラックボックスとホワイトボックスのソルバは、特に制約関数が分離可能であり、2つの一般的なESの突然変異作用素が整数の非有界性を効果的に扱うことができる場合、競合可能であることが実証された。
また, 条件付けと分離性は, このMI問題の複雑性を決定する上での直感的な要因ではないと結論づけた。
Quadratically-constrained unbounded integer programs hold the distinction of being undecidable, suggesting a possible soft-spot for Mathematical Programming (MP) techniques, which otherwise constitute a good choice to treat integer or mixed-integer (MI) problems. We consider the challenge of minimizing MI convex quadratic objective functions subject to unbounded decision variables and quadratic constraints. Given the theoretical weakness of white-box MP solvers to handle such models, we turn to black-box meta-heuristics of the Evolution Strategies (ESs) family, and question their capacity to solve this challenge. Through an empirical assessment of quadratically-constrained quadratic objective functions, across varying Hessian forms and condition numbers, we compare the performance of the CPLEX solver to state-of-the-art MI ESs, which handle constraints by penalty. Our systematic investigation begins where the CPLEX solver encounters difficulties (timeouts as the search-space dimensionality increases, (D>=30), on which we report by means of detailed analyses. Overall, the empirical observations confirm that black-box and white-box solvers can be competitive, especially when the constraint function is separable, and that two common ESs' mutation operators can effectively handle the integer unboundedness. We also conclude that conditioning and separability are not intuitive factors in determining the complexity of this class of MI problems, where regular versus rough landscape structures can pose mirrored degrees of challenge for MP versus ESs. | 翻訳日:2024-05-13 17:45:54 公開日:2024-05-06 |
# PETでゲームをする: 部分探索ツールを確率ゲームに拡張
Playing Games with your PET: Extending the Partial Exploration Tool to Stochastic Games ( http://arxiv.org/abs/2405.03885v1 ) ライセンス: Link先を確認 | Tobias Meggendorfer, Maximilian Weininger, | (参考訳) 本稿では,確率システムの検証ツールである部分探索ツール(PET)のバージョン2.0を提案する。
我々は,最近,音価反復アルゴリズムの統一化フレームワークに基づいて,確率ゲームのサポートを追加することで,前バージョンを拡張した。
これにより、PET2は、型到達性と安全性、平均ペイオフを目標とした確率ゲームを解決するための、音質と効率のよいアプローチを最初に実装したツールである。
我々は,3つの目的すべてに対して部分探索に基づく変種を開発し,実装することで,このアプローチを補完する。
実験の結果,PET2は最も効率的な部分探索に基づくアルゴリズムであり,SG上では最も有効なツールであり,非音響ツールよりも優れていた。
We present version 2.0 of the Partial Exploration Tool (PET), a tool for verification of probabilistic systems. We extend the previous version by adding support for stochastic games, based on a recent unified framework for sound value iteration algorithms. Thereby, PET2 is the first tool implementing a sound and efficient approach for solving stochastic games with objectives of the type reachability/safety and mean payoff. We complement this approach by developing and implementing a partial-exploration based variant for all three objectives. Our experimental evaluation shows that PET2 offers the most efficient partial-exploration based algorithm and is the most viable tool on SGs, even outperforming unsound tools. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-06 |
# ノイズ付加のない個人的フェデレーション学習はいつ可能か?
Differentially Private Federated Learning without Noise Addition: When is it Possible? ( http://arxiv.org/abs/2405.04551v1 ) ライセンス: Link先を確認 | Jiang Zhang, Yahya H Ezzeldin, Ahmed Roushdy Elkordy, Konstantinos Psounis, Salman Avestimehr, | (参考訳) セキュアアグリゲーション(SA)を備えたフェデレートラーニング(FL)は、マシンラーニングモデルをトレーニングするためのプライバシ保護フレームワークとして注目され、サーバが個々の暗号化モデル更新からユーザのデータに関する情報を学習するのを防ぐ。
最近の研究は、他のユーザの更新から"ノイズ"を活用することで、複数のトレーニングラウンドで集約モデルを通じて情報漏洩をバウンドすることで、FLとSAのプライバシー保証を拡張している。
しかし、その作業で使われるプライバシー基準(ミューチュアル情報)は、最悪の場合のプライバシー保証を提供することなく、平均的なプライバシー漏洩を測定する。
この問題に対処するため、本研究では、FLとSAが最悪の場合の差分プライバシー保証を提供できる条件について検討する。
具体的には,SA が付加ノイズを伴わずに DP を提供するために必要な条件を正式に同定する。
次に、集約されたモデル更新のランダム性が非特異な共分散行列を持つガウス的であるとき、SAは共分散行列の最小固有値の逆数によって、プライバシーレベル$\epsilon$の差分プライバシー保証を提供することができることを証明した。
しかし、実際にはこれらの条件はほとんど維持できないため、FLにおけるSAがDPを達成するためには、モデル更新に付加されるノイズが依然として必要であることを示す。
最後に、DP保証に必要な加算雑音の量を削減するために、集約されたモデル更新の内部に固有のランダム性を活用する可能性について論じる。
Federated Learning (FL) with Secure Aggregation (SA) has gained significant attention as a privacy preserving framework for training machine learning models while preventing the server from learning information about users' data from their individual encrypted model updates. Recent research has extended privacy guarantees of FL with SA by bounding the information leakage through the aggregate model over multiple training rounds thanks to leveraging the "noise" from other users' updates. However, the privacy metric used in that work (mutual information) measures the on-average privacy leakage, without providing any privacy guarantees for worse-case scenarios. To address this, in this work we study the conditions under which FL with SA can provide worst-case differential privacy guarantees. Specifically, we formally identify the necessary condition that SA can provide DP without addition noise. We then prove that when the randomness inside the aggregated model update is Gaussian with non-singular covariance matrix, SA can provide differential privacy guarantees with the level of privacy $\epsilon$ bounded by the reciprocal of the minimum eigenvalue of the covariance matrix. However, we further demonstrate that in practice, these conditions are almost unlikely to hold and hence additional noise added in model updates is still required in order for SA in FL to achieve DP. Lastly, we discuss the potential solution of leveraging inherent randomness inside aggregated model update to reduce the amount of addition noise required for DP guarantee. | 翻訳日:2024-05-09 16:14:28 公開日:2024-05-06 |
# 箱の中の古典的加速温度(CAT)
Classical Acceleration Temperature (CAT) in a Box ( http://arxiv.org/abs/2405.04553v1 ) ライセンス: Link先を確認 | Ahsan Mujtaba, Maksat Temirkhan, Yen Chin Ong, Michael R. R. Good, | (参考訳) 閉じ込められた、ゆっくり動く加速電子は熱放射を放出する。
実験室は、直線運動を扱う際に空間的制約に直面しているため、有限の全走行距離に焦点を合わせることは、単純な理論解析の利点とテーブルトップ実験の展望を組み合わせている。
本研究では, 移動距離が一定であり, 最大速度が遅い漸近的に静的な世界線に沿って加速された移動電荷を示し, 自己整合解析パワー, スペクトル, エネルギーを出力する。
古典的な放射線は、関連する加速温度で分布するプランクである。
これは、完全にパラメタ化され、スペクトル分解され、有限距離の世界線である。
A confined, slow-moving, accelerating electron is shown to emit thermal radiation. Since laboratories face spatial constraints when dealing with rectilinear motion, focusing on a finite total travel distance combines the benefits of simple theoretical analysis with prospects for table-top experimentation. We demonstrate an accelerated moving charge along an asymptotically static worldline with fixed transit distance and slow maximum speed, emitting self-consistent analytic power, spectra, and energy. The classical radiation is Planck distributed with an associated acceleration temperature. This is the first fully parametrized, spectrum-solved, finite-distance worldline. | 翻訳日:2024-05-09 16:04:43 公開日:2024-05-06 |
# 個人密度推定を用いた微分プライベート合成データ
Differentially Private Synthetic Data with Private Density Estimation ( http://arxiv.org/abs/2405.04554v1 ) ライセンス: Link先を確認 | Nikolija Bojkovic, Po-Ling Loh, | (参考訳) 医療記録や財務データなどの機密データを分析する必要性は、近年、重要な研究課題を生み出している。
本稿では、差分プライバシーの枠組みを採用し、元のデータの特徴を正確に把握するデータセット全体を生成するメカニズムを探求する。
我々はBoedihardjoらの研究に基づいて、プライベートな合成データを生成するための新しい最適化ベースのアルゴリズムの基礎を築いた。
重要なことは、一様サンプリングステップをプライベート分布推定器に置き換えることでアルゴリズムを適応させることで、離散分布に対するより良い計算保証を得ることができ、連続分布に適した新しいアルゴリズムを開発することができる。
また、我々の研究のいくつかの統計的タスクへの応用についても検討する。
The need to analyze sensitive data, such as medical records or financial data, has created a critical research challenge in recent years. In this paper, we adopt the framework of differential privacy, and explore mechanisms for generating an entire dataset which accurately captures characteristics of the original data. We build upon the work of Boedihardjo et al, which laid the foundations for a new optimization-based algorithm for generating private synthetic data. Importantly, we adapt their algorithm by replacing a uniform sampling step with a private distribution estimator; this allows us to obtain better computational guarantees for discrete distributions, and develop a novel algorithm suitable for continuous distributions. We also explore applications of our work to several statistical tasks. | 翻訳日:2024-05-09 16:04:43 公開日:2024-05-06 |
# $k$-NNレグレッションにおける$k$の選択のための最小不一致原理戦略
Minimum discrepancy principle strategy for choosing $k$ in $k$-NN regression ( http://arxiv.org/abs/2008.08718v5 ) ライセンス: Link先を確認 | Yaroslav Averyanov, Alain Celisse, | (参考訳) ホールドアウトデータを使わずに、$k$-NN回帰推定器でハイパーパラメータ$k$を選択するための新しいデータ駆動戦略を提案する。
我々は,ハイパーパラメータを反復的手順 ($k$以上) として選択する問題を扱い,早期停止の考え方と最小差分原理に基づく実践的戦略を用いて提案する。
このモデル選択戦略は、いくつかの滑らかな函数クラス、例えば有界領域上のリプシッツ函数クラスに対する共変量に対する固定設計の仮定の下で、ミニマックス最適であることが証明されている。
この手法は、ホールドアウト法や5倍のクロスバリデーション、AIC基準など、他のモデル選択手法と比較して、人工的および実世界のデータセットの統計性能を向上することが多い。
戦略の新規性は、モデル選択手順の計算時間を減少させ、結果の推定器の統計的(最小限)最適性を保存することから生じる。
より正確には、サイズ$n$のサンプルとして$k$を$\left\{ 1, \ldots, n \right\}$と$\left\{ f^1, \ldots, f^n \right\}$の中から選ぶ必要があるとすると、最小の離散性原理は回帰関数の推定器である。
We present a novel data-driven strategy to choose the hyperparameter $k$ in the $k$-NN regression estimator without using any hold-out data. We treat the problem of choosing the hyperparameter as an iterative procedure (over $k$) and propose using an easily implemented in practice strategy based on the idea of early stopping and the minimum discrepancy principle. This model selection strategy is proven to be minimax-optimal, under the fixed-design assumption on covariates, over some smoothness function classes, for instance, the Lipschitz functions class on a bounded domain. The novel method often improves statistical performance on artificial and real-world data sets in comparison to other model selection strategies, such as the Hold-out method, 5-fold cross-validation, and AIC criterion. The novelty of the strategy comes from reducing the computational time of the model selection procedure while preserving the statistical (minimax) optimality of the resulting estimator. More precisely, given a sample of size $n$, if one should choose $k$ among $\left\{ 1, \ldots, n \right\}$, and $\left\{ f^1, \ldots, f^n \right\}$ are the estimators of the regression function, the minimum discrepancy principle requires calculation of a fraction of the estimators, while this is not the case for the generalized cross-validation, Akaike's AIC criteria or Lepskii principle. | 翻訳日:2024-05-08 20:52:38 公開日:2024-05-06 |
# マルチクラス特徴量に基づくSAR画像マッチングアルゴリズム
SAR image matching algorithm based on multi-class features ( http://arxiv.org/abs/2108.06009v4 ) ライセンス: Link先を確認 | Mazhi Qiang, Fengming Zhou, | (参考訳) 合成開口レーダは24/7と24/7の動作が可能であり、高い適用価値を有する。
マッチングアルゴリズムの堅牢性を高めるために直線と領域の2つの異なる特徴を用いる新しいSAR画像マッチングアルゴリズムを提案する;画像の事前知識とLCD(Line Segment Detector)ライン検出とテンプレートマッチングアルゴリズムを併用することにより、SAR画像のライン特徴と表面特徴の属性相関を解析し、SAR画像のライン特徴と領域特徴を選択して画像に一致するようにすることにより、SAR画像と可視光画像とのマッチング精度を向上し、マッチングエラーの確率を低減する。
実験結果から,本アルゴリズムは高精度なマッチング結果を得ることができ,正確な目標位置決めが可能であり,視点や照明の変化に優れたロバスト性を有することを確認した。
結果は正確であり、偽陽性は制御可能である。
Synthetic aperture radar has the ability to work 24/7 and 24/7, and has high application value. Propose a new SAR image matching algorithm based on multi class features, mainly using two different types of features: straight lines and regions to enhance the robustness of the matching algorithm; On the basis of using prior knowledge of images, combined with LSD (Line Segment Detector) line detection and template matching algorithm, by analyzing the attribute correlation between line and surface features in SAR images, selecting line and region features in SAR images to match the images, the matching accuracy between SAR images and visible light images is improved, and the probability of matching errors is reduced. The experimental results have verified that this algorithm can obtain high-precision matching results, achieve precise target positioning, and has good robustness to changes in perspective and lighting. The results are accurate and false positives are controllable. | 翻訳日:2024-05-08 20:52:38 公開日:2024-05-06 |
# IA-GCN:レコメンデーションのためのインタラクティブグラフ畳み込みネットワーク
IA-GCN: Interactive Graph Convolutional Network for Recommendation ( http://arxiv.org/abs/2204.03827v2 ) ライセンス: Link先を確認 | Yinan Zhang, Pei Wang, Congcong Liu, Xiwei Zhao, Hao Qi, Jie He, Junsheng Jin, Changping Peng, Zhangang Lin, Jingping Shao, | (参考訳) 近年、グラフ畳み込みネットワーク(GCN)は、協調フィルタリング(CF)ベースのRecommender Systems(RS)のための新しい最先端技術となっている。
ユーザ項目の2部グラフに埋め込み伝搬を行い,その表現に基づいてユーザに対してパーソナライズされた項目提案を行うことで,情報的ユーザや項目表現を学習することが一般的である。
有効性にもかかわらず、既存のアルゴリズムは埋め込みプロセスにおけるユーザとイタムのペア間の貴重な対話的特徴を無視している。
異なる項目に対するユーザの好みを予測する際には、ユーザ近傍のターゲット関連情報を強調することなく、同じ方法でユーザツリーを集約する。
このような一様アグリゲーションスキームは、最適化されたユーザとアイテム表現を容易に導き、モデルの表現性をある程度制限する。
本研究では,各ユーザ・イテム間の相互対話型ガイダンスを構築し,IA-GCN(InterActive GCN)と呼ばれる新しいモデルを提案する。
具体的には、近隣からユーザ表現を学習する際に、対象の項目と同様の注意重みを隣人に割り当てる。
それに対応して、アイテム表現を学習する際には、ターゲットユーザに似た隣人にもっと注意を払う。
これは対話的で解釈可能な特徴をもたらし、グラフの畳み込み操作を通じてターゲット固有の情報を効果的に蒸留する。
我々のモデルは、CFのための最先端のGCNモデルであるLightGCNの上に構築されており、エンドツーエンドで様々なGCNベースのCFアーキテクチャと組み合わせることができる。
3つのベンチマークデータセットの大規模な実験は、IA-GCNの有効性と堅牢性を示している。
Recently, Graph Convolutional Network (GCN) has become a novel state-of-art for Collaborative Filtering (CF) based Recommender Systems (RS). It is a common practice to learn informative user and item representations by performing embedding propagation on a user-item bipartite graph, and then provide the users with personalized item suggestions based on the representations. Despite effectiveness, existing algorithms neglect precious interactive features between user-item pairs in the embedding process. When predicting a user's preference for different items, they still aggregate the user tree in the same way, without emphasizing target-related information in the user neighborhood. Such a uniform aggregation scheme easily leads to suboptimal user and item representations, limiting the model expressiveness to some extent. In this work, we address this problem by building bilateral interactive guidance between each user-item pair and proposing a new model named IA-GCN (short for InterActive GCN). Specifically, when learning the user representation from its neighborhood, we assign higher attention weights to those neighbors similar to the target item. Correspondingly, when learning the item representation, we pay more attention to those neighbors resembling the target user. This leads to interactive and interpretable features, effectively distilling target-specific information through each graph convolutional operation. Our model is built on top of LightGCN, a state-of-the-art GCN model for CF, and can be combined with various GCN-based CF architectures in an end-to-end fashion. Extensive experiments on three benchmark datasets demonstrate the effectiveness and robustness of IA-GCN. | 翻訳日:2024-05-08 20:52:38 公開日:2024-05-06 |
# 高次元共変量を用いたヘテロスケダスト性・ローバスト過剰識別制限試験
A Heteroskedasticity-Robust Overidentifying Restriction Test with High-Dimensional Covariates ( http://arxiv.org/abs/2205.00171v3 ) ライセンス: Link先を確認 | Qingliang Fan, Zijian Guo, Ziwei Mei, | (参考訳) 本稿では,高次元線形インスツルメンタル変数モデルに対する過度に同定された制限試験を提案する。
提案した試験の新規性は、共変量や楽器の数がサンプルサイズよりも大きくなることである。
このテストはスケール不変であり、ヘテロスケダティックエラーに対して堅牢である。
最終テスト統計を構築するために,まず高次元の複数のパラメータの最大ノルムに基づくテストを導入する。
最大ノルムに基づく理論的なパワーは、大次元共変体を許容する唯一の既存のテストである修正クラッグ・ドナルドテスト(Koles\'{a}r, 2018)よりも高い。
第2に、パワー強化の原則(Fan et al , 2015)に従って、多くの局所的に無効な機器で極端な代替品を検出するために、漸近的にゼロなコンポーネントを使用したパワー強化試験を導入する。
最後に、貿易・経済成長ネクサスの実証的な例は、提案試験の有用性を示している。
This paper proposes an overidentifying restriction test for high-dimensional linear instrumental variable models. The novelty of the proposed test is that it allows the number of covariates and instruments to be larger than the sample size. The test is scale-invariant and is robust to heteroskedastic errors. To construct the final test statistic, we first introduce a test based on the maximum norm of multiple parameters that could be high-dimensional. The theoretical power based on the maximum norm is higher than that in the modified Cragg-Donald test (Koles\'{a}r, 2018), the only existing test allowing for large-dimensional covariates. Second, following the principle of power enhancement (Fan et al., 2015), we introduce the power-enhanced test, with an asymptotically zero component used to enhance the power to detect some extreme alternatives with many locally invalid instruments. Finally, an empirical example of the trade and economic growth nexus demonstrates the usefulness of the proposed test. | 翻訳日:2024-05-08 20:52:38 公開日:2024-05-06 |
# 交流電力流のニューラルネットワークモデルにおける大域的性能保証
Global Performance Guarantees for Neural Network Models of AC Power Flow ( http://arxiv.org/abs/2211.07125v3 ) ライセンス: Link先を確認 | Samuel Chevalier, Spyros Chatzivasileiadis, | (参考訳) 非常に高速で高精度なブラックボックスサロゲートモデルを生成する機械学習は、様々な交流電力フロー問題にますます応用されている。
しかし、結果のブラックボックスモデルの精度を厳格に検証することは、計算的に困難である。
本稿では, 非線形交流流方程式の基底真理を取り入れ, 最悪のニューラルネットワーク予測誤差を判定するトラクタブルニューラルネットワーク検証手法を提案する。
提案手法は逐次目標追尾 (STT) と呼ばれ, 難解な混合整数二次計画 (MIQP) である元の検証問題の疎凸化を生かしている。
ターゲットカットの逐次追加を用いることで、解が十分にきついか、満足な性能保証が生成されるまで、定式化を反復的に強化する。
14,57,118,200-busのPGLibテストケースのニューラルネットワークモデルを学習した後、STT手順によって生成された性能保証と最先端MIQP解決器であるGurobi 11.0による性能保証を比較した。
STTはMIQPの上界よりもはるかに厳密な性能保証をしばしば生成することを示す。
Machine learning, which can generate extremely fast and highly accurate black-box surrogate models, is increasingly being applied to a variety of AC power flow problems. Rigorously verifying the accuracy of the resulting black-box models, however, is computationally challenging. This paper develops a tractable neural network verification procedure which incorporates the ground truth of the non-linear AC power flow equations to determine worst-case neural network prediction error. Our approach, termed Sequential Targeted Tightening (STT), leverages a loosely convexified reformulation of the original verification problem, which is an intractable mixed integer quadratic program (MIQP). Using the sequential addition of targeted cuts, we iteratively tighten our formulation until either the solution is sufficiently tight or a satisfactory performance guarantee has been generated. After learning neural network models of the 14, 57, 118, and 200-bus PGLib test cases, we compare the performance guarantees generated by our STT procedure with ones generated by a state-of-the-art MIQP solver, Gurobi 11.0. We show that STT often generates performance guarantees which are far tighter than the MIQP upper bound. | 翻訳日:2024-05-08 20:52:38 公開日:2024-05-06 |
# 量子減衰高調波発振器の初期値定式化
Initial value formulation of a quantum damped harmonic oscillator ( http://arxiv.org/abs/2303.04829v2 ) ライセンス: Link先を確認 | Nishant Agarwal, Yi-Zen Chu, | (参考訳) イン・イン・フォーマリズムとその影響する汎化は、それぞれユニタリおよびオープン量子系の平衡外力学を記述するために広く用いられている。
本稿では,これらの手法を用いて量子減衰型高調波発振器の有効理論を開発し,それを用いて初期状態依存性,脱コヒーレンス,熱化の研究を行う。
まず、ガウスの初期状態と二次的影響関数を考え、発振器のグリーン関数の一般方程式を得る。
時間局所散逸の特定の場合の方程式を解き、結果のグリーン関数を用いて振動子の純度と不等時二点相関を求める。
非線形雑音項は、純度について物理的な結果を得るために必要であり、発振器は、深夜密度演算子が熱的であるように、時間的にデコヒーレントである。
しかし, 周波数スペクトルや不等時相関は, 減衰振動子と孤立振動子とを熱平衡で区別し, 減衰振動子に対する一般化されたゆらぎ・消散関係が得られることを示す。
また, 時間非局所散逸も考慮し, 特定の散逸カーネルの選択に対して, ゆらぎ散逸関係が満足していることを示す。
最後に、ガウスの初期状態を超える二重入射経路積分法を開発し、時間局所散逸に対する我々の等時結果が実際に初期状態において非摂動的であることを示す。
The in-in formalism and its influence functional generalization are widely used to describe the out-of-equilibrium dynamics of unitary and open quantum systems, respectively. In this paper, we build on these techniques to develop an effective theory of a quantum damped harmonic oscillator and use it to study initial state-dependence, decoherence, and thermalization. We first consider a Gaussian initial state and quadratic influence functional and obtain general equations for the Green's functions of the oscillator. We solve the equations in the specific case of time-local dissipation and use the resulting Green's functions to obtain the purity and unequal-time two-point correlations of the oscillator. We find that the dynamics must include a non-vanishing noise term to yield physical results for the purity and that the oscillator decoheres in time such that the late-time density operator is thermal. We show that the frequency spectrum or unequal-time correlations can, however, distinguish between the damped oscillator and an isolated oscillator in thermal equilibrium, and obtain a generalized fluctuation-dissipation relation for the damped oscillator. We briefly consider time-nonlocal dissipation as well, to show that the fluctuation-dissipation relation is satisfied for a specific choice of dissipation kernels. Lastly, we develop a double in-out path integral approach to go beyond Gaussian initial states and show that our equal-time results for time-local dissipation are in fact non-perturbative in the initial state. | 翻訳日:2024-05-08 20:42:53 公開日:2024-05-06 |
# MLP-Mixer を広義かつスパースな MLP として理解する
Understanding MLP-Mixer as a Wide and Sparse MLP ( http://arxiv.org/abs/2306.01470v2 ) ライセンス: Link先を確認 | Tomohiro Hayase, Ryo Karakida, | (参考訳) 多層パーセプトロン(MLP)はディープラーニングの基本コンポーネントであり、最近のMLPベースのアーキテクチャ、特にMLP-Mixerは経験的成功を収めている。
それでも、MLP-Mixerが従来のMLPよりも優れている理由と方法に関する我々の理解は、まだ明らかにされていない。
本研究では, MLP-Mixersの基盤となるスパークネスが重要なメカニズムであることを明らかにした。
まず、ミキサーはクロネッカー積重みを持つより広いMLPとして効果的に表現され、ミキサーは深層学習において探索されたいくつかのスパース性特性を効果的に具現化する。
線形層の場合、有効式はモデルアーキテクチャによって引き起こされる暗黙のスパース正規化とモナール行列との隠れ関係を解明する。
次に、一般に、ミキサーと非構造スパース重み付きMLPの量的類似性を実証的に示す。
Golubeva、Neyshabur、Gur-Ari(2021年)によって提案されたガイド原理に従って、接続数を修正し、幅と幅を拡大する。
Multi-layer perceptron (MLP) is a fundamental component of deep learning, and recent MLP-based architectures, especially the MLP-Mixer, have achieved significant empirical success. Nevertheless, our understanding of why and how the MLP-Mixer outperforms conventional MLPs remains largely unexplored. In this work, we reveal that sparseness is a key mechanism underlying the MLP-Mixers. First, the Mixers have an effective expression as a wider MLP with Kronecker-product weights, clarifying that the Mixers efficiently embody several sparseness properties explored in deep learning. In the case of linear layers, the effective expression elucidates an implicit sparse regularization caused by the model architecture and a hidden relation to Monarch matrices, which is also known as another form of sparse parameterization. Next, for general cases, we empirically demonstrate quantitative similarities between the Mixer and the unstructured sparse-weight MLPs. Following a guiding principle proposed by Golubeva, Neyshabur and Gur-Ari (2021), which fixes the number of connections and increases the width and sparsity, the Mixers can demonstrate improved performance. | 翻訳日:2024-05-08 20:33:08 公開日:2024-05-06 |
# 階層型オートエンコーダを用いた大規模高解像度科学データに対するロッシー圧縮
Hierarchical Autoencoder-based Lossy Compression for Large-scale High-resolution Scientific Data ( http://arxiv.org/abs/2307.04216v2 ) ライセンス: Link先を確認 | Hieu Le, Jian Tao, | (参考訳) ロスシー圧縮は多くの領域でデータサイズを減らす重要な技術となっている。
この種の圧縮は、最大数ペタバイトの大規模な科学データに特に有用である。
オートエンコーダベースのモデルは画像やビデオの圧縮にうまく活用されているが、そのようなニューラルネットワークは科学データ領域において広く注目を集めていない。
我々の研究は、大規模な科学的データを著しく圧縮するだけでなく、高い再構成品質も維持するニューラルネットワークを提示する。
提案モデルは,大規模高分解能気候モデルデータセットに適用可能な科学ベンチマークデータを用いて検証した。
本モデルでは,再構成品質を損なうことなく,複数のベンチマークデータセットに対して140の圧縮比を達成している。
高分解能地域地球系モデル(CESM)バージョン1.3から500年以上の2次元シミュレーションデータも圧縮比200で圧縮され、復元誤差は科学的分析には無視されている。
Lossy compression has become an important technique to reduce data size in many domains. This type of compression is especially valuable for large-scale scientific data, whose size ranges up to several petabytes. Although Autoencoder-based models have been successfully leveraged to compress images and videos, such neural networks have not widely gained attention in the scientific data domain. Our work presents a neural network that not only significantly compresses large-scale scientific data, but also maintains high reconstruction quality. The proposed model is tested with scientific benchmark data available publicly and applied to a large-scale high-resolution climate modeling data set. Our model achieves a compression ratio of 140 on several benchmark data sets without compromising the reconstruction quality. 2D simulation data from the High-Resolution Community Earth System Model (CESM) Version 1.3 over 500 years are also being compressed with a compression ratio of 200 while the reconstruction error is negligible for scientific analysis. | 翻訳日:2024-05-08 20:23:22 公開日:2024-05-06 |
# Medico 2020 および MedAI 2021 Challenges による大腸内視鏡検査におけるポリプおよび計器分画法の検証
Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges ( http://arxiv.org/abs/2307.16262v4 ) ライセンス: Link先を確認 | Debesh Jha, Vanshali Sharma, Debapriya Banik, Debayan Bhattacharya, Kaushiki Roy, Steven A. Hicks, Nikhil Kumar Tomar, Vajira Thambawita, Adrian Krenzer, Ge-Peng Ji, Sahadev Poudel, George Batchkala, Saruar Alam, Awadelrahman M. A. Ahmed, Quoc-Huy Trinh, Zeshan Khan, Tien-Phat Nguyen, Shruti Shrestha, Sabari Nathan, Jeonghwan Gwak, Ritika K. Jha, Zheyuan Zhang, Alexander Schlaefer, Debotosh Bhattacharjee, M. K. Bhuyan, Pradip K. Das, Deng-Ping Fan, Sravanthi Parsa, Sharib Ali, Michael A. Riegler, Pål Halvorsen, Thomas De Lange, Ulas Bagci, | (参考訳) 大腸内視鏡画像の自動解析は先天性ポリープの早期検出の重要性を動機とした研究の活発な分野である。
しかし, 生検におけるポリープ検出は, 内科医のスキルや経験の変化, 注意力の欠如, 疲労など多彩な要因により, 高いポリープミス率につながる可能性がある。
深層学習は、目に見えないポリープや異常をリアルタイムで検出・分類する内科医を支援することで、この課題に対する有望な解決策として浮上している。
アルゴリズムの精度に加えて、透明性と解釈可能性もアルゴリズムの予測の理由と方法を説明する上で重要である。
さらに、ほとんどのアルゴリズムはプライベートデータ、クローズドソース、あるいはプロプライエタリなソフトウェアで開発されており、再現性に欠ける。
そこで我々は, 効率的で透明な方法の開発を促進するために, 「メディコオートマチック・ポリープ・セグメンテーション(Medico 2020)」と「メディコ:医療画像セグメンテーション(MedAI 2021)」のコンペティションを組織した。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
透明性タスクでは、専門家の消化器科医を含む複数の学際的なチームが、各提出書にアクセスして、オープンソースプラクティス、障害ケース分析、アブレーション研究、ユーザビリティと評価の理解力に基づいて、臨床展開に対するモデルの信頼性をより深く理解するために、チームを評価した。
この課題の包括的分析を通じて,ポリープと手術器具のセグメンテーションの進歩を強調するだけでなく,より透明で理解しやすいAIベースの大腸内視鏡システムを構築するための質的評価を奨励する。
Automatic analysis of colonoscopy images has been an active field of research motivated by the importance of early detection of precancerous polyps. However, detecting polyps during the live examination can be challenging due to various factors such as variation of skills and experience among the endoscopists, lack of attentiveness, and fatigue leading to a high polyp miss-rate. Deep learning has emerged as a promising solution to this challenge as it can assist endoscopists in detecting and classifying overlooked polyps and abnormalities in real time. In addition to the algorithm's accuracy, transparency and interpretability are crucial to explaining the whys and hows of the algorithm's prediction. Further, most algorithms are developed in private data, closed source, or proprietary software, and methods lack reproducibility. Therefore, to promote the development of efficient and transparent methods, we have organized the "Medico automatic polyp segmentation (Medico 2020)" and "MedAI: Transparency in Medical Image Segmentation (MedAI 2021)" competitions. We present a comprehensive summary and analyze each contribution, highlight the strength of the best-performing methods, and discuss the possibility of clinical translations of such methods into the clinic. For the transparency task, a multi-disciplinary team, including expert gastroenterologists, accessed each submission and evaluated the team based on open-source practices, failure case analysis, ablation studies, usability and understandability of evaluations to gain a deeper understanding of the models' credibility for clinical deployment. Through the comprehensive analysis of the challenge, we not only highlight the advancements in polyp and surgical instrument segmentation but also encourage qualitative evaluation for building more transparent and understandable AI-based colonoscopy systems. | 翻訳日:2024-05-08 20:23:22 公開日:2024-05-06 |
# 確率共振変換器によるサブトークン ViT 埋め込み
Sub-token ViT Embedding via Stochastic Resonance Transformers ( http://arxiv.org/abs/2310.03967v2 ) ライセンス: Link先を確認 | Dong Lao, Yangchao Wu, Tian Yu Liu, Alex Wong, Stefano Soatto, | (参考訳) Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
この表現は次元を埋め込むために空間的な粒度を交換し、意味的にリッチだが空間的に粗い量子化された特徴写像をもたらす。
微粒な推論作業に有用な空間的詳細を抽出するために,「確率共鳴」にインスパイアされた訓練不要な手法を提案する。
具体的には、入力データに対してサブトークン空間変換を行い、逆変換を適用した後に得られたViT特徴を集約する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
SRTは任意のViTアーキテクチャのどの層にも適用可能であり、細調整なしでセグメント化、分類、深さ推定などいくつかのタスクのパフォーマンスを最大14.9%向上させる。
Vision Transformer (ViT) architectures represent images as collections of high-dimensional vectorized tokens, each corresponding to a rectangular non-overlapping patch. This representation trades spatial granularity for embedding dimensionality, and results in semantically rich but spatially coarsely quantized feature maps. In order to retrieve spatial details beneficial to fine-grained inference tasks we propose a training-free method inspired by "stochastic resonance". Specifically, we perform sub-token spatial transformations to the input data, and aggregate the resulting ViT features after applying the inverse transformation. The resulting "Stochastic Resonance Transformer" (SRT) retains the rich semantic information of the original representation, but grounds it on a finer-scale spatial domain, partly mitigating the coarse effect of spatial tokenization. SRT is applicable across any layer of any ViT architecture, consistently boosting performance on several tasks including segmentation, classification, depth estimation, and others by up to 14.9% without the need for any fine-tuning. | 翻訳日:2024-05-08 20:13:36 公開日:2024-05-06 |
# VTON-IT:画像翻訳による仮想トライオン
VTON-IT: Virtual Try-On using Image Translation ( http://arxiv.org/abs/2310.04558v2 ) ライセンス: Link先を確認 | Santosh Adhikari, Bishnu Bhusal, Prashant Ghimire, Anil Shrestha, | (参考訳) 仮想試着(仮想服の試着)はGAN(Generative Adversarial Network)の有望な応用である。
しかし、体の大きさやポーズ、毛髪やオーバーラップした衣服などの排他性の違いから、所望の衣服を人体の対応する部位に移すことは困難な作業である。
本稿では,セマンティックセグメンテーションと生成的対向的アーキテクチャに基づく画像翻訳ネットワークを用いて,写真リアルな翻訳画像を作成する。
本稿では、RGB画像、所望の身体部分のセグメントを抽出し、セグメント化された身体領域にターゲット布をオーバーレイする、新しい画像ベースの仮想トライオンアプリケーションVTON-ITを提案する。
最先端のGANベースのVirtual Try-Onアプリケーションは、実際のテスト画像上で不整合合成画像を生成する。
しかし,本手法では,このような異種画像に詳細なテクスチャを付加した高分解能な自然画像を生成する。
Virtual Try-On (trying clothes virtually) is a promising application of the Generative Adversarial Network (GAN). However, it is an arduous task to transfer the desired clothing item onto the corresponding regions of a human body because of varying body size, pose, and occlusions like hair and overlapped clothes. In this paper, we try to produce photo-realistic translated images through semantic segmentation and a generative adversarial architecture-based image translation network. We present a novel image-based Virtual Try-On application VTON-IT that takes an RGB image, segments desired body part, and overlays target cloth over the segmented body region. Most state-of-the-art GAN-based Virtual Try-On applications produce unaligned pixelated synthesis images on real-life test images. However, our approach generates high-resolution natural images with detailed textures on such variant images. | 翻訳日:2024-05-08 20:13:36 公開日:2024-05-06 |
# トランスフォーマーが表現できる形式言語は何か?
What Formal Languages Can Transformers Express? A Survey ( http://arxiv.org/abs/2311.00208v2 ) ライセンス: Link先を確認 | Lena Strobl, William Merrill, Gail Weiss, David Chiang, Dana Angluin, | (参考訳) 自然言語処理においてトランスフォーマーが注目されているため、一部の研究者は、形式言語として問題を扱うことによって、彼らが解決できる問題とできない問題について理論的に研究してきた。
このような質問を探索することは、他の計算モデルと比較してトランスフォーマーのパワー、その基本的な能力と限界、そしてアーキテクチャの選択の影響を明らかにするのに役立ちます。
この郊外での作業は近年かなりの進歩を遂げている。
本稿では,この研究を包括的に調査し,異なる結果の基盤となる多様な仮定を文書化し,一見矛盾する発見を調和させる統一的な枠組みを提供する。
As transformers have gained prominence in natural language processing, some researchers have investigated theoretically what problems they can and cannot solve, by treating problems as formal languages. Exploring such questions can help clarify the power of transformers relative to other models of computation, their fundamental capabilities and limits, and the impact of architectural choices. Work in this subarea has made considerable progress in recent years. Here, we undertake a comprehensive survey of this work, documenting the diverse assumptions that underlie different results and providing a unified framework for harmonizing seemingly contradictory findings. | 翻訳日:2024-05-08 20:03:52 公開日:2024-05-06 |
# ハミルトン・ヤコビPDEの時間依存型ハミルトンによる連続科学機械学習への応用
Leveraging Hamilton-Jacobi PDEs with time-dependent Hamiltonians for continual scientific machine learning ( http://arxiv.org/abs/2311.07790v2 ) ライセンス: Link先を確認 | Paula Chen, Tingwei Meng, Zongren Zou, Jérôme Darbon, George Em Karniadakis, | (参考訳) 科学機械学習(SciML)における2つの大きな課題に対処する。
我々は、SciMLから生じる最適化問題と一般化ホップ公式との新たな理論的関係を確立し、ハミルトン-ヤコビ偏微分方程式(HJ PDE)と時間依存ハミルトン方程式との粘度解を表現することによって、特定の学習過程の解釈可能性を高める。
すなわち、積分型損失を伴う正規化学習問題を解くと、時間依存ハミルトニアンによる最適制御問題とその関連するHJ PDEを実際に解く。
この接続により、学習したモデルに対する漸進的な更新を、関連するHJ PDEの進化と最適制御問題として解釈することができる。
その結果、既存のHJ PDEソルバと最適制御アルゴリズムを再利用して、破滅的な忘れを回避しつつ、継続的学習フレームワークと自然に一致するSciMLの新しい効率的なトレーニングアプローチを設計することができる。
この関係を最初に検討するため、線形回帰の特殊な事例を考察し、連続的な学習アプリケーションに適するこれらの学習問題を解決するための新しいリカティベースの方法論を開発する。
また、Racatiベースのアプローチで実現可能な、潜在的な計算およびメモリ上の利点を示す数値的な例をいくつか提示する。
We address two major challenges in scientific machine learning (SciML): interpretability and computational efficiency. We increase the interpretability of certain learning processes by establishing a new theoretical connection between optimization problems arising from SciML and a generalized Hopf formula, which represents the viscosity solution to a Hamilton-Jacobi partial differential equation (HJ PDE) with time-dependent Hamiltonian. Namely, we show that when we solve certain regularized learning problems with integral-type losses, we actually solve an optimal control problem and its associated HJ PDE with time-dependent Hamiltonian. This connection allows us to reinterpret incremental updates to learned models as the evolution of an associated HJ PDE and optimal control problem in time, where all of the previous information is intrinsically encoded in the solution to the HJ PDE. As a result, existing HJ PDE solvers and optimal control algorithms can be reused to design new efficient training approaches for SciML that naturally coincide with the continual learning framework, while avoiding catastrophic forgetting. As a first exploration of this connection, we consider the special case of linear regression and leverage our connection to develop a new Riccati-based methodology for solving these learning problems that is amenable to continual learning applications. We also provide some corresponding numerical examples that demonstrate the potential computational and memory advantages our Riccati-based approach can provide. | 翻訳日:2024-05-08 20:03:52 公開日:2024-05-06 |
# SySMOL:不均一精度ニューラルネットワークの共設計アルゴリズムとハードウェア
SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions ( http://arxiv.org/abs/2311.14114v2 ) ライセンス: Link先を確認 | Cyrus Zhou, Pedro Savarese, Vaughn Richard, Zack Hassman, Xin Yuan, Michael Maire, Michael DiBrino, Yanjing Li, | (参考訳) 最近の量子化技術は、非常に微細な粒度で不均一な精度を実現し、例えば、各パラメータ/アクティベーションは異なる精度で処理できるため、精度を犠牲にすることなく、コンパクトなニューラルネットワークを実現することができる。
しかし、そのようなネットワークに対する効率的なアーキテクチャサポートがないため、個々の変数の精度設定をデコードし、変数を調整し、きめ細かい混合精度の計算機能を提供するために、追加のハードウェアが必要である。
これらの操作の複雑さは高いオーバーヘッドをもたらす。
したがって、これらのネットワークの推論遅延/エネルギーの改善は圧縮比と一致せず、均一な精度の大規模量子化ネットワークに劣る可能性がある。
本稿では,コンピュータアーキテクチャ,トレーニングアルゴリズム,推論最適化を含むエンドツーエンドの協調設計手法を提案する。
提案手法の鍵となるのは,ハードウェアの制約や推論操作要求に適応し,入力チャネルワイドの不均一な精度と,少なくとも3つの精度でネットワークを出力する,新たなトレーニングアルゴリズムである。
推論最適化技術と組み合わせることで、低コストで拡張可能な既存のアーキテクチャは、そのようなネットワークを効率的にサポートし、精度、圧縮比、推論遅延/エネルギーのトレードオフを最適化することができる。
我々は、CPUとGPUアーキテクチャにまたがるアプローチの有効性を実証する。
様々な代表的ニューラルネットワークに対して,本手法は圧縮比と推論遅延の両面で10倍の精度向上を実現し,完全精度のネットワークに比べて精度の劣化は無視できる。
Recent quantization techniques have enabled heterogeneous precisions at very fine granularity, e.g., each parameter/activation can take on a different precision, resulting in compact neural networks without sacrificing accuracy. However, there is a lack of efficient architectural support for such networks, which require additional hardware to decode the precision settings for individual variables, align the variables, and provide fine-grained mixed-precision compute capabilities. The complexity of these operations introduces high overheads. Thus, the improvements in inference latency/energy of these networks are not commensurate with the compression ratio, and may be inferior to larger quantized networks with uniform precisions. We present an end-to-end co-design approach encompassing computer architecture, training algorithm, and inference optimization to efficiently execute networks with fine-grained heterogeneous precisions. The key to our approach is a novel training algorithm designed to accommodate hardware constraints and inference operation requirements, outputting networks with input-channel-wise heterogeneous precisions and at most three precision levels. Combined with inference optimization techniques, existing architectures with low-cost enhancements can support such networks efficiently, yielding optimized tradeoffs between accuracy, compression ratio and inference latency/energy. We demonstrate the efficacy of our approach across CPU and GPU architectures. For various representative neural networks, our approach achieves >10x improvements in both compression ratio and inference latency, with negligible degradation in accuracy compared to full-precision networks. | 翻訳日:2024-05-08 20:03:52 公開日:2024-05-06 |
# 画像からタイトルへ:畳み込みニューラルネットワークを用いたスクリーンショットによるゲーム同定
From Pixels to Titles: Video Game Identification by Screenshots using Convolutional Neural Networks ( http://arxiv.org/abs/2311.15963v2 ) ライセンス: Link先を確認 | Fabricio Breve, | (参考訳) 本稿では,Atari 2600からPlayStation 5にまたがる22のホームコンソールシステムにおいて,5つの畳み込みニューラルネットワーク(MobileNet,DenseNet,EfficientNetB0,EfficientNetB2,EfficientNetB3)を用いて,シングルスクリーンショットによるビデオゲームの識別について検討する。
仮説を確認することで、CNNは自動で画像の特徴を抽出し、追加機能なしでスクリーンショットからゲームタイトルを識別できる。
ImageNetの事前学習重量を初期重量として用いて、EfficientNetB3は最高平均精度(74.51%)を達成し、DenseNet169は22のシステムのうち14で優れている。
アーケードスクリーンショットデータセットでトレーニングされた別の初期重量を用いることで、EfficientNetB2とEfficientNetB3の精度が向上し、後者は76.36%に達した。
全体として、最適アーキテクチャと重みの組み合わせは77.67%の精度に達し、主に19のシステムでEfficientNetB3がリードしている。
これらの結果は、スクリーンショットによるビデオゲームの識別におけるCNNの有効性を裏付けるものである。
This paper investigates video game identification through single screenshots, utilizing five convolutional neural network (CNN) architectures (MobileNet, DenseNet, EfficientNetB0, EfficientNetB2, and EfficientNetB3) across 22 home console systems, spanning from Atari 2600 to PlayStation 5, totalling 8,796 games and 170,881 screenshots. Confirming the hypothesis, CNNs autonomously extract image features, enabling the identification of game titles from screenshots without additional features. Using ImageNet pre-trained weights as initial weights, EfficientNetB3 achieves the highest average accuracy (74.51%), while DenseNet169 excels in 14 of the 22 systems. Employing alternative initial weights trained in an arcade screenshots dataset boosts accuracy for EfficientNetB2 and EfficientNetB3, with the latter reaching a peak accuracy of 76.36% and demonstrating reduced convergence epochs from 23.7 to 20.5 on average. Overall, the combination of optimal architecture and weights attains 77.67% accuracy, primarily led by EfficientNetB3 in 19 systems. These findings underscore the efficacy of CNNs in video game identification through screenshots. | 翻訳日:2024-05-08 20:03:52 公開日:2024-05-06 |
# Q-Pilot:フライングアンシラによるフィールドプログラマブルクビットアレーコンパイル
Q-Pilot: Field Programmable Qubit Array Compilation with Flying Ancillas ( http://arxiv.org/abs/2311.16190v2 ) ライセンス: Link先を確認 | Hanrui Wang, Daniel Bochen Tan, Pengyu Liu, Yilian Liu, Jiaqi Gu, Jason Cong, Song Han, | (参考訳) ニュートラル原子配列は量子コンピューティングにとって有望なプラットフォームとなり、特に、原子移動のユニークな能力を持つフィールドプログラマブル量子ビットアレイ(FPQA)が注目されている。
この機能により、実行中のqubit接続の動的変更が可能になり、長距離ゲートの実行コストを削減し、並列性を改善することができる。
しかし、この柔軟性が追加され、サーキットコンパイルにおける新たな課題がもたらされる。
FPGAの配置とルーティング戦略に着想を得て,データキュービット間の2キュービットゲートのルーティングに可動原子を用いながら,すべてのデータキュービットを固定原子にマッピングすることを提案する。
空飛ぶアンシラと結合されたこれらの移動原子は、アンシラ量子ビットとして機能し、実行中に動的に生成され、リサイクルされる。
本稿では,フライングアンシラを用いたFPQA用スケーラブルコンパイラQ-Pilotについて述べる。
量子シミュレーションと量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)の2つの重要な量子アプリケーションに対して、ドメイン固有のルーティング戦略を考案する。
超伝導デバイスや固定原子配列などの代替技術と比較して、Q-PilotはFPQAの柔軟性を効果的に活用し、100量子ランダム、量子シミュレーション、QAOA回路の回路深さの1.4x、27.7x、6.3xの低減を実現している。
Neutral atom arrays have become a promising platform for quantum computing, especially the field programmable qubit array (FPQA) endowed with the unique capability of atom movement. This feature allows dynamic alterations in qubit connectivity during runtime, which can reduce the cost of executing long-range gates and improve parallelism. However, this added flexibility introduces new challenges in circuit compilation. Inspired by the placement and routing strategies for FPGAs, we propose to map all data qubits to fixed atoms while utilizing movable atoms to route for 2-qubit gates between data qubits. Coined flying ancillas, these mobile atoms function as ancilla qubits, dynamically generated and recycled during execution. We present Q-Pilot, a scalable compiler for FPQA employing flying ancillas to maximize circuit parallelism. For two important quantum applications, quantum simulation and the Quantum Approximate Optimization Algorithm (QAOA), we devise domain-specific routing strategies. In comparison to alternative technologies such as superconducting devices or fixed atom arrays, Q-Pilot effectively harnesses the flexibility of FPQA, achieving reductions of 1.4x, 27.7x, and 6.3x in circuit depth for 100-qubit random, quantum simulation, and QAOA circuits, respectively. | 翻訳日:2024-05-08 20:03:52 公開日:2024-05-06 |
# 状態制約を持つ2プレーヤ・ジェネラルサム差分ゲームに対する値近似
Value Approximation for Two-Player General-Sum Differential Games with State Constraints ( http://arxiv.org/abs/2311.16520v3 ) ライセンス: Link先を確認 | Lei Zhang, Mukesh Ghimire, Wenlong Zhang, Zhe Xu, Yi Ren, | (参考訳) ハミルトン・ヤコビ・イザック (HJI) PDE の解法は、2つのプレイヤー差分ゲームにおける平衡フィードバック制御を可能にするが、次元性 (CoD) の呪いに直面している。
物理インフォームドニューラルネットワーク(PINN)は、PDEの解決におけるCoDの緩和を約束する一方で、バニラPINNはサンプリング特性による不連続解の学習に不足しているため、状態や時間的論理的制約によって値が不連続である場合に、結果として生じるポリシーの安全性が低下する。
本研究では,(1)監督均衡とHJI PDEの両方によって指導されるハイブリッド学習手法,(2)制約違反ペナルティのリプシッツ定数を増大させることでHJIの系列を解く値硬化法,(3)その値が連続となる高次元状態空間へ持ち上げるエピグラフィカル手法,の3つの可能性を探る。
5Dと9Dの車両と13Dのドローンシミュレーションによる評価により、このハイブリッド手法は、監督均衡値とコストの両面を活かし、PINN損失勾配の低コストを生かして、一般化と安全性の両面において他よりも優れていたことが判明した。
Solving Hamilton-Jacobi-Isaacs (HJI) PDEs numerically enables equilibrial feedback control in two-player differential games, yet faces the curse of dimensionality (CoD). While physics-informed neural networks (PINNs) have shown promise in alleviating CoD in solving PDEs, vanilla PINNs fall short in learning discontinuous solutions due to their sampling nature, leading to poor safety performance of the resulting policies when values are discontinuous due to state or temporal logic constraints. In this study, we explore three potential solutions to this challenge: (1) a hybrid learning method that is guided by both supervisory equilibria and the HJI PDE, (2) a value-hardening method where a sequence of HJIs are solved with increasing Lipschitz constant on the constraint violation penalty, and (3) the epigraphical technique that lifts the value to a higher dimensional state space where it becomes continuous. Evaluations through 5D and 9D vehicle and 13D drone simulations reveal that the hybrid method outperforms others in terms of generalization and safety performance by taking advantage of both the supervisory equilibrium values and costates, and the low cost of PINN loss gradients. | 翻訳日:2024-05-08 19:54:07 公開日:2024-05-06 |
# ベクトル値正規化最小二乗アルゴリズムにおけるソボレフノルム率の最適化に向けて
Towards Optimal Sobolev Norm Rates for the Vector-Valued Regularized Least-Squares Algorithm ( http://arxiv.org/abs/2312.07186v3 ) ライセンス: Link先を確認 | Zhu Li, Dimitri Meunier, Mattes Mollenhauer, Arthur Gretton, | (参考訳) L_2$と仮説空間の間を補間するノルムの連続スケール上で、無限次元ベクトル値リッジ回帰の最初の最適速度を示し、これはベクトル値再生核ヒルベルト空間と考える。
これらの速度は、真の回帰関数が仮説空間に含まれていない不特定ケースを扱うことができる。
仮説空間のキャパシティに関する標準的な仮定とベクトル値補間空間の新たなテンソル積の構成を組み合わせることにより、回帰関数の滑らかさを特徴づける。
我々の上界は実数値のカーネルリッジ回帰と同じ速度を得るだけでなく、対象の回帰関数が有界であるという仮定も取り除く。
下界では、射影引数を用いてスカラー設定に問題を還元する。
これらの値は、ほとんどの場合最適であり、出力空間の次元に依存しないことを示す。
ベクトル値ソボレフ空間の特別な場合について、本研究の結果を説明する。
We present the first optimal rates for infinite-dimensional vector-valued ridge regression on a continuous scale of norms that interpolate between $L_2$ and the hypothesis space, which we consider as a vector-valued reproducing kernel Hilbert space. These rates allow to treat the misspecified case in which the true regression function is not contained in the hypothesis space. We combine standard assumptions on the capacity of the hypothesis space with a novel tensor product construction of vector-valued interpolation spaces in order to characterize the smoothness of the regression function. Our upper bound not only attains the same rate as real-valued kernel ridge regression, but also removes the assumption that the target regression function is bounded. For the lower bound, we reduce the problem to the scalar setting using a projection argument. We show that these rates are optimal in most cases and independent of the dimension of the output space. We illustrate our results for the special case of vector-valued Sobolev spaces. | 翻訳日:2024-05-08 19:54:07 公開日:2024-05-06 |
# クラウドソーシングワークフローからのテクニック適応によるLCMチェーンの設計
Designing LLM Chains by Adapting Techniques from Crowdsourcing Workflows ( http://arxiv.org/abs/2312.11681v3 ) ライセンス: Link先を確認 | Madeleine Grunde-McLaughlin, Michelle S. Lam, Ranjay Krishna, Daniel S. Weld, Jeffrey Heer, | (参考訳) LLMチェインは、作業を一連のサブタスクに分解することで複雑なタスクを可能にする。
同様に、より確立されたクラウドソーシングワークフローのテクニックは、複雑なタスクを人間のクラウドワーカーのための小さなタスクに分解する。
チェーンはLLMエラーに対処し、クラウドソーシングワークフローがヒューマンエラーに対処する方法と類似している。
LLMチェインの機会を特徴付けるため,クラウドソーシングとチェーンリングの文献107点を調査し,チェーン開発のための設計空間を構築した。
デザインスペースは、デザイナの目的とワークフローを構築するために使用される戦術をカバーします。
次に、ワークフローが目的を達成するために戦術を使う方法を仲介する戦略を提示します。
クラウドソーシングのテクニックをチェーンに適用する方法を探るため、クラウドソーシングワークフローを3つのケーススタディ – 分類の作成、テキストの短縮、短編記事の執筆 – に適用した。
デザイン空間とケーススタディから,効果的なチェーン設計の取組みを特定し,今後の研究・開発への示唆を高める。
LLM chains enable complex tasks by decomposing work into a sequence of subtasks. Similarly, the more established techniques of crowdsourcing workflows decompose complex tasks into smaller tasks for human crowdworkers. Chains address LLM errors analogously to the way crowdsourcing workflows address human error. To characterize opportunities for LLM chaining, we survey 107 papers across the crowdsourcing and chaining literature to construct a design space for chain development. The design space covers a designer's objectives and the tactics used to build workflows. We then surface strategies that mediate how workflows use tactics to achieve objectives. To explore how techniques from crowdsourcing may apply to chaining, we adapt crowdsourcing workflows to implement LLM chains across three case studies: creating a taxonomy, shortening text, and writing a short story. From the design space and our case studies, we identify takeaways for effective chain design and raise implications for future research and development. | 翻訳日:2024-05-08 19:54:07 公開日:2024-05-06 |
# Rydberg tweezerアレーにおける不均衡ホッピングを伴う2成分Bose-Hubbardモデルのシミュレーション
Simulating a two component Bose-Hubbard model with imbalanced hopping in a Rydberg tweezer array ( http://arxiv.org/abs/2312.14846v2 ) ライセンス: Link先を確認 | Y. Zhang, A. Gaddie, H-V. Do, G. W. Biedermann, R. J. Lewis-Swan, | (参考訳) 中立原子の光学的ツイーザーアレイは、量子シミュレーションのための多用途プラットフォームを提供する。
本稿では,共振双極子相互作用を特徴とする多層Rydberg原子配列を用いた2成分Bose-Hubbardモデルを提案する。
ボース・ハバードモデルの局所ヒルベルト空間を符号化するのに使用できる状態の多様性は、各成分の相対的なホッピング率やスピンフリップホッピングの実現さえも制御できる。
数値シミュレーションを用いて、マルチレベルリドバーグ原子がモデルの様々な非平衡クエンチ力学を探求する機会を提供することを示す。
例えば、有効スピンと電荷自由度の緩和時間スケールの分離を実証し、ハードコアボソン相互作用による動的制約により2成分の有効ホッピング速度が大きく異なる場合、緩やかな緩和のレギュレーションを観察する。
我々はこれらの効果を最先端のRydberg tweezer配列で研究する可能性について論じる。
Optical tweezer arrays of neutral atoms provide a versatile platform for quantum simulation due to the range of interactions and Hamiltonians that can be realized and explored. We propose to simulate a two-component Bose-Hubbard model with power-law hopping using arrays of multilevel Rydberg atoms featuring resonant dipolar interactions. The diversity of states that can be used to encode the local Hilbert space of the Bose-Hubbard model enables control of the relative hopping rate of each component and even the realization of spin-flip hopping. We use numerical simulations to show how multilevel Rydberg atoms provide an opportunity to explore the diverse non-equilibrium quench dynamics of the model. For example, we demonstrate a separation of the relaxation timescales of effective spin and charge degrees of freedom, and observe regimes of slow relaxation when the effective hopping rates of the two components are vastly different due to dynamical constraints arising from hardcore boson interactions. We discuss prospects for studying these effects in state-of-the-art Rydberg tweezer arrays. | 翻訳日:2024-05-08 19:54:07 公開日:2024-05-06 |
# 差動干渉計のための量子増強ヘテロダインリードアウト
Quantum enhanced balanced heterodyne readout for differential interferometry ( http://arxiv.org/abs/2401.04940v3 ) ライセンス: Link先を確認 | Daniel W. Gould, Vaishali B. Adya, Sheon S. Y. Chua, Jonas Junker, Dennis Wilken, Terry G. McRae, Bram J. J. Slagmolen, Min Jet Yap, Robert L. Ward, Michèle Heurs, David E. McClelland, | (参考訳) 従来のヘテロダイン読み出し方式は、3dB信号対雑音のペナルティを回避する技術の実現により再検討されている。
高周波、スペクトルに絡み合った2モードの圧縮状態の適用により、オーディオ帯域信号の読み出し感度をさらに向上させることができる。
本稿では,3dBヘテロダイン信号対雑音ペナルティを回避し,直接光信号の組み合わせによる空間的に異なる2つの干渉計の量子増幅ヘテロダイン読み出し実験を行った。
周波数・スペクトルに絡み合った2モードの圧縮状態を適用し,3.5dBの入射音声帯域信号の信号から雑音へのさらなる改善を示す。
この手法は量子制限された高精度の実験に適用でき、量子重力、重力波の検出、波長多重量子通信の探索に応用できる。
Conventional heterodyne readout schemes are now under reconsideration due to the realization of techniques to evade its inherent 3 dB signal-to-noise penalty. The application of high-frequency, spectrally entangled, two-mode squeezed states can further improve the readout sensitivity of audio-band signals. In this paper, we experimentally demonstrate quantum-enhanced heterodyne readout of two spatially distinct interferometers with direct optical signal combination, circumventing the 3 dB heterodyne signal-to-noise penalty. Applying a high-frequency, spectrally entangled, two-mode squeezed state, we show further signal-to-noise improvement of an injected audio band signal of 3.5 dB. This technique is applicable for quantum-limited high-precision experiments, with application to searches for quantum gravity, gravitational wave detection and wavelength-multiplexed quantum communication. | 翻訳日:2024-05-08 19:44:23 公開日:2024-05-06 |
# 大規模言語モデルのラベル効率向上のための実験的設計フレームワーク
An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models ( http://arxiv.org/abs/2401.06692v2 ) ライセンス: Link先を確認 | Gantavya Bhatt, Yifang Chen, Arnav M. Das, Jifan Zhang, Sang T. Truong, Stephen Mussmann, Yinglun Zhu, Jeffrey Bilmes, Simon S. Du, Kevin Jamieson, Jordan T. Ash, Robert D. Nowak, | (参考訳) 命令データセットの教師付き微調整(SFT)は、現代の大言語モデル(LLM)で観測される顕著なゼロショット一般化能力を達成する上で重要な役割を担っている。
しかし、命令データセットにまたがるタスクの数が増加し続けており、命令に対する高品質な応答を生成するために必要なアノテーションの取り組みは、非常に高価になってきている。
アクティブラーニングは、ラベルのないプールからアノテートするサンプルの有用なサブセットを特定するのに有効であるが、その高い計算コストは、LLMの文脈においてその広範な適用可能性の障壁である。
SFTのアノテーションコストを軽減し、アクティブラーニングの計算ボトルネックを回避するために、実験設計を用いて提案する。
実験的な設計技術は、ラベル付けする最も情報性の高いサンプルを選択し、典型的には不確実性や多様性の概念を最大化する。
本研究では,既存および新規な実験設計手法の評価を行うフレームワークを実装し,これらの手法が計算オーバーヘッドが少なく,ラベル効率の大幅な向上を図っている。
生成タスクにおいて,提案手法は同じ一般化性能を,ランダムサンプリングで要求されるアノテーションコストの50\%程度で達成する。
Supervised finetuning (SFT) on instruction datasets has played a crucial role in achieving the remarkable zero-shot generalization capabilities observed in modern large language models (LLMs). However, the annotation efforts required to produce high quality responses for instructions are becoming prohibitively expensive, especially as the number of tasks spanned by instruction datasets continues to increase. Active learning is effective in identifying useful subsets of samples to annotate from an unlabeled pool, but its high computational cost remains a barrier to its widespread applicability in the context of LLMs. To mitigate the annotation cost of SFT and circumvent the computational bottlenecks of active learning, we propose using experimental design. Experimental design techniques select the most informative samples to label, and typically maximize some notion of uncertainty and/or diversity. In our work, we implement a framework that evaluates several existing and novel experimental design techniques and find that these methods consistently yield significant gains in label efficiency with little computational overhead. On generative tasks, our methods achieve the same generalization performance with only $50\%$ of annotation cost required by random sampling. | 翻訳日:2024-05-08 19:44:23 公開日:2024-05-06 |
# ガウス前駆体に対するフグのプライバシの近似
Approximation of Pufferfish Privacy for Gaussian Priors ( http://arxiv.org/abs/2401.12391v2 ) ライセンス: Link先を確認 | Ni Ding, | (参考訳) 本稿では,パワラマガエルのプライバシを,パワラマガエルがパワラマガエルのパワラマガエルのパワラマガエルのプライバシを推定する方法について検討する。
Mongeの最適輸送計画を用いて、各識別秘密対に条件付けられたガウス分布の平均と分散の差に付加的なLaplaceノイズを校正した場合、$(\epsilon, \delta)$-pufferfishのプライバシーが達成されることを示す。
典型的なアプリケーションは和(平均)クエリのプライベートリリースであり、個々の機密データにおいて$\epsilon$-statistical indistinguishabilityを近似するのに十分な条件が導出される。
その結果は、ガウス混合モデル(GMM)によって訓練された任意の事前信念に拡張される: 平均とガウス成分間の差異の凸結合にラプラスノイズを校正すると、プライバシが$(\epsilon,\delta)$-pufferfishに達する。
This paper studies how to approximate pufferfish privacy when the adversary's prior belief of the published data is Gaussian distributed. Using Monge's optimal transport plan, we show that $(\epsilon, \delta)$-pufferfish privacy is attained if the additive Laplace noise is calibrated to the differences in mean and variance of the Gaussian distributions conditioned on every discriminative secret pair. A typical application is the private release of the summation (or average) query, for which sufficient conditions are derived for approximating $\epsilon$-statistical indistinguishability in individual's sensitive data. The result is then extended to arbitrary prior beliefs trained by Gaussian mixture models (GMMs): calibrating Laplace noise to a convex combination of differences in mean and variance between Gaussian components attains $(\epsilon,\delta)$-pufferfish privacy. | 翻訳日:2024-05-08 19:44:23 公開日:2024-05-06 |
# 行動主義的表現的ハームを超えて : 測定と緩和のための計画
Beyond Behaviorist Representational Harms: A Plan for Measurement and Mitigation ( http://arxiv.org/abs/2402.01705v2 ) ライセンス: Link先を確認 | Jennifer Chien, David Danks, | (参考訳) アルゴリズム的害は一般に、割当的または表現的に分類される。
本研究は後者に特に焦点をあて,現在の表現的害の定義を検証し,含まないものと含まないものを識別することに焦点を当てた。
この分析は、行動の定義を超えて、認知的および情緒的状態への害を包含する我々の拡張を動機付けている。
このアプローチを実装するために必要な専門知識を特定し、ケーススタディを通じてそれを説明する。
我々の研究は、大きな言語モデルのユニークな脆弱性を強調し、特にこれらの害が未測定で軽減された場合に、表現的害を反復する。
この作業は、提案された緩和を提示し、いつ採用するかを明記することで締めくくられる。
本研究の総括的目的は,表現的害の定義を拡大する枠組みを確立し,公平性研究からの洞察を実践的測定・緩和実践に翻訳することである。
Algorithmic harms are commonly categorized as either allocative or representational. This study specifically addresses the latter, focusing on an examination of current definitions of representational harms to discern what is included and what is not. This analysis motivates our expansion beyond behavioral definitions to encompass harms to cognitive and affective states. The paper outlines high-level requirements for measurement: identifying the necessary expertise to implement this approach and illustrating it through a case study. Our work highlights the unique vulnerabilities of large language models to perpetrating representational harms, particularly when these harms go unmeasured and unmitigated. The work concludes by presenting proposed mitigations and delineating when to employ them. The overarching aim of this research is to establish a framework for broadening the definition of representational harms and to translate insights from fairness research into practical measurement and mitigation praxis. | 翻訳日:2024-05-08 19:34:38 公開日:2024-05-06 |
# 時系列のための大規模言語モデル: 調査
Large Language Models for Time Series: A Survey ( http://arxiv.org/abs/2402.01801v3 ) ライセンス: Link先を確認 | Xiyuan Zhang, Ranak Roy Chowdhury, Rajesh K. Gupta, Jingbo Shang, | (参考訳) 大規模言語モデル (LLM) は自然言語処理やコンピュータビジョンといった領域で広く利用されている。
テキスト、イメージ、グラフィックを超えて、LLMは、気候、IoT、ヘルスケア、トラフィック、オーディオ、ファイナンスといった分野に利益をもたらす、時系列データ分析の重大な可能性を示す。
本調査では,LLMのパワーを時系列解析に活用する様々な手法の詳細な調査と詳細な分類について述べる。
我々は,LLMの原文データトレーニングと時系列データの数値的性質のギャップを埋めることの課題に対処し,LLMから数値時系列解析への知識の伝達と蒸留の戦略を探究する。
本稿では,(1)LDMの直接的プロンプト,(2)時系列量子化,(3)整列技術,(4)ブリッジ機構としての視覚モダリティの利用,(5)LDMとツールの組み合わせなど,様々な手法を詳述する。
さらに、本調査では、既存のマルチモーダル時系列とテキストデータセットを包括的に概観し、この新興分野の課題と今後の可能性について検討する。
調査で議論されたすべての論文とデータセットを含む、最新のGithubリポジトリを維持しています。
Large Language Models (LLMs) have seen significant use in domains such as natural language processing and computer vision. Going beyond text, image and graphics, LLMs present a significant potential for analysis of time series data, benefiting domains such as climate, IoT, healthcare, traffic, audio and finance. This survey paper provides an in-depth exploration and a detailed taxonomy of the various methodologies employed to harness the power of LLMs for time series analysis. We address the inherent challenge of bridging the gap between LLMs' original text data training and the numerical nature of time series data, and explore strategies for transferring and distilling knowledge from LLMs to numerical time series analysis. We detail various methodologies, including (1) direct prompting of LLMs, (2) time series quantization, (3) aligning techniques, (4) utilization of the vision modality as a bridging mechanism, and (5) the combination of LLMs with tools. Additionally, this survey offers a comprehensive overview of the existing multimodal time series and text datasets and delves into the challenges and future opportunities of this emerging field. We maintain an up-to-date Github repository which includes all the papers and datasets discussed in the survey. | 翻訳日:2024-05-08 19:34:38 公開日:2024-05-06 |
# 自然言語による実験と規則改正と確率論的推論
Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning ( http://arxiv.org/abs/2402.06025v5 ) ライセンス: Link先を確認 | Wasu Top Piriyakulkij, Kevin Ellis, | (参考訳) 我々は、人間が実験によって隠れルールを積極的に推論する方法の計算モデルを構築します。
モデルの背後にある基本的な原則は、たとえ規則が決定論的であっても、学習者は、自然言語で表されるファジィ確率規則のより広い空間を考察し、ベイズ主義の原理に則って各実験の後にオンラインで仮説を更新することである。
同じフレームワークでは、情報理論の基準に従って実験設計もモデル化する。
これらの3つの原則 – 明示的な仮説,確率的ルール,オンライン更新 – を組み合わせることで,禅道的なタスクにおける人的パフォーマンスが説明できることが分かった。
We build a computational model of how humans actively infer hidden rules by doing experiments. The basic principles behind the model is that, even if the rule is deterministic, the learner considers a broader space of fuzzy probabilistic rules, which it represents in natural language, and updates its hypotheses online after each experiment according to approximately Bayesian principles. In the same framework we also model experiment design according to information-theoretic criteria. We find that the combination of these three principles -- explicit hypotheses, probabilistic rules, and online updates -- can explain human performance on a Zendo-style task, and that removing any of these components leaves the model unable to account for the data. | 翻訳日:2024-05-08 19:34:38 公開日:2024-05-06 |
# ジェネレーティブAIとプロセスシステムエンジニアリング - 次のフロンティア
Generative AI and Process Systems Engineering: The Next Frontier ( http://arxiv.org/abs/2402.10977v2 ) ライセンス: Link先を確認 | Benjamin Decardi-Nelson, Abdulelah S. Alshehri, Akshay Ajagekar, Fengqi You, | (参考訳) 本稿では,大規模言語モデル (LLM) のような新たな生成人工知能(GenAI) モデルが,プロセスシステム工学 (PSE) におけるソリューション方法論をいかに拡張するかを考察する。
これらの最先端のGenAIモデル、特に、広範囲の汎用データセットで事前訓練された基礎モデル(FM)は、クエリへの応答、画像生成、複雑な意思決定など、幅広いタスクに対して汎用的な適応性を提供します。
PSEの進歩とコンピューティングとシステム技術の発展の密接な関係を考えると、GenAIとPSEのシナジーを探求することが不可欠である。
我々は、FMを含む古典的および新興のGenAIモデルのコンパクトな概要から議論を始め、その後、主要なPSEドメイン、すなわち、合成と設計、最適化と統合、プロセス監視と制御において、彼らのアプリケーションに飛び込みます。
それぞれの領域において、GenAIモデルがPSE方法論を前進させ、各領域の洞察と展望を提供する方法について検討する。
さらに、マルチスケールモデリング、データ要件、評価指標とベンチマーク、信頼と安全性など、PSE内でGenAIを完全に活用する上での潜在的な課題を特定し、議論することで、システム分析、設計、最適化、運用、監視、制御への効果的なGenAI統合に関する議論を深める。
本稿では,PSEにおける新たなGenAIの応用に焦点を当てた今後の研究のガイドを提供する。
This article explores how emerging generative artificial intelligence (GenAI) models, such as large language models (LLMs), can enhance solution methodologies within process systems engineering (PSE). These cutting-edge GenAI models, particularly foundation models (FMs), which are pre-trained on extensive, general-purpose datasets, offer versatile adaptability for a broad range of tasks, including responding to queries, image generation, and complex decision-making. Given the close relationship between advancements in PSE and developments in computing and systems technologies, exploring the synergy between GenAI and PSE is essential. We begin our discussion with a compact overview of both classic and emerging GenAI models, including FMs, and then dive into their applications within key PSE domains: synthesis and design, optimization and integration, and process monitoring and control. In each domain, we explore how GenAI models could potentially advance PSE methodologies, providing insights and prospects for each area. Furthermore, the article identifies and discusses potential challenges in fully leveraging GenAI within PSE, including multiscale modeling, data requirements, evaluation metrics and benchmarks, and trust and safety, thereby deepening the discourse on effective GenAI integration into systems analysis, design, optimization, operations, monitoring, and control. This paper provides a guide for future research focused on the applications of emerging GenAI in PSE. | 翻訳日:2024-05-08 19:23:11 公開日:2024-05-06 |
# TrustScore: LLM応答信頼性の基準フリー評価
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness ( http://arxiv.org/abs/2402.12545v2 ) ライセンス: Link先を確認 | Danna Zheng, Danyang Liu, Mirella Lapata, Jeff Z. Pan, | (参考訳) 大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
しかし、LCMのアウトプットの信頼性に関する懸念が生まれており、特に非専門家が文脈的・根拠的真理情報がないために不正確性を特定するのに苦労するクローズドブックの質問応答タスクにおいてである。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
さらにTrustScoreは、外部知識ソースとの整合性を評価するファクトチェックメソッドとシームレスに統合することができる。
実験結果から,TrustScoreは人間の判断と強い相関関係を示し,既存の基準フリー指標を超越し,基準ベース指標と同等の結果を得ることができた。
Large Language Models (LLMs) have demonstrated impressive capabilities across various domains, prompting a surge in their practical applications. However, concerns have arisen regarding the trustworthiness of LLMs outputs, particularly in closed-book question-answering tasks, where non-experts may struggle to identify inaccuracies due to the absence of contextual or ground truth information. This paper introduces TrustScore, a framework based on the concept of Behavioral Consistency, which evaluates whether an LLMs response aligns with its intrinsic knowledge. Additionally, TrustScore can seamlessly integrate with fact-checking methods, which assesses alignment with external knowledge sources. The experimental results show that TrustScore achieves strong correlations with human judgments, surpassing existing reference-free metrics, and achieving results on par with reference-based metrics. | 翻訳日:2024-05-08 19:23:11 公開日:2024-05-06 |
# スペクトルクラスタリングに基づくモーションセグメンテーションのための統一モデル選択手法
A Unified Model Selection Technique for Spectral Clustering Based Motion Segmentation ( http://arxiv.org/abs/2403.01606v2 ) ライセンス: Link先を確認 | Yuxiang Huang, John Zelek, | (参考訳) モーションセグメンテーションはコンピュータビジョンの基本的な問題であり、ロボット工学、自律運転、行動認識などの様々な応用において重要である。
近年,スペクトルクラスタリング法は動的環境における運動のセグメンテーションにおいて顕著な結果を示している。
これらの手法は、移動親和性行列のスペクトルクラスタリングを行い、シーン内の物体や点軌道を異なる運動群に分類する。
しかし、既存の手法では、シーンに存在する動きの数を知る必要がしばしばあり、現実性が著しく低下する。
本稿では,既存のモデル選択手法を組み合わせ,スペクトルクラスタリングに基づく動き分割手法の動作群数を自動推定する統一モデル選択手法を提案する。
提案手法をKT3DMoSegデータセット上で評価し,クラスタ数が基底真理情報として与えられる基準値と比較した。
Motion segmentation is a fundamental problem in computer vision and is crucial in various applications such as robotics, autonomous driving and action recognition. Recently, spectral clustering based methods have shown impressive results on motion segmentation in dynamic environments. These methods perform spectral clustering on motion affinity matrices to cluster objects or point trajectories in the scene into different motion groups. However, existing methods often need the number of motions present in the scene to be known, which significantly reduces their practicality. In this paper, we propose a unified model selection technique to automatically infer the number of motion groups for spectral clustering based motion segmentation methods by combining different existing model selection techniques together. We evaluate our method on the KT3DMoSeg dataset and achieve competitve results comparing to the baseline where the number of clusters is given as ground truth information. | 翻訳日:2024-05-08 19:23:11 公開日:2024-05-06 |
# 微分可能プログラミングによる不確かさ定量化を伴う結合パラメータとパラメータ化推定
Joint Parameter and Parameterization Inference with Uncertainty Quantification through Differentiable Programming ( http://arxiv.org/abs/2403.02215v3 ) ライセンス: Link先を確認 | Yongquan Qu, Mohamed Aziz Bhouri, Pierre Gentine, | (参考訳) 数値化不確実性のある数値シミュレーションにおけるパラメータ化(または閉包)による未知およびサブグリッド物理過程の正確な表現は、天気予報から乱流シミュレーションまで多くの問題を支配している粗粒偏微分方程式を解くために重要である。
近年、機械学習(ML)がこれらのサブグリッドプロセスのモデル化にますます応用され、数値解法との統合によるハイブリッド物理-MLモデルの開発が進んでいる。
本研究では,不確実な定量化を伴う物理パラメータと機械学習パラメータの同時推定のための新しいフレームワークを提案する。
本フレームワークは,高次元パラメータ空間内でのオンライン学習と効率的なベイズ推論を,微分可能プログラミングにより促進する。
この概念の証明は、機械学習と微分方程式を相乗的に組み合わせることで、微分可能プログラミングの実質的な可能性を強調し、それによってハイブリッド物理-MLモデリングの能力を高める。
Accurate representations of unknown and sub-grid physical processes through parameterizations (or closure) in numerical simulations with quantified uncertainty are critical for resolving the coarse-grained partial differential equations that govern many problems ranging from weather and climate prediction to turbulence simulations. Recent advances have seen machine learning (ML) increasingly applied to model these subgrid processes, resulting in the development of hybrid physics-ML models through the integration with numerical solvers. In this work, we introduce a novel framework for the joint estimation of physical parameters and machine learning parameterizations with uncertainty quantification. Our framework incorporates online training and efficient Bayesian inference within a high-dimensional parameter space, facilitated by differentiable programming. This proof of concept underscores the substantial potential of differentiable programming in synergistically combining machine learning with differential equations, thereby enhancing the capabilities of hybrid physics-ML modeling. | 翻訳日:2024-05-08 19:23:11 公開日:2024-05-06 |
# スコアアイデンティティ蒸留:1ステップ生成のための予混合拡散モデルの指数的高速蒸留
Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation ( http://arxiv.org/abs/2404.04057v2 ) ライセンス: Link先を確認 | Mingyuan Zhou, Huangjie Zheng, Zhendong Wang, Mingzhang Yin, Hai Huang, | (参考訳) Score Identity Distillation (SiD) は、事前学習した拡散モデルの生成能力を1ステップ生成器に蒸留する革新的なデータフリー手法である。
SiDは、蒸留中のFr'echet開始距離(FID)を指数的に高速に減少させるだけでなく、元の教師拡散モデルのFID性能に近づいたり、超えたりする。
半単純分布として前方拡散過程を再構成することにより、3つのスコア関連アイデンティティを活用して革新的な損失機構を創出する。
この機構は、独自の合成画像を用いてジェネレータを訓練することにより、高速なFID削減を実現する。
4つのベンチマークデータセットで評価すると、SiDアルゴリズムは蒸留中の高いイテレーション効率を示し、生成品質の観点から1段階か2段階か、データフリーか、あるいはトレーニングデータに依存しているか、競合する蒸留アプローチを超越する。
この成果は、拡散蒸留における効率と有効性のためのベンチマークを再定義するだけでなく、拡散ベース生成の幅広い分野にも及んでいる。
PyTorchの実装はhttps://github.com/mingyuanzhou/SiDで公開されている。
We introduce Score identity Distillation (SiD), an innovative data-free method that distills the generative capabilities of pretrained diffusion models into a single-step generator. SiD not only facilitates an exponentially fast reduction in Fr\'echet inception distance (FID) during distillation but also approaches or even exceeds the FID performance of the original teacher diffusion models. By reformulating forward diffusion processes as semi-implicit distributions, we leverage three score-related identities to create an innovative loss mechanism. This mechanism achieves rapid FID reduction by training the generator using its own synthesized images, eliminating the need for real data or reverse-diffusion-based generation, all accomplished within significantly shortened generation time. Upon evaluation across four benchmark datasets, the SiD algorithm demonstrates high iteration efficiency during distillation and surpasses competing distillation approaches, whether they are one-step or few-step, data-free, or dependent on training data, in terms of generation quality. This achievement not only redefines the benchmarks for efficiency and effectiveness in diffusion distillation but also in the broader field of diffusion-based generation. The PyTorch implementation is available at https://github.com/mingyuanzhou/SiD | 翻訳日:2024-05-08 19:03:36 公開日:2024-05-06 |
# QAOAにおけるオーバーラップギャップ特性制限リミットスワップ
The Overlap Gap Property limits limit swapping in QAOA ( http://arxiv.org/abs/2404.06087v2 ) ライセンス: Link先を確認 | Mark Xin Hong Goh, | (参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm、QAOA)は、組合せ最適化問題(COP)のために設計された量子アルゴリズムである。
基礎となる Erd\"os--R'enyi ハイパーグラフを持つ COP がオーバーラップギャップ特性 (OGP) を示す場合、ランダムな正規ハイパーグラフもそれを示す。
例えば、Erd\"os-R'enyiハイパーグラフ上のMax-$q$-XORSATがOGPを示すことが知られており、純$q$-spinモデルに対するQAOAのパフォーマンスは、大容量正規ハイパーグラフ上のMax-$q$-XORSATと漸近的に一致していることから、QAOAが純$q$-spinモデルに対して得られる平均ケース値は、q\ge 4$であっても、アルゴリズムが無期限に実行しても最適性から逸脱していることを示す。
このことは、QAOAにおける極限スワップの有効性に対する必要条件は、与えられた組合せ最適化問題における OGP の欠如であることを示している。
さらに, スピンガラス上でのQAOAの性能は, スピンガラスの平均解法における古典的アルゴリズムと同等であり, シェリントン-カークパトリックモデルに対して, 厳密な解を得るという予想が真であることを示す証拠が得られた。
The Quantum Approximate Optimization Algorithm (QAOA) is a quantum algorithm designed for Combinatorial Optimization Problem (COP). We show that if a COP with an underlying Erd\"os--R\'enyi hypergraph exhibits the Overlap Gap Property (OGP), then a random regular hypergraph exhibits it as well. Given that Max-$q$-XORSAT on an Erd\"os--R\'enyi hypergraph is known to exhibit the OGP, and since the performance of QAOA for the pure $q$-spin model matches asymptotically for Max-$q$-XORSAT on large-girth regular hypergraph, we show that the average-case value obtained by QAOA for the pure $q$-spin model for even $q\ge 4$ is bounded away from optimality even when the algorithm runs indefinitely. This suggests that a necessary condition for the validity of limit swapping in QAOA is the absence of OGP in a given combinatorial optimization problem. Furthermore, the results suggests that even when sub-optimised, the performance of QAOA on spin glass is equal in performance to classical algorithms in solving the mean field spin glass problem providing further evidence that the conjecture of getting the exact solution under limit swapping for the Sherrington--Kirkpatrick model to be true. | 翻訳日:2024-05-08 19:03:36 公開日:2024-05-06 |
# オールツーオールイジングモデルの量子アニーリングのためのスケーラブルな2局所アーキテクチャ
A scalable 2-local architecture for quantum annealing of all-to-all Ising models ( http://arxiv.org/abs/2404.06861v2 ) ライセンス: Link先を確認 | Ana Palacios, Artur Garcia-Saez, Marta P. Estarellas, | (参考訳) 密度の高い接続性を実現することは、今日のほとんどの量子コンピューティングプラットフォームにとって課題であり、量子アニールアプリケーションにとって特に重要な課題である。
この文脈では、次数$d=3$のグラフ上に定義された量子異方体のためのスケーラブルなアーキテクチャを示し、全対全連結イジングモデルを実現するために、排他的に2つの局所相互作用を含む。
これは、三角形の点における問題の記述から導かれるような、量子ビットの論理的鎖の効率的なブレイディングである。
我々はまた、論理的解空間の対称性により適したドライバーハミルトニアンに基づく、より大きな物理ヒルベルト空間によるギャップの高速縮小など、スケーラブルなアーキテクチャの課題に対処する戦略を考案した。
したがって、量子アニールパラダイム内での古典的な最適化タスク専用のデバイスをスケールアップするための代替ルートを示す。
Achieving dense connectivities is a challenge for most quantum computing platforms today, and a particularly crucial one for the case of quantum annealing applications. In this context, we present a scalable architecture for quantum annealers defined on a graph of degree $d=3$ and containing exclusively 2-local interactions to realize an all-to-all connected Ising model. This amounts to an efficient braiding of logical chains of qubits which can be derived from a description of the problem in terms of triangles. We also devise strategies to address the challenges of scalable architectures, such as the faster shrinking of the gap due to the larger physical Hilbert space, based on driver Hamiltonians more suited to the symmetries of the logical solution space. We thus show an alternative route to scale up devices dedicated to classical optimization tasks within the quantum annealing paradigm. | 翻訳日:2024-05-08 19:03:36 公開日:2024-05-06 |
# ネットワーク環境における量子セキュリティリスクのナビゲート:量子セーフネットワークプロトコルの総合的研究
Navigating Quantum Security Risks in Networked Environments: A Comprehensive Study of Quantum-Safe Network Protocols ( http://arxiv.org/abs/2404.08232v2 ) ライセンス: Link先を確認 | Yaser Baseri, Vikas Chouhan, Abdelhakim Hafid, | (参考訳) 量子コンピューティングの出現は、古典的な暗号アルゴリズムによって伝統的に保護されてきたネットワークプロトコルに対して、重大なセキュリティ上の課題をもたらす。
本稿では、TLS、IPsec、SSH、PGPなどを含むTCP/IPモデルの層にまたがる様々なセキュリティプロトコルにおいて、量子コンピューティングによって導入された脆弱性を網羅的に分析する。
本研究は、各プロトコルの様々な移行段階における量子敵による悪用による脆弱性の特定と、関連するリスクと安全性の高い通信結果の評価に焦点をあてる。
量子コンピューティングが各プロトコルに与える影響を深く掘り下げ、量子攻撃による潜在的な脅威を強調し、量子後暗号ソリューションの有効性を精査する。
本研究は,ネットワークプロトコルがポストクォータ時代に直面する脆弱性やリスクを慎重に評価することによって,適切な対策の開発を導く上で重要な知見を提供する。
我々の研究は、量子コンピューティングがネットワークセキュリティに与える影響のより広範な理解に寄与し、量子コンピューティングの進歩に伴う課題に対処するプロトコルデザイナ、実装者、政策立案者に実践的なガイダンスを提供する。
この包括的な研究は、量子時代のネットワーク環境のセキュリティを強化するための重要なステップである。
The emergence of quantum computing poses a formidable security challenge to network protocols traditionally safeguarded by classical cryptographic algorithms. This paper provides an exhaustive analysis of vulnerabilities introduced by quantum computing in a diverse array of widely utilized security protocols across the layers of the TCP/IP model, including TLS, IPsec, SSH, PGP, and more. Our investigation focuses on precisely identifying vulnerabilities susceptible to exploitation by quantum adversaries at various migration stages for each protocol while also assessing the associated risks and consequences for secure communication. We delve deep into the impact of quantum computing on each protocol, emphasizing potential threats posed by quantum attacks and scrutinizing the effectiveness of post-quantum cryptographic solutions. Through carefully evaluating vulnerabilities and risks that network protocols face in the post-quantum era, this study provides invaluable insights to guide the development of appropriate countermeasures. Our findings contribute to a broader comprehension of quantum computing's influence on network security and offer practical guidance for protocol designers, implementers, and policymakers in addressing the challenges stemming from the advancement of quantum computing. This comprehensive study is a crucial step toward fortifying the security of networked environments in the quantum age. | 翻訳日:2024-05-08 19:03:36 公開日:2024-05-06 |
# 量子エントロピー対の幾何学的問題
Quantum entropy couples matter with geometry ( http://arxiv.org/abs/2404.08556v2 ) ライセンス: Link先を確認 | Ginestra Bianconi, | (参考訳) 我々は、高次ネットワーク上の離散幾何学、すなわちセルコンプレックス上の物質場を結合する理論を提案する。
このアプローチの鍵となる考え方は、その計量の量子エントロピーを高次のネットワークに関連付けることである。
具体的には、高階ネットワークの計量と物質とゲージ場によって誘導される計量との間の量子相対エントロピーによって与えられる作用を提案する。
誘導計量はトポロジカルスピノルと離散ディラック作用素の項で定義される。
ノード、エッジ、高次元セルで定義されたトポロジカルスピノルは、物質場を符号化する。
離散ディラック作用素はトポロジカルスピノル上で作用し、高階ネットワークの計量と極小置換の離散版によるゲージ場に依存する。
距離、物質およびゲージ場に対する結合力学方程式を導出し、離散曲線空間における場理論方程式を得るための情報理論の原理を提供する。
We propose a theory for coupling matter fields with discrete geometry on higher-order networks, i.e. cell complexes. The key idea of the approach is to associate to a higher-order network the quantum entropy of its metric. Specifically we propose an action given by the quantum relative entropy between the metric of the higher-order network and the metric induced by the matter and gauge fields. The induced metric is defined in terms of the topological spinors and the discrete Dirac operators. The topological spinors, defined on nodes, edges and higher-dimensional cells, encode for the matter fields. The discrete Dirac operators act on topological spinors, and depend on the metric of the higher-order network as well as on the gauge fields via a discrete version of the minimal substitution. We derive the coupled dynamical equations for the metric, the matter and the gauge fields, providing an information theory principle to obtain the field theory equations in discrete curved space. | 翻訳日:2024-05-08 19:03:36 公開日:2024-05-06 |
# 3DGen:AIによる、おそらく正しいバイナリフォーマットパーザの生成
3DGen: AI-Assisted Generation of Provably Correct Binary Format Parsers ( http://arxiv.org/abs/2404.10362v2 ) ライセンス: Link先を確認 | Sarah Fakhoury, Markus Kuppe, Shuvendu K. Lahiri, Tahina Ramananandro, Nikhil Swamy, | (参考訳) 特にプログラマがRFCの非公式な形式記述を低レベルのメモリアンセーフな言語で効率的に解析するロジックに書き起こす場合である。
何人かの研究者が、効率的なコードを抽出できるデータフォーマットの正式な仕様言語を提案している。
しかし、非公式な要件を形式的な仕様に抽出することは困難であり、その利点にもかかわらず、新しい形式言語は人々が学び、使うのが難しい。
本稿では,AIエージェントを用いて自然言語文書(RFC)やサンプル入力を3Dと呼ばれる言語でフォーマット仕様に変換する3DGenを提案する。
生成された仕様を理解し信頼するために、3DGenはシンボリックメソッドを使用して、外部のオラクルに対して検証可能なテストインプットを合成する。
シンボリックテスト生成は、複数の可算解の区別にも役立つ。
我々は、20のインターネット標準フォーマットで3DGenを評価し、AIエージェントが公式に認証されたCコードを非自明なスケールで生成する可能性を実証した。
重要なイネーブルは、AI出力を、自動化されたシンボリック分析が抽出可能なクラスに制限するために、ドメイン固有の言語を使用することである。
Improper parsing of attacker-controlled input is a leading source of software security vulnerabilities, especially when programmers transcribe informal format descriptions in RFCs into efficient parsing logic in low-level, memory unsafe languages. Several researchers have proposed formal specification languages for data formats from which efficient code can be extracted. However, distilling informal requirements into formal specifications is challenging and, despite their benefits, new, formal languages are hard for people to learn and use. In this work, we present 3DGen, a framework that makes use of AI agents to transform mixed informal input, including natural language documents (i.e., RFCs) and example inputs into format specifications in a language called 3D. To support humans in understanding and trusting the generated specifications, 3DGen uses symbolic methods to also synthesize test inputs that can be validated against an external oracle. Symbolic test generation also helps in distinguishing multiple plausible solutions. Through a process of repeated refinement, 3DGen produces a 3D specification that conforms to a test suite, and which yields safe, efficient, provably correct, parsing code in C. We have evaluated 3DGen on 20 Internet standard formats, demonstrating the potential for AI-agents to produce formally verified C code at a non-trivial scale. A key enabler is the use of a domain-specific language to limit AI outputs to a class for which automated, symbolic analysis is tractable. | 翻訳日:2024-05-08 19:03:36 公開日:2024-05-06 |
# 英語学習者によるコード交替文の文法的誤り訂正
Grammatical Error Correction for Code-Switched Sentences by Learners of English ( http://arxiv.org/abs/2404.12489v2 ) ライセンス: Link先を確認 | Kelvin Wey Han Chan, Christopher Bryant, Li Nguyen, Andrew Caines, Zheng Yuan, | (参考訳) コードスイッチング(英: Code-switching, CSW)は、複数の言語が単一の言説や発話で使用される多言語話者に共通する現象である。
しかし、既存の文法誤り訂正(GEC)システムはモノリンガルデータに基づいて訓練されており、CSWを念頭に置いては開発されていない。
本研究では,CSW テキスト上での GEC システムの利用を初めて検討する。
そこで本研究では,既存のGECコーパス内のテキストを翻訳することで,合成CSW GECデータセットを生成する新しい手法を提案する。
次に、CSW比、スイッチポイント係数、言語制約に基づいてこれらのスパンを選択する様々な方法を検討し、それらがCSWテキスト上でのGECシステムの性能にどのように影響するかを明らかにする。
CSWテストセット3つ(英語、韓国、英語、日本語)の平均1.57ドルF_{0.5}$をモノリンガルデータセット上でのモデルの性能に影響を与えることなく達成する。
さらに、あるCSW言語で訓練されたモデルは、他のCSW言語と比較的よく類似していることがわかった。
Code-switching (CSW) is a common phenomenon among multilingual speakers where multiple languages are used in a single discourse or utterance. Mixed language utterances may still contain grammatical errors however, yet most existing Grammar Error Correction (GEC) systems have been trained on monolingual data and not developed with CSW in mind. In this work, we conduct the first exploration into the use of GEC systems on CSW text. Through this exploration, we propose a novel method of generating synthetic CSW GEC datasets by translating different spans of text within existing GEC corpora. We then investigate different methods of selecting these spans based on CSW ratio, switch-point factor and linguistic constraints, and identify how they affect the performance of GEC systems on CSW text. Our best model achieves an average increase of 1.57 $F_{0.5}$ across 3 CSW test sets (English-Chinese, English-Korean and English-Japanese) without affecting the model's performance on a monolingual dataset. We furthermore discovered that models trained on one CSW language generalise relatively well to other typologically similar CSW languages. | 翻訳日:2024-05-08 18:53:50 公開日:2024-05-06 |
# 検索のタイミング:情報検索を効果的に活用するためのLLM教育
When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively ( http://arxiv.org/abs/2404.19705v2 ) ライセンス: Link先を確認 | Tiziano Labruna, Jon Ander Campos, Gorka Azkune, | (参考訳) 本稿では,Large Language Models (LLMs) が,与えられた質問に答えるために追加のコンテキストを必要とする場合に,オフ・ザ・シェルフ情報検索 (IR) システムを用いて効果的に学習できることを実証する。
IRシステムの性能を考えると、質問応答の最適戦略は外部情報検索を必ずしも必要とせず、LLM自体のパラメトリックメモリを利用することが多い。
以前の研究では、この現象をPopQAデータセットで特定しており、最も一般的な質問はLLMのパラメトリックメモリを使用して効果的に対処されている。
次に、既存のオープンドメイン質問応答データセットを活用して、LLMのための調整されたトレーニング手法を提案する。
そこでLLMは,質問に対する答えがわからない場合に,特別なトークン<RET>を生成するように訓練される。
PopQAデータセット上のAdaptive Retrieval LLM(Adapt-LLM)の評価では、同じLLMに対して3つの構成で改善が示されている。
一 すべての質問について情報を取得すること。
二 LLMのパラメトリックメモリを常に使用すること、及び
三 人気閾値を用いて、レトリバーをいつ使うかを決定すること。
分析の結果,Adapt-LLM が<RET> トークンを生成できることが示され,IR の必要性が示される質問に答える方法がわからないこと,パラメトリックメモリのみに頼っている場合の精度が顕著に向上していることが確認された。
In this paper, we demonstrate how Large Language Models (LLMs) can effectively learn to use an off-the-shelf information retrieval (IR) system specifically when additional context is required to answer a given question. Given the performance of IR systems, the optimal strategy for question answering does not always entail external information retrieval; rather, it often involves leveraging the parametric memory of the LLM itself. Prior research has identified this phenomenon in the PopQA dataset, wherein the most popular questions are effectively addressed using the LLM's parametric memory, while less popular ones require IR system usage. Following this, we propose a tailored training approach for LLMs, leveraging existing open-domain question answering datasets. Here, LLMs are trained to generate a special token, <RET>, when they do not know the answer to a question. Our evaluation of the Adaptive Retrieval LLM (Adapt-LLM) on the PopQA dataset showcases improvements over the same LLM under three configurations: (i) retrieving information for all the questions, (ii) using always the parametric memory of the LLM, and (iii) using a popularity threshold to decide when to use a retriever. Through our analysis, we demonstrate that Adapt-LLM is able to generate the <RET> token when it determines that it does not know how to answer a question, indicating the need for IR, while it achieves notably high accuracy levels when it chooses to rely only on its parametric memory. | 翻訳日:2024-05-08 18:43:54 公開日:2024-05-06 |
# iMTSP: インペラティブ学習による最小限のマルチトラベリングセールスマン問題の解決
iMTSP: Solving Min-Max Multiple Traveling Salesman Problem with Imperative Learning ( http://arxiv.org/abs/2405.00285v2 ) ライセンス: Link先を確認 | Yifan Guo, Zhongqiang Ren, Chen Wang, | (参考訳) 本稿では,各エージェントが各都市を総括して訪問し,最長ツアーの長さを最小化することを目的とした,MTSP(Min-Max Multiple Traveling Salesman Problem)について考察する。
MTSPは広く研究されているが、NP硬度のため、大規模問題に対する準最適解を得ることは依然として困難である。
データ駆動手法の最近の取り組みは、厳密な監督の必要性と勾配推定のばらつきに直面する問題に直面する。
本稿では,インペラティブラーニング(IL)の概念を用いて,MTSPを二段階最適化問題として再定義することでこの問題に対処する。
これには、MTSPを複数の単一エージェントの旅行セールスマン問題(TSP)に分解するアロケーションネットワークの導入が含まれる。
これらのTSPソリューションからの最長のツアーは、アロケーションネットワークを自己監督するために使用され、その結果、新しい自己監督型、双方向のエンドツーエンド学習フレームワークが生まれ、これは命令型MTSP(iMTSP)と呼ばれる。
また、最適化中の高分散勾配問題に対処するために、制御変数に基づく勾配推定アルゴリズムを導入する。
以上の結果から,Google OR-Tools MTSPソルバと比較して,勾配推定器が高度強化学習ベースラインよりも20%高速に収束し,ツアー長が最大80%短いことが示唆された。
This paper considers a Min-Max Multiple Traveling Salesman Problem (MTSP), where the goal is to find a set of tours, one for each agent, to collectively visit all the cities while minimizing the length of the longest tour. Though MTSP has been widely studied, obtaining near-optimal solutions for large-scale problems is still challenging due to its NP-hardness. Recent efforts in data-driven methods face challenges of the need for hard-to-obtain supervision and issues with high variance in gradient estimations, leading to slow convergence and highly suboptimal solutions. We address these issues by reformulating MTSP as a bilevel optimization problem, using the concept of imperative learning (IL). This involves introducing an allocation network that decomposes the MTSP into multiple single-agent traveling salesman problems (TSPs). The longest tour from these TSP solutions is then used to self-supervise the allocation network, resulting in a new self-supervised, bilevel, end-to-end learning framework, which we refer to as imperative MTSP (iMTSP). Additionally, to tackle the high-variance gradient issues during the optimization, we introduce a control variate-based gradient estimation algorithm. Our experiments showed that these innovative designs enable our gradient estimator to converge 20% faster than the advanced reinforcement learning baseline and find up to 80% shorter tour length compared with Google OR-Tools MTSP solver, especially in large-scale problems (e.g. 1000 cities and 15 agents). | 翻訳日:2024-05-08 18:43:54 公開日:2024-05-06 |
# Few-Shot画像分類のためのクラス関連パッチ埋め込み選択
Class-relevant Patch Embedding Selection for Few-Shot Image Classification ( http://arxiv.org/abs/2405.03722v1 ) ライセンス: Link先を確認 | Weihao Jiang, Haoyang Cui, Kun He, | (参考訳) 効果的な画像分類は、前景と背景要素の両方から関連する特徴を識別し、前景は、通常、重要なインフォメータオンを保持する。
人間は画像に限られた露出で分類するが、ニューラルネットワークは希少なサンプルからの特徴選択に苦慮することが多い。
この課題に対処するために,クラス関連パッチの埋め込みを選択する新しい手法を提案する。
我々のap-proachは、サポートとクエリイメージをパッチに分割し、トレーニング済みのViT(Vision Transformer)を使ってそれらをエンコードして、それぞれクラス埋め込みとパッチ埋め込みを取得します。
その後、クラス埋め込みを使用してパッチ埋め込みをフィルタリングし、クラス関連のみを保持する。
各画像に対して、クラス埋め込みと各パッチ埋め込みの類似度を算出し、類似度シーケンスを下位順にソートし、トップランクのパッチ埋め込みのみを保持する。
クラス埋め込みとパッチ埋め込みの類似性を優先順位付けすることで、クラス埋め込みと融合して包括的なイメージ表現を形成するトップランクのパッチ埋め込みを選択し、インスタンス間のパターン認識を強化します。
我々の戦略は、クラス非関連パッチ埋め込みの影響を効果的に軽減し、事前訓練されたモデルの性能を向上させる。
一般的な数ショット分類ベンチマークによる大規模な実験は、我々のアプローチのシム・プライオリティ、有効性、計算効率を示し、5ショットと1ショットの両方のシナリオで最先端のベースラインを上回ります。
Effective image classification hinges on discerning relevant features from both foreground and background ele- ments, with the foreground typically holding the critical informa- tion. While humans adeptly classify images with limited exposure, artificial neural networks often struggle with feature selection from rare samples. To address this challenge, we propose a novel method for selecting class-relevant patch embeddings. Our ap- proach involves splitting support and query images into patches, encoding them using a pre-trained Vision Transformer (ViT) to obtain class embeddings and patch embeddings, respectively. Subsequently, we filter patch embeddings using class embeddings to retain only the class-relevant ones. For each image, we calculate the similarity between class embedding and each patch embed- ding, sort the similarity sequence in descending order, and only retain top-ranked patch embeddings. By prioritizing similarity between the class embedding and patch embeddings, we select top-ranked patch embeddings to be fused with class embedding to form a comprehensive image representation, enhancing pattern recognition across instances. Our strategy effectively mitigates the impact of class-irrelevant patch embeddings, yielding improved performance in pre-trained models. Extensive experiments on popular few-shot classification benchmarks demonstrate the sim- plicity, efficacy, and computational efficiency of our approach, outperforming state-of-the-art baselines under both 5-shot and 1-shot scenarios. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# 最適入力次元をもつ生成逆学習とその適応生成器アーキテクチャ
Generative adversarial learning with optimal input dimension and its adaptive generator architecture ( http://arxiv.org/abs/2405.03723v1 ) ライセンス: Link先を確認 | Zhiyao Tan, Ling Zhou, Huazhen Lin, | (参考訳) 本稿では,GANの一般化誤差に対する入力次元の影響について検討する。
特に、一般化誤差を最小化する最適入力次元(OID)の存在を検証するための理論的および実践的な証拠をまず提示する。
そして,OIDを識別するために,既存のGANを特殊なケースとして含む一般化GAN(Generalized GANs, G-GANs)という新しいフレームワークを導入する。
本論文で開発されたグループペナルティとアーキテクチャペナルティを取り入れることで、G-GANにはいくつかの興味深い特徴がある。
まず、本フレームワークは、初期次元から目標分布を生成するために必要な次元への適応的な次元性還元を提供する。
第二に、この次元の減少は、提案したアーキテクチャペナルティによって自動的に識別されるジェネレータネットワークアーキテクチャに必要なサイズを縮小する。
次元の低減とジェネレータネットワークの両面において,推定と予測の安定性と精度が著しく向上した。
入力次元とジェネレータネットワークの一貫性のある選択に関する理論的支援を提供する。
第三に、提案アルゴリズムは、エンドツーエンドのトレーニングプロセスを含み、このアルゴリズムは、トレーニング中に入力次元とジェネレータネットワークの間の動的調整を可能にし、G-GANの全体的な性能をさらに向上させる。
シミュレーションおよびベンチマークデータを用いて行った大規模な実験は、G-GANの優れた性能を示す。
特に、市販の方法と比較して、G-GANsはCTスライスデータセットで45.68%、MNISTデータセットで43.22%、FashionMNISTデータセットで46.94%の改善を実現している。
さらに、G-GANによって識別される入力次元に基づいて生成された特徴は、視覚的に重要な特徴と一致している。
We investigate the impact of the input dimension on the generalization error in generative adversarial networks (GANs). In particular, we first provide both theoretical and practical evidence to validate the existence of an optimal input dimension (OID) that minimizes the generalization error. Then, to identify the OID, we introduce a novel framework called generalized GANs (G-GANs), which includes existing GANs as a special case. By incorporating the group penalty and the architecture penalty developed in the paper, G-GANs have several intriguing features. First, our framework offers adaptive dimensionality reduction from the initial dimension to a dimension necessary for generating the target distribution. Second, this reduction in dimensionality also shrinks the required size of the generator network architecture, which is automatically identified by the proposed architecture penalty. Both reductions in dimensionality and the generator network significantly improve the stability and the accuracy of the estimation and prediction. Theoretical support for the consistent selection of the input dimension and the generator network is provided. Third, the proposed algorithm involves an end-to-end training process, and the algorithm allows for dynamic adjustments between the input dimension and the generator network during training, further enhancing the overall performance of G-GANs. Extensive experiments conducted with simulated and benchmark data demonstrate the superior performance of G-GANs. In particular, compared to that of off-the-shelf methods, G-GANs achieves an average improvement of 45.68% in the CT slice dataset, 43.22% in the MNIST dataset and 46.94% in the FashionMNIST dataset in terms of the maximum mean discrepancy or Frechet inception distance. Moreover, the features generated based on the input dimensions identified by G-GANs align with visually significant features. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# GraphSL: グラフソースのローカライゼーションアプローチとベンチマークデータセットのためのオープンソースライブラリ
GraphSL: An Open-Source Library for Graph Source Localization Approaches and Benchmark Datasets ( http://arxiv.org/abs/2405.03724v1 ) ライセンス: Link先を確認 | Junxiang Wang, Liang Zhao, | (参考訳) グラフソースのローカライゼーション問題を調べるために設計された新しいライブラリであるGraphSLを提案する。
本ライブラリは,情報拡散をシミュレーションするための様々なグラフ拡散モデルの探索を容易にするとともに,確立したベンチマークデータセットに対する最先端のソースローカライゼーション手法の評価を可能にする。
GraphSLのソースコードは \url{https://github.com/xianggebenben/GraphSL} で公開されている。
バグレポートとフィードバックはGithubイシューページ(\url{https://github.com/xianggebenben/GraphSL/ Issues})に反映できる。
We present GraphSL, a novel library designed for investigating the graph source localization problem. Our library facilitates the exploration of various graph diffusion models for simulating information spread and enables the evaluation of cutting-edge source localization approaches on established benchmark datasets. The source code of GraphSL is made available at \url{https://github.com/xianggebenben/GraphSL}. Bug reports and feedback can be directed to the Github issues page (\url{https://github.com/xianggebenben/GraphSL/issues}). | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# 深部振動ニューラルネット
Deep Oscillatory Neural Network ( http://arxiv.org/abs/2405.03725v1 ) ライセンス: Link先を確認 | Nurani Rajagopal Rohan, Vigneswaran C, Sayan Ghosh, Kishore Rajendran, Gaurav A, V Srinivasa Chakravarthy, | (参考訳) 本稿では,脳にインスパイアされた新しいディープニューラルネットワークモデルであるDeep Oscillatory Neural Network (DONN)を提案する。
Recurrent Neural Networksのようなディープニューラルネットワークは、実際にシーケンス処理能力を持っているが、ネットワークの内部状態は脳に似た振動活性を示すように設計されていない。
このモチベーションにより、DONNは振動する内部ダイナミクスを持つように設計されている。
DONNのニューロンは、非線形神経発振器か、SigmoidalやReLUを活性化する従来のニューロンである。
モデルで使用される神経発振器はホップ発振器であり、複雑な領域で記述される力学である。
入力は3つの可能なモードでニューラル発振器に提示できる。
シグモイドニューロンとReLUニューロンも複素値拡張を用いる。
全ての重み付け段階も複雑に評価されている。
トレーニングは出力誤差を最小化することで重量変化の一般的な原理に従い、したがって複雑なバックプロパゲーションと全体的な類似性を持つ。
また、Oscillatory Convolutional Neural Networkとして知られる畳み込みネットワークへのDONNの一般化も提案されている。
提案した2つの発振ネットワークは、信号処理と画像/ビデオ処理における様々なベンチマーク問題に適用される。
提案したモデルの性能は、同じデータセット上で公表された結果に匹敵するか、優れているかのいずれかである。
We propose a novel, brain-inspired deep neural network model known as the Deep Oscillatory Neural Network (DONN). Deep neural networks like the Recurrent Neural Networks indeed possess sequence processing capabilities but the internal states of the network are not designed to exhibit brain-like oscillatory activity. With this motivation, the DONN is designed to have oscillatory internal dynamics. Neurons of the DONN are either nonlinear neural oscillators or traditional neurons with sigmoidal or ReLU activation. The neural oscillator used in the model is the Hopf oscillator, with the dynamics described in the complex domain. Input can be presented to the neural oscillator in three possible modes. The sigmoid and ReLU neurons also use complex-valued extensions. All the weight stages are also complex-valued. Training follows the general principle of weight change by minimizing the output error and therefore has an overall resemblance to complex backpropagation. A generalization of DONN to convolutional networks known as the Oscillatory Convolutional Neural Network is also proposed. The two proposed oscillatory networks are applied to a variety of benchmark problems in signal and image/video processing. The performance of the proposed models is either comparable or superior to published results on the same data sets. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# sc-OTGM:ガウス混合体の多様体上での最適物質輸送の解法による単セル摂動モデリング
sc-OTGM: Single-Cell Perturbation Modeling by Solving Optimal Mass Transport on the Manifold of Gaussian Mixtures ( http://arxiv.org/abs/2405.03726v1 ) ライセンス: Link先を確認 | Andac Demir, Elizaveta Solovyeva, James Boylan, Mei Xiao, Fabrizio Serluca, Sebastian Hoersch, Jeremy Jenkins, Murthy Devarakonda, Bulent Kiziltan, | (参考訳) LLMのブレークスルーの影響により、シングルセルファウンデーションモデルが出現している。
これらのモデルは, 細胞型クラスタリング, 表現型分類, 遺伝子摂動応答予測において良好な性能を示すが, より単純なモデルで, 特に限られたデータを用いて, 比較あるいはより良い結果が得られるかどうかは不明である。
シングルセルデータの量と品質は、通常、LLMのトレーニングに使用されるテキストデータでは標準から外れているため、これは重要である。
シングルセルシークエンシングは、技術的アーティファクト、ドロップアウトイベント、バッチエフェクトに悩まされることが多い。
これらの課題は、細胞状態のラベルが騒々しくなり、さらに解析を複雑にする弱い制御された環境で複雑にされる。
これらの課題に対処するため、500K未満のパラメータを合理化した sc-OTGM を提案し、基礎モデルの約100倍のコンパクト化を実現し、効率的な代替手段を提供する。
sc-OTGMは、cRNAseqデータが有限多変量ガウス分布の組み合わせから生成されるという誘導バイアスに基づく教師なしモデルである。
sc-OTGMのコア機能は、GMMをそれ以前の分布として利用し、それぞれの限界PDFを学習することで、異なる細胞集団を区別する確率的潜在空間を作ることである。
これはHit-and-Run Markovチェインサンプリングを使用して、GMMフレームワーク内のこれらのPDF間でOTプランを決定する。
我々は、CRISPRによる摂動データセットであるCROP-seqを57個の1遺伝子摂動で評価した。
以上の結果から, sc-OTGMは細胞状態の分類, 差分遺伝子発現の解析に有効であること, およびレコメンダシステムを通じて標的同定のための遺伝子をランク付けできることが示唆された。
また、下流遺伝子制御に対する単一遺伝子の摂動の影響を予測し、特定の細胞状態に条件付けられた合成scRNA-seqデータを生成する。
Influenced by breakthroughs in LLMs, single-cell foundation models are emerging. While these models show successful performance in cell type clustering, phenotype classification, and gene perturbation response prediction, it remains to be seen if a simpler model could achieve comparable or better results, especially with limited data. This is important, as the quantity and quality of single-cell data typically fall short of the standards in textual data used for training LLMs. Single-cell sequencing often suffers from technical artifacts, dropout events, and batch effects. These challenges are compounded in a weakly supervised setting, where the labels of cell states can be noisy, further complicating the analysis. To tackle these challenges, we present sc-OTGM, streamlined with less than 500K parameters, making it approximately 100x more compact than the foundation models, offering an efficient alternative. sc-OTGM is an unsupervised model grounded in the inductive bias that the scRNAseq data can be generated from a combination of the finite multivariate Gaussian distributions. The core function of sc-OTGM is to create a probabilistic latent space utilizing a GMM as its prior distribution and distinguish between distinct cell populations by learning their respective marginal PDFs. It uses a Hit-and-Run Markov chain sampler to determine the OT plan across these PDFs within the GMM framework. We evaluated our model against a CRISPR-mediated perturbation dataset, called CROP-seq, consisting of 57 one-gene perturbations. Our results demonstrate that sc-OTGM is effective in cell state classification, aids in the analysis of differential gene expression, and ranks genes for target identification through a recommender system. It also predicts the effects of single-gene perturbations on downstream gene regulation and generates synthetic scRNA-seq data conditioned on specific cell states. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# 機械学習による大規模言語モデルの構築
Large Language Models Synergize with Automated Machine Learning ( http://arxiv.org/abs/2405.03727v1 ) ライセンス: Link先を確認 | Jinglue Xu, Zhen Liu, Nagar Anthel Venkatesh Suryanarayanan, Hitoshi Iba, | (参考訳) 近年,大規模言語モデル (LLM) によるコード生成が普及している。
しかし、機械学習(ML)タスクのためのコードの自動生成は、依然として大きな課題となっている。
本稿では,LLMと自動機械学習(autoML)を組み合わせたMLのプログラム合成限界について検討する。
具体的には、MLタスクのテキスト記述のみを利用して、データ準備からモデリング、後処理に至るまで、MLワークフロー全体のコード生成プロセスを完全に自動化することを目的としています。
MLプログラムの長さと多様性を管理するため,各プログラムを小さく,管理可能な部分に分割することを提案する。
各部品はLLMによって別々に生成され、適合性を慎重に考慮する。
この手法を実現するために,我々はMLプログラムのテスト手法を設計する。
さらに、私たちのアプローチはautoMLとの統合を可能にします。
提案手法では, AutoML は LLM が生成する ML プログラムを数値的に評価し,最適化する。
LLMは、理論的、アルゴリズム中心のAutoMLと実践的なAutoMLアプリケーションの間のギャップを埋めるのに役立つ。
この相互強化は、MLのプログラム合成におけるLLMとAutoMLの相乗効果を裏付ける。
各種MLタスクに対する実験では、MLプログラムを生成するための12タスク中10タスクにおいて、既存のメソッドよりも優れています。
さらに、AutoMLは生成されたMLプログラムのパフォーマンスを大幅に改善する。
実験では,MLタスクのテキスト記述のみに基づいて,MLパイプライン全体の完全自動合成を実現する。
Recently, code generation driven by large language models (LLMs) has become increasingly popular. However, automatically generating code for machine learning (ML) tasks still poses significant challenges. This paper explores the limits of program synthesis for ML by combining LLMs and automated machine learning (autoML). Specifically, our goal is to fully automate the code generation process for the entire ML workflow, from data preparation to modeling and post-processing, utilizing only textual descriptions of the ML tasks. To manage the length and diversity of ML programs, we propose to break each ML program into smaller, manageable parts. Each part is generated separately by the LLM, with careful consideration of their compatibilities. To implement the approach, we design a testing technique for ML programs. Furthermore, our approach enables integration with autoML. In our approach, autoML serves to numerically assess and optimize the ML programs generated by LLMs. LLMs, in turn, help to bridge the gap between theoretical, algorithm-centered autoML and practical autoML applications. This mutual enhancement underscores the synergy between LLMs and autoML in program synthesis for ML. In experiments across various ML tasks, our method outperforms existing methods in 10 out of 12 tasks for generating ML programs. In addition, autoML significantly improves the performance of the generated ML programs. In the experiments, our method, Text-to-ML, achieves fully automated synthesis of the entire ML pipeline based solely on textual descriptions of the ML tasks. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# GLHF:ハイパー関数による一般的な進化的アルゴリズム
GLHF: General Learned Evolutionary Algorithm Via Hyper Functions ( http://arxiv.org/abs/2405.03728v1 ) ライセンス: Link先を確認 | Xiaobin Li, Kai Wu, Yujian Betterest Li, Xiaoyu Zhang, Handing Wang, Jing Liu, | (参考訳) 事前最適化モデル(POM)は、様々なタスクの最適化から得られた知識を活用し、直接使用や微調整による新しい最適化課題に対する効率的な解決策を提供する。
現在のPOMで観測される非効率性と限定的な一般化能力にもかかわらず、提案モデルである一般事前学習最適化モデル(GPOM)はこれらの欠点に対処する。
GPOMは、継続最適化に適した、人口ベースで事前訓練されたブラックボックス最適化(BBO)モデルを構築する。
BBOBベンチマークと2つのロボット制御タスクの評価は、特に高次元タスクにおいて、GPOMが他の事前訓練されたBBOモデルを大幅に上回っていることを示す。
直接最適化性能は最先端の進化アルゴリズムやPOMよりも優れている。
さらに、GPOMは多様なタスク分布、次元、人口規模、最適化地平線にまたがる堅牢な一般化能力を示す。
Pretrained Optimization Models (POMs) leverage knowledge gained from optimizing various tasks, providing efficient solutions for new optimization challenges through direct usage or fine-tuning. Despite the inefficiencies and limited generalization abilities observed in current POMs, our proposed model, the general pre-trained optimization model (GPOM), addresses these shortcomings. GPOM constructs a population-based pretrained Black-Box Optimization (BBO) model tailored for continuous optimization. Evaluation on the BBOB benchmark and two robot control tasks demonstrates that GPOM outperforms other pretrained BBO models significantly, especially for high-dimensional tasks. Its direct optimization performance exceeds that of state-of-the-art evolutionary algorithms and POMs. Furthermore, GPOM exhibits robust generalization capabilities across diverse task distributions, dimensions, population sizes, and optimization horizons. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# Hadamard、離散コサイン、Haar行列の統合によるハイブリッド変換によるゴーストイメージング
Computational ghost imaging with hybrid transforms by integrating Hadamard, discrete cosine, and Haar matrices ( http://arxiv.org/abs/2405.03729v1 ) ライセンス: Link先を確認 | Yi-Ning Zhao, Lin-Shan Chen, Liu-Ya Chen, Lingxin Kong, Chong Wang, Cheng Ren, Su-Heng Zhang, De-Zhong Cao, | (参考訳) ハダマール、離散コサイン、ハール行列を統合することで、ハイブリッドトランスフォーメーションアプローチによるゴーストイメージングのシナリオを提案する。
測定行列は、2つの異なる変換行列のクロネッカー積によって形成される。
画像情報は、対応する逆行列によって都合よく再構成することができる。
実験では、6つのハイブリダイゼーションセットが計算ゴーストイメージングで実行される。
停滞したストライプのオブジェクトでは、ハダマール・コサイン、ハール・ハダマール、ハール・コサインのハイブリダイゼーションセットに1つのバケット信号しか残らず、フレキシブルな画像圧縮を示す。
手作り風車用オブジェクトの場合、再構成画像の品質要因はハイブリダイゼーションセットによって異なる。
サブニキストサンプリングは、実験における各ハイブリダイゼーションセットにおける異なる変換行列のいずれにも、両方にも適用することができる。
ハイブリッド化法は、一度により多くの変換を適用するように拡張することができる。
ハイブリッド変換を用いたゴーストイメージングは、画像圧縮や画像暗号化などの画像処理に柔軟な応用を見出すことができる。
A scenario of ghost imaging with hybrid transform approach is proposed by integrating Hadamard, discrete cosine, and Haar matrices. The measurement matrix is formed by the Kronecker product of the two different transform matrices. The image information can be conveniently reconstructed by the corresponding inverse matrices. In experiment, six hybridization sets are performed in computational ghost imaging. For an object of staggered stripes, only one bucket signal survives in the Hadamard-cosine, Haar-Hadamard, and Haar-cosine hybridization sets, demonstrating flexible image compression. For a handmade windmill object, the quality factors of the reconstructed images vary with the hybridization sets. Sub-Nyquist sampling can be applied to either or both of the different transform matrices in each hybridization set in experiment. The hybridization method can be extended to apply more transforms at once. Ghost imaging with hybrid transforms may find flexible applications in image processing, such as image compression and image encryption. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# 頭部の傾き:隠された空間的不等式を活性化する
Tilt your Head: Activating the Hidden Spatial-Invariance of Classifiers ( http://arxiv.org/abs/2405.03730v1 ) ライセンス: Link先を確認 | Johann Schmidt, Sebastian Stober, | (参考訳) ディープニューラルネットワークは、日々の生活の多くの領域に適用されている。
しかし、空間的に変換された入力信号に頑健に対処するなど、本質的な能力は依然として欠如している。
この厳密性問題を緩和するためのアプローチは2つの経路に限られる: モデルはサンプルの変動(データ拡張)の増加によって暗黙的に規則化されるか、ハードコードされた帰納バイアスによって明示的に制約される。
前者の制限要因はデータ空間のサイズであり、十分なサンプルカバレッジを引き出すことができる。
後者は、可能なシナリオごとにそのような帰納バイアスを開発するのに必要なエンジニアリングの労力によって制限される。
その代わり、私たちは人間の行動からインスピレーションを受けます。
本稿では,ニューラルネットの推論過程をエミュレートする新しい手法を提案する。
これは、並列エネルギーに基づく評価を用いて、推論中にスパース化逆変換木をトラバースすることで達成される。
Inverse Transformation Search (ITS) と呼ばれる提案した推論アルゴリズムは、モデルに依存しず、空間的に変換された入力にゼロショット擬似不変性を持たせる。
合成画像Netテストセットを含む複数のベンチマークデータセットを用いて,本手法の評価を行った。
ITSは、ゼロショットテストのシナリオで使用されるベースラインよりも優れています。
Deep neural networks are applied in more and more areas of everyday life. However, they still lack essential abilities, such as robustly dealing with spatially transformed input signals. Approaches to mitigate this severe robustness issue are limited to two pathways: Either models are implicitly regularised by increased sample variability (data augmentation) or explicitly constrained by hard-coded inductive biases. The limiting factor of the former is the size of the data space, which renders sufficient sample coverage intractable. The latter is limited by the engineering effort required to develop such inductive biases for every possible scenario. Instead, we take inspiration from human behaviour, where percepts are modified by mental or physical actions during inference. We propose a novel technique to emulate such an inference process for neural nets. This is achieved by traversing a sparsified inverse transformation tree during inference using parallel energy-based evaluations. Our proposed inference algorithm, called Inverse Transformation Search (ITS), is model-agnostic and equips the model with zero-shot pseudo-invariance to spatially transformed inputs. We evaluated our method on several benchmark datasets, including a synthesised ImageNet test set. ITS outperforms the utilised baselines on all zero-shot test scenarios. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# 深達度学習を用いたMR胆管膵管造影法
Accelerated MR Cholangiopancreatography with Deep Learning-based Reconstruction ( http://arxiv.org/abs/2405.03732v1 ) ライセンス: Link先を確認 | Jinho Kim, Marcel Dominik Nickel, Florian Knoll, | (参考訳) 本研究は,3Tおよび0.55Tのディープラーニング(DL)再構成を用いてMRCP(MRCP)の獲得を加速する。
健常者30名を対象に3T, 0.55Tのフィールド強度でMRCPスキャンを行った。
3Tで得られた6倍アンダーサンプルデータを用いて変動ネットワーク(VN)を訓練した。
そこで我々は,並列画像(PI)や圧縮センシング(CS)といった標準技術に対して,ピーク信号-雑音比(PSNR)と構造類似度(SSIM)に着目して評価を行った。
さらに,完全サンプリング型MRCPの取得は現実的ではなく,自己管理型DL再構成(SSDU)を評価グループに追加した。
また,本手法を現実臨床応用を反映し, MRCPへの適応性を0.55Tで評価した。
MRCPを3T/0.55Tで599/542から255/180秒に短縮した。
ふりかえりと予測アンダーサンプリングのシナリオでは、VNのPSNRとSSIMはPI、CS、SSDUよりも高かった。
同時にVNは,肝胆道の鋭さや可視性といったアンダーサンプリングデータの画質を保った。
さらに、VNは0.55Tで高品質な再構築を行い、PSNRとSSIMが最高になった。
要約すると、高度に加速されたMRCPのために訓練されたVNは、従来の取得の画質を維持しつつ、3T/0.55Tにおける2.4/3.0の係数で取得時間を短縮することができる。
This study accelerates MR cholangiopancreatography (MRCP) acquisitions using deep learning-based (DL) reconstruction at 3T and 0.55T. Thirty healthy volunteers underwent conventional two-fold MRCP scans at field strengths of 3T or 0.55T. We trained a variational network (VN) using retrospectively six-fold undersampled data obtained at 3T. We then evaluated our method against standard techniques such as parallel imaging (PI) and compressed sensing (CS), focusing on peak signal-to-noise ratio (PSNR) and structural similarity (SSIM) as metrics. Furthermore, considering acquiring fully-sampled MRCP is impractical, we added a self-supervised DL reconstruction (SSDU) to the evaluating group. We also tested our method in a prospective accelerated scenario to reflect real-world clinical applications and evaluated its adaptability to MRCP at 0.55T. Our method demonstrated a remarkable reduction of average acquisition time from 599/542 to 255/180 seconds for MRCP at 3T/0.55T. In both retrospective and prospective undersampling scenarios, the PSNR and SSIM of VN were higher than those of PI, CS, and SSDU. At the same time, VN preserved the image quality of undersampled data, i.e., sharpness and the visibility of hepatobiliary ducts. In addition, VN also produced high quality reconstructions at 0.55T resulting in the highest PSNR and SSIM. In summary, VN trained for highly accelerated MRCP allows to reduce the acquisition time by a factor of 2.4/3.0 at 3T/0.55T while maintaining the image quality of the conventional acquisition. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# FOKE: 基礎モデル、知識グラフ、即興エンジニアリングを統合したパーソナライズされた説明可能な教育フレームワーク
FOKE: A Personalized and Explainable Education Framework Integrating Foundation Models, Knowledge Graphs, and Prompt Engineering ( http://arxiv.org/abs/2405.03734v1 ) ライセンス: Link先を確認 | Silan Hu, Xiaoning Wang, | (参考訳) 大きな言語モデル(LLM)と知識グラフ(KG)を統合することは、知的教育に革命をもたらす大きな約束であるが、パーソナライゼーション、対話性、説明可能性の達成には課題が残る。
基礎モデルと知識グラフを相乗化し,これらの課題に対処するためのエンジニアリングを促す,知識と教育のフォレストであるFOKEを提案する。
FOKEは,(1)構造化ドメイン知識表現のための階層的知識林,(2)包括的学習者モデリングのための多次元ユーザプロファイル機構,(3)精密で調整された学習指導を生成するための対話的プロンプトエンジニアリングスキーム,という3つの重要なイノベーションを紹介している。
本稿では、プログラミング教育、宿題評価、学習経路計画におけるFOKEの応用について紹介し、その有効性と実用性を実証する。
さらに,FOKEのリアルタイムインスタンス化であるScholar Heroを実装した。
我々の研究は、基礎モデル、知識グラフの統合、そしてエンジニアリングがインテリジェントな教育実践に革命をもたらす可能性を強調し、最終的には世界中の学習者に利益をもたらす。
FOKEは、パーソナライズされたインタラクティブで説明可能な教育サービスに最先端のAI技術を活用するための原則付き統一されたアプローチを提供し、この重要な方向へのさらなる研究と開発の道を開く。
Integrating large language models (LLMs) and knowledge graphs (KGs) holds great promise for revolutionizing intelligent education, but challenges remain in achieving personalization, interactivity, and explainability. We propose FOKE, a Forest Of Knowledge and Education framework that synergizes foundation models, knowledge graphs, and prompt engineering to address these challenges. FOKE introduces three key innovations: (1) a hierarchical knowledge forest for structured domain knowledge representation; (2) a multi-dimensional user profiling mechanism for comprehensive learner modeling; and (3) an interactive prompt engineering scheme for generating precise and tailored learning guidance. We showcase FOKE's application in programming education, homework assessment, and learning path planning, demonstrating its effectiveness and practicality. Additionally, we implement Scholar Hero, a real-world instantiation of FOKE. Our research highlights the potential of integrating foundation models, knowledge graphs, and prompt engineering to revolutionize intelligent education practices, ultimately benefiting learners worldwide. FOKE provides a principled and unified approach to harnessing cutting-edge AI technologies for personalized, interactive, and explainable educational services, paving the way for further research and development in this critical direction. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# Select to Perfect: 大規模なマルチエージェントデータから望ましい振る舞いを省略する
Select to Perfect: Imitating desired behavior from large multi-agent data ( http://arxiv.org/abs/2405.03735v1 ) ライセンス: Link先を確認 | Tim Franzmeyer, Edith Elkind, Philip Torr, Jakob Foerster, Joao Henriques, | (参考訳) AIエージェントは通常、人間の行動の大規模なデータセットで訓練されている。
しかし、すべての行動が等しく安全あるいは望ましいわけではない。
AIエージェントの所望特性は、個々の振る舞いではなく、集合軌道に割り当てられていると仮定して、所望のスコアを割り当てることによって表現することができる。
例えば、車のインタラクションのデータセットでは、これらのスコアは、発生したインシデントの数に関連しています。
まず、各エージェントの行動が集団的欲求性スコア(例えば、エージェントがインシデントを引き起こす確率)に与える影響を評価する。
これにより、例えば、事故を起こさないエージェントのみを模倣する、ポジティブな効果を持つエージェントを選択的に模倣することができる。
これを実現するために,エージェントの交換値の概念を提案する。
Exchange Valueは、ランダムに選択されたエージェントのエージェントに代わる際の、望ましくないスコアの変化である。
本研究では,実世界のデータセットから交換価値を推定する新たな手法を提案する。
プロジェクトのWebサイトはhttps://tinyurl.com/select-to-perfect.comにある。
AI agents are commonly trained with large datasets of demonstrations of human behavior. However, not all behaviors are equally safe or desirable. Desired characteristics for an AI agent can be expressed by assigning desirability scores, which we assume are not assigned to individual behaviors but to collective trajectories. For example, in a dataset of vehicle interactions, these scores might relate to the number of incidents that occurred. We first assess the effect of each individual agent's behavior on the collective desirability score, e.g., assessing how likely an agent is to cause incidents. This allows us to selectively imitate agents with a positive effect, e.g., only imitating agents that are unlikely to cause incidents. To enable this, we propose the concept of an agent's Exchange Value, which quantifies an individual agent's contribution to the collective desirability score. The Exchange Value is the expected change in desirability score when substituting the agent for a randomly selected agent. We propose additional methods for estimating Exchange Values from real-world datasets, enabling us to learn desired imitation policies that outperform relevant baselines. The project website can be found at https://tinyurl.com/select-to-perfect. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# 高次非エルミタンスキンと境界モードの解剖
Anatomy of Higher-Order Non-Hermitian Skin and Boundary Modes ( http://arxiv.org/abs/2405.03750v1 ) ライセンス: Link先を確認 | Fan Yang, Emil J. Bergholtz, | (参考訳) 皮膚と境界モードの複雑な相互作用を特徴とする非エルミート系における異常なバルク境界対応は、理論的、実験的に大きな注目を集めている。
しかし、次元が1より大きい場合、この相互作用はいまだに理解されていない。
ここでは、任意の次元の任意のモデルの大規模なクラスである$d$の正確な解析的解から、$d_c \le d$方向の開境界を持ち、それらの位相的起源を追跡することによって、洞察を与える。
具体的には, 生物直交分極の高次元一般化によるバルクスキンモードの分離ギャップを考慮したアメーバ理論と, 境界モードを考慮した一般化ブリルアンゾーン手法が, これらの系を包括的に理解していることを示す。
The anomalous bulk-boundary correspondence in non-Hermitian systems featuring an intricate interplay between skin and boundary modes has attracted enormous theoretical and experimental attention. Still, in dimensions higher than one, this interplay remains much less understood. Here we provide insights from exact analytical solutions of a large class of models in any dimension, $d$, with open boundaries in $d_c \le d$ directions and by tracking their topological origin. Specifically, we show that Amoeba theory accounting for the separation gaps of the bulk skin modes augmented with higher-dimensional generalizations of the biorthogonal polarization and the generalized Brillouin zone approaches accounting for boundary modes provide a comprehensive understanding of these systems. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# 多体系における信号伝播速度の限界--量子情報の観点から
Limits to velocity of signal propagation in many-body systems: a quantum-information perspective ( http://arxiv.org/abs/2405.03751v1 ) ライセンス: Link先を確認 | Piotr Wysocki, Jan Chwedeńczuk, | (参考訳) リーブ・ロビンソン境界(LRB)は、複雑な多体系の構成要素間の相互作用の範囲と強度が、信号の伝播速度に上限を課すと述べている。
2つの離れたサブシステムを結ぶ相関関数の光円錐状の成長を示す。
ここでは,多体系に接続された単一量子ビット上での局所的な測定から,LRBが決定可能であることを示すために,量子情報の手法を用いる。
この定式化は、複雑なシステムにおけるLRBを推定するための操作的レシピを提供し、相関関数の測定を単純な単一粒子操作に置き換える。
我々は、XYスピンチェーンにおける信号伝播速度の上限を導出することで、このアプローチの有効性を実証する。
The Lieb-Robinson bound (LRB) states that the range and strength of interactions between the constituents of a complex many-body system impose upper limits to how fast the signal can propagate. It manifests in a light cone-like growth of correlation function connecting two distant subsystems. Here we employ the techniques of quantum information to demonstrate that the LRB can be determined from local measurements performed on a single qubit that is connected to a many-body system. This formulation provides an operational recipe for estimating the LRB in complex systems, replacing the measurement of the correlation function with simple single-particle manipulations. We demonstrate the potency of this approach by deriving the upper limit to the speed of signal propagation in the XY spin chain. | 翻訳日:2024-05-08 18:24:15 公開日:2024-05-06 |
# 早期フォールトトレラント量子アルゴリズムの実用化と地中エネルギー推定への応用
Early Fault-Tolerant Quantum Algorithms in Practice: Application to Ground-State Energy Estimation ( http://arxiv.org/abs/2405.03754v1 ) ライセンス: Link先を確認 | Oriel Kiss, Utkarsh Azad, Borja Requena, Alessandro Roggero, David Wakeham, Juan Miguel Arrazola, | (参考訳) 本研究では, 地中エネルギー推定問題に着目し, 早期フォールトトレラント量子アルゴリズムの実用性について検討する。
具体的には、ハミルトニアンスペクトル測度の累積分布関数(CDF)の計算と、その不連続性(discontinu-ity)の同定に対処する。
より大きなシステムサイズへのスケーリングは、大きなサポートのためのCDFの滑らかさ、実際の基底状態と重なる部分の厳密な下限の欠如、高品質な初期状態を作成する複雑さの3つの課題を浮き彫りにする。
これらの課題に対処するために,CDFの屈折点を識別する信号処理手法を提案する。
このパラダイムの変更は問題を著しく単純化し、正確性を維持しながらよりアクセスしやすくする、と我々は主張する。
したがって、正確な基底状態エネルギーを求めるのではなく、初期状態の低エネルギー支援を目指して古典的な見積もりを改善することを提唱する。
さらに,ある大きさのCDFの増加を特定するのに必要なサンプルの最大数について,定量的な資源推定を行う。
最後に,26-qubit完全連結ハイゼンベルク模型上で,低結合次元のTruncated density-matrix renormalization group (DMRG) の初期状態を用いて数値実験を行った。
その結果、量子アルゴリズムを用いて得られた予測は、大きな結合次元のDMRG収束エネルギーとよく一致し、理論により予測されるよりも数桁少ないサンプルを必要とすることがわかった。
したがって、CDFベースの量子アルゴリズムは、資源制限シナリオにおける量子位相推定の実用的な代替手段であると主張する。
We explore the practicality of early fault-tolerant quantum algorithms, focusing on ground-state energy estimation problems. Specifically, we address the computation of the cumulative distribution function (CDF) of the spectral measure of the Hamiltonian and the identification of its discontinu- ities. Scaling to bigger system sizes unveils three challenges: the smoothness of the CDF for large supports, the absence of tight lower bounds on the overlap with the actual ground state, and the complexity of preparing high-quality initial states. To tackle these challenges, we introduce a signal processing technique for identifying the inflection point of the CDF. We argue that this change of paradigm significantly simplifies the problem, making it more accessible while still being accurate. Hence, instead of trying to find the exact ground-state energy, we advocate improving on the classical estimate by aiming at the low-energy support of the initial state. Furthermore, we offer quantitative resource estimates for the maximum number of samples required to identify an increase in the CDF of a given size. Finally, we conduct numerical experiments on a 26-qubit fully-connected Heisenberg model using a truncated density-matrix renormalization group (DMRG) initial state of low bond dimension. Results show that the prediction obtained with the quantum algorithm aligns well with the DMRG-converged energy at large bond dimensions and requires several orders of magnitude fewer samples than predicted by the theory. Hence, we argue that CDF-based quantum algorithms are a viable, practical alternative to quantum phase estimation in resource-limited scenarios. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# 内視鏡画像からの局所進行直腸癌治療反応の深層学習分類法
Deep learning classifier of locally advanced rectal cancer treatment response from endoscopy images ( http://arxiv.org/abs/2405.03762v1 ) ライセンス: Link先を確認 | Jorge Tapias Gomez, Aneesh Rangnekar, Hannah Williams, Hannah Thompson, Julio Garcia-Aguilar, Joshua Jesse Smith, Harini Veeraraghavan, | (参考訳) 我々は,TNT前後の内視鏡的画像から,直腸癌反応(腫瘍対no-tumor)の深層学習分類器を作製し,全新アジュバント治療(TNT)を施行した。
さらに,TNT完了後数ヶ月から数年経過した経過観察画像から,局所再発(LR)を同定するためのOOD問題におけるネットワークの能力について検討した。
最適なマストランスポートを用いた画像調和による内視鏡像の可変性について検討した。
本研究では,ResNet-50ネットワークの分散化とニアOOD一般化能力を検討するために,複数のトレーニング正規化手法を評価した。
テスト時間の増大により、最も精度が向上した。
画像の調和により, 近視眼症例の精度はわずかに改善した。
以上の結果から,市販の深層学習分類器が内視鏡画像から直腸癌を検出できる可能性が示唆された。
We developed a deep learning classifier of rectal cancer response (tumor vs. no-tumor) to total neoadjuvant treatment (TNT) from endoscopic images acquired before, during, and following TNT. We further evaluated the network's ability in a near out-of-distribution (OOD) problem to identify local regrowth (LR) from follow-up endoscopy images acquired several months to years after completing TNT. We addressed endoscopic image variability by using optimal mass transport-based image harmonization. We evaluated multiple training regularization schemes to study the ResNet-50 network's in-distribution and near-OOD generalization ability. Test time augmentation resulted in the most considerable accuracy improvement. Image harmonization resulted in slight accuracy improvement for the near-OOD cases. Our results suggest that off-the-shelf deep learning classifiers can detect rectal cancer from endoscopic images at various stages of therapy for surveillance. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# GOVERN: マルチ教師強化蒸留のための配向投票方式
GOVERN: Gradient Orientation Vote Ensemble for Multi-Teacher Reinforced Distillation ( http://arxiv.org/abs/2405.03764v1 ) ライセンス: Link先を確認 | Wenjie Zhou, Zhenxin Ding, Xiaodong Zhang, Haibo Shi, Junfeng Wang, Dawei Yin, | (参考訳) 事前学習された言語モデルは質問応答システムの不可欠なコンポーネントとなり、優れた性能を実現している。
実用化のためには, 計算制約下で高い性能を維持するため, 知識蒸留を行うことが重要である。
本稿では,学生演奏における教師なし蒸留の重要性を考えると,現段階の複数の教師の知識を,地味ラベルの指導なしに効果的に収集する方法について述べる。
本稿では,この問題に対処するための新しいアルゴリズムGOVERNを提案する。
GOVERNはオフラインとオンラインの両方の実験で大幅に改善されている。
提案アルゴリズムは,実店舗の質問応答システムに実装されている。
Pre-trained language models have become an integral component of question-answering systems, achieving remarkable performance. For practical deployment, it is critical to carry out knowledge distillation to preserve high performance under computational constraints. In this paper, we address a key question: given the importance of unsupervised distillation for student performance, how does one effectively ensemble knowledge from multiple teachers at this stage without the guidance of ground-truth labels? We propose a novel algorithm, GOVERN, to tackle this issue. GOVERN has demonstrated significant improvements in both offline and online experiments. The proposed algorithm has been successfully deployed in a real-world commercial question-answering system. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# 論理量子ビットにおける誤りの緩和
Mitigating errors in logical qubits ( http://arxiv.org/abs/2405.03766v1 ) ライセンス: Link先を確認 | Samuel C. Smith, Benjamin J. Brown, Stephen D. Bartlett, | (参考訳) 量子エラー訂正符号は量子情報を保護し、物理誤差率が十分に低い場合の大規模な量子計算を可能にする。
我々は,選択後の誤り訂正と表面符号誤り訂正を,パラメータ化された排他的デコーダの族を用いて組み合わせる。
本稿では,排他的デコーダを用いた論理的故障率の定量化と,選択後処理の量によるトレードオフに関する新しい数値サンプリング手法を提案する。
排他的デコーダを最も識別するために, 表面符号の除極雑音下でのしきい値(フェノメロジカルな測定誤差を有する耐故障性ケースの場合は32(1)\%) と, しきい値以下の論理的故障率の2次改善を示す。
さらに、意外なことに、控えめな排他基準により、排他率がコード距離で減衰する低いエラー率のレジームを特定し、ポストセレクションによるスケーラブルで時間効率の量子コンピューティングの経路を提供する。
我々は,15-to-1のマジックステート蒸留プロトコルに排他的デコーダを適用し,必要な物理量子ビット数の削減に75\%,選択後の繰り返しを含む時空容積の削減に60\%の削減を報告した。
また、他のアプリケーションについても、エラー軽減手法や統合スキームとして検討する。
我々の研究は、量子誤り訂正における強力なツールとしてのポストセレクションの重要性を強調している。
Quantum error correcting codes protect quantum information, allowing for large quantum computations provided that physical error rates are sufficiently low. We combine post-selection with surface code error correction through the use of a parameterized family of exclusive decoders, which are able to abort on decoding instances that are deemed too difficult. We develop new numerical sampling methods to quantify logical failure rates with exclusive decoders as well as the trade-off in terms of the amount of post-selection required. For the most discriminating of exclusive decoders, we demonstrate a threshold of 50\% under depolarizing noise for the surface code (or $32(1)\%$ for the fault-tolerant case with phenomenological measurement errors), and up to a quadratic improvement in logical failure rates below threshold. Furthermore, surprisingly, with a modest exclusion criterion, we identify a regime at low error rates where the exclusion rate decays with code distance, providing a pathway for scalable and time-efficient quantum computing with post-selection. We apply our exclusive decoder to the 15-to-1 magic state distillation protocol, and report a $75\%$ reduction in the number of physical qubits required, and a $60\%$ reduction in the total spacetime volume required, including accounting for repetitions required for post-selection. We also consider other applications, as an error mitigation technique, and in concatenated schemes. Our work highlights the importance of post-selection as a powerful tool in quantum error correction. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# 2次元場理論におけるカシミールエネルギー
Casimir Energy in (2 + 1)-Dimensional Field Theories ( http://arxiv.org/abs/2405.03768v1 ) ライセンス: Link先を確認 | Manuel Asorey, Claudio Iuliano, Fernando Ezquerro, | (参考訳) 本研究では, (2 + 1)-次元時空における大スカラー場の境界条件に対する真空エネルギーの依存性について検討する。
我々は、(2 + 1)次元の非アベリアゲージ理論に対するカシミールエネルギーの非摂動的挙動と比較するために、2つの同次平行線で有界な2次元空間によって与えられる最も単純な幾何学的セットアップを考える。
以上の結果から,カシミールエネルギーの2つの異なる漸近的指数減衰状態が遠距離で生じる2種類の境界条件の存在が示唆された。
2つのファミリーは、境界条件が2つの境界におけるフィールドの挙動の相互関係を含まないという特徴によって区別される。
非摂動数値シミュレーションと解析的議論は、SU(2)ゲージ理論のディリクレ境界条件に対してそのような指数関数的崩壊を示す。
この挙動が他の種類の境界条件に対して修正されていることの検証には、さらなる数値的な作業が必要である。
低温状態におけるサブドミナント補正は数値シミュレーションに非常に有用であり,本論文では解析も行う。
We explore the dependence of vacuum energy on the boundary conditions for massive scalar fields in (2 + 1)-dimensional spacetimes. We consider the simplest geometrical setup given by a two-dimensional space bounded by two homogeneous parallel wires in order to compare it with the non-perturbative behaviour of the Casimir energy for non-Abelian gauge theories in (2 + 1) dimensions. Our results show the existence of two types of boundary conditions which give rise to two different asymptotic exponential decay regimes of the Casimir energy at large distances. The two families are distinguished by the feature that the boundary conditions involve or not interrelations between the behaviour of the fields at the two boundaries. Non-perturbative numerical simulations and analytical arguments show such an exponential decay for Dirichlet boundary conditions of SU(2) gauge theories. The verification that this behaviour is modified for other types of boundary conditions requires further numerical work. Subdominant corrections in the low-temperature regime are very relevant for numerical simulations, and they are also analysed in this paper. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# ビデオ理解のための基礎モデル:調査
Foundation Models for Video Understanding: A Survey ( http://arxiv.org/abs/2405.03770v1 ) ライセンス: Link先を確認 | Neelu Madan, Andreas Moegelmose, Rajat Modi, Yogesh S. Rawat, Thomas B. Moeslund, | (参考訳) ビデオファウンデーションモデル(ViFM)は、様々なビデオ理解タスクの汎用表現を学習することを目的としている。
大規模なデータセットと強力なモデルを活用することで、ビデオデータから堅牢で汎用的な機能をキャプチャすることで、ViFMはこれを実現する。
このサーベイは200以上のビデオ基礎モデルを分析し、ベンチマークと評価指標を3つの主要なカテゴリに分類した14の異なるビデオタスクに対して包括的に分析する。
さらに、最も一般的な6つのビデオタスクに対して、これらのモデルの詳細なパフォーマンス分析を提供する。
ViFMを3つのカテゴリに分類する。
1)既存の映像モデルを映像タスクに適応させる画像ベースのVFM。
2)ビデオ専用符号化方式を用いたビデオベースのVFM
3)Universal Foundational Models(UFM)は,複数のモダリティ(画像,ビデオ,音声,テキストなど)をひとつのフレームワークで結合する。
様々なタスクにおける様々なViFMの性能を比較することにより、この調査は、その強みと弱みに関する貴重な洞察を与え、ビデオ理解における今後の進歩を導く。
私たちの分析によると、ほとんどのビデオ理解タスクにおいて、画像ベースのファンデーションモデルは一貫してビデオベースのモデルより優れています。
さらに、多様なモダリティを利用するUFMは、ビデオタスクにおいて優れたパフォーマンスを示す。
この研究で研究されたViFMの包括的リストを以下に示す。
Video Foundation Models (ViFMs) aim to learn a general-purpose representation for various video understanding tasks. Leveraging large-scale datasets and powerful models, ViFMs achieve this by capturing robust and generic features from video data. This survey analyzes over 200 video foundational models, offering a comprehensive overview of benchmarks and evaluation metrics across 14 distinct video tasks categorized into 3 main categories. Additionally, we offer an in-depth performance analysis of these models for the 6 most common video tasks. We categorize ViFMs into three categories: 1) Image-based ViFMs, which adapt existing image models for video tasks, 2) Video-Based ViFMs, which utilize video-specific encoding methods, and 3) Universal Foundational Models (UFMs), which combine multiple modalities (image, video, audio, and text etc.) within a single framework. By comparing the performance of various ViFMs on different tasks, this survey offers valuable insights into their strengths and weaknesses, guiding future advancements in video understanding. Our analysis surprisingly reveals that image-based foundation models consistently outperform video-based models on most video understanding tasks. Additionally, UFMs, which leverage diverse modalities, demonstrate superior performance on video tasks. We share the comprehensive list of ViFMs studied in this work at: \url{https://github.com/NeeluMadan/ViFM_Survey.git} | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# 多人数同型暗号を用いた垂直分割データのセキュア推論
Secure Inference for Vertically Partitioned Data Using Multiparty Homomorphic Encryption ( http://arxiv.org/abs/2405.03775v1 ) ライセンス: Link先を確認 | Shuangyi Chen, Yue Ju, Zhongwen Zhu, Ashish Khisti, | (参考訳) 本稿では,単一サーバノードと複数のクライアントノードを含む分散環境でのセキュアな推論プロトコルを提案する。
深層学習モデルがサーバノードにある間、観測されたデータベクトルは複数のクライアントノードに分割されていると仮定する。
各クライアントノードは、データベクトルの一部を暗号化し、その結果の暗号文をサーバノードに送信する必要がある。
サーバノードは暗号文を収集し、暗号化されたドメインで推論を行う必要がある。
これらの要件を満たすために,MPHE(multi-party homomorphic encryption)の応用を実証する。
本稿では,MPHEを用いて暗号化されたデータサブセットの暗号文を集約することにより,サーバが完全なデータの暗号文を形成することができるパッキング方式を提案する。
提案プロトコルは,従来の水平化トレーニングプロトコル~\cite{sav2020poseidon}に基づいて構築されているが,垂直分割されたデータの推測に焦点をあて,サーバノードからクライアントノードへの(暗号化された)モデルの重み付けの伝達を回避する。
We propose a secure inference protocol for a distributed setting involving a single server node and multiple client nodes. We assume that the observed data vector is partitioned across multiple client nodes while the deep learning model is located at the server node. Each client node is required to encrypt its portion of the data vector and transmit the resulting ciphertext to the server node. The server node is required to collect the ciphertexts and perform inference in the encrypted domain. We demonstrate an application of multi-party homomorphic encryption (MPHE) to satisfy these requirements. We propose a packing scheme, that enables the server to form the ciphertext of the complete data by aggregating the ciphertext of data subsets encrypted using MPHE. While our proposed protocol builds upon prior horizontal federated training protocol~\cite{sav2020poseidon}, we focus on the inference for vertically partitioned data and avoid the transmission of (encrypted) model weights from the server node to the client nodes. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# Population Annealing を用いた色符号の準最適復号法
Near-optimal decoding algorithm for color codes using Population Annealing ( http://arxiv.org/abs/2405.03776v1 ) ライセンス: Link先を確認 | Fernando Martínez-García, Francisco Revson F. Pereira, Pedro Parrado-Rodríguez, | (参考訳) 大規模量子コンピュータの開発と利用は、量子エラー訂正(QEC)スキームを量子コンピューティングパイプラインに統合することに依存している。
QECプロトコルの基本的な部分は、回復操作を高い成功率で識別するシンドロームの復号化である。
本研究では,デコード問題をスピン系にマッピングし,ポピュレーションアニーリングを用いて異なるエラークラスの自由エネルギーを推定することにより,回復操作を最も高い成功確率で行うデコーダを実装した。
我々は,ビットフリップおよび偏極雑音を有する符号容量を含む異なる雑音モデル下での4.8.8色符号格子上でのデコーダ性能について検討した。
この復号アルゴリズムは、表面符号や量子低密度パリティチェック(qLDPC)符号など、様々な安定化符号に適用できる。
The development and use of large-scale quantum computers relies on integrating quantum error-correcting (QEC) schemes into the quantum computing pipeline. A fundamental part of the QEC protocol is the decoding of the syndrome to identify a recovery operation with a high success rate. In this work, we implement a decoder that finds the recovery operation with the highest success probability by mapping the decoding problem to a spin system and using Population Annealing to estimate the free energy of the different error classes. We study the decoder performance on a 4.8.8 color code lattice under different noise models, including code capacity with bit-flip and depolarizing noise, and phenomenological noise, which considers noisy measurements, with performance reaching near-optimal thresholds. This decoding algorithm can be applied to a wide variety of stabilizer codes, including surface codes and quantum low-density parity-check (qLDPC) codes. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# ReLUは反対にロバストか?
Is ReLU Adversarially Robust? ( http://arxiv.org/abs/2405.03777v1 ) ライセンス: Link先を確認 | Korn Sooksatra, Greg Hamerly, Pablo Rivas, | (参考訳) ディープラーニングモデルの有効性は、敵対的な例の存在によって疑問視されている。
ディープラーニングモデルの脆弱性を敵の例に対処することは、開発とデプロイメントの継続を保証する上で極めて重要です。
本研究では,正則線形単位(rerectified linear unit, ReLU)アクティベーション関数の逆例生成における役割に着目した。
ReLU関数は、訓練プロセスを容易にするため、ディープラーニングモデルで一般的に使用される。
しかし、我々の経験的分析により、ReLU関数は敵の例に対して頑健でないことが示されている。
本稿では,ReLU関数の修正版を提案する。
本研究の結果は,提案手法の有効性を確認する実験によって裏付けられている。
さらに、我々のカスタマイズしたモデルに敵対的トレーニングを適用することで、一般的なモデルと比較してその堅牢性がさらに向上することを示す。
The efficacy of deep learning models has been called into question by the presence of adversarial examples. Addressing the vulnerability of deep learning models to adversarial examples is crucial for ensuring their continued development and deployment. In this work, we focus on the role of rectified linear unit (ReLU) activation functions in the generation of adversarial examples. ReLU functions are commonly used in deep learning models because they facilitate the training process. However, our empirical analysis demonstrates that ReLU functions are not robust against adversarial examples. We propose a modified version of the ReLU function, which improves robustness against adversarial examples. Our results are supported by an experiment, which confirms the effectiveness of our proposed modification. Additionally, we demonstrate that applying adversarial training to our customized model further enhances its robustness compared to a general model. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# 分散学習のための解釈可能なデータ融合:グラディエントマッチングによる代表的アプローチ
Interpretable Data Fusion for Distributed Learning: A Representative Approach via Gradient Matching ( http://arxiv.org/abs/2405.03782v1 ) ライセンス: Link先を確認 | Mengchen Fan, Baocheng Geng, Keren Li, Xueqian Wang, Pramod K. Varshney, | (参考訳) 本稿では,複数の生データポイントを仮想表現に変換する分散学習のための代表的アプローチを提案する。
人間の解釈可能性を提供しないフェデレートラーニングのような従来の分散学習方法とは異なり、複雑な機械学習プロセスはアクセスしやすく、理解しやすい。
これにより、広範囲なデータセットを消化可能なフォーマットに凝縮し、直感的な人間と機械の相互作用を促進する。
さらに、このアプローチでは、プライバシと通信効率が維持され、生データを使用したモデルのトレーニング性能にマッチする。
シミュレーションの結果,従来のフェデレートラーニング(Federated Learning)の精度と収束性,特に複雑なモデルやクライアント数の多いシナリオでは,私たちのアプローチは競争力があるか,あるいは優れています。
このフレームワークは、人間の直感とマシンインテリジェンスを統合するための一歩となる。
This paper introduces a representative-based approach for distributed learning that transforms multiple raw data points into a virtual representation. Unlike traditional distributed learning methods such as Federated Learning, which do not offer human interpretability, our method makes complex machine learning processes accessible and comprehensible. It achieves this by condensing extensive datasets into digestible formats, thus fostering intuitive human-machine interactions. Additionally, this approach maintains privacy and communication efficiency, and it matches the training performance of models using raw data. Simulation results show that our approach is competitive with or outperforms traditional Federated Learning in accuracy and convergence, especially in scenarios with complex models and a higher number of clients. This framework marks a step forward in integrating human intuition with machine intelligence, which potentially enhances human-machine learning interfaces and collaborative efforts. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# TOGLL: LLMによるOracle生成の正確で強力なテスト
TOGLL: Correct and Strong Test Oracle Generation with LLMs ( http://arxiv.org/abs/2405.03786v1 ) ライセンス: Link先を確認 | Soneya Binta Hossain, Matthew Dwyer, | (参考訳) テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。
初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性とより弱いテストオラクルをもたらす。
LLMは、コード生成、テストケースの作成、バグ修正など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示してきたが、テストオラクル生成におけるその効果を探求する大規模な研究は、いまだに存在しない。
LLMが効果的なオラクル生成の課題に対処できるかどうかという問題は、どちらも説得力があり、徹底的な調査が必要である。
本研究では,LLMが多数のユニークなバグを効果的に特定できる正確で多種多様で強力な検査オラクルを創出する能力について,初めて包括的な研究を行った。
この目的のために、SF110データセット上の6つの異なるプロンプトを使用して、7つのコードLLMを微調整した。
そこで本研究では,最も効果的な微調整LDMとプロンプトペアを用いることで,新しいLLM法であるTOGLLを導入する。
TOGLLの一般化可能性を検討するため,25の大規模Javaプロジェクトについて検討を行った。
正当性の評価に加えて,生成したオラクルの多様性と強度も評価する。
EvoSuiteと最先端のニューラルネットワークであるTOGAとの比較を行った。
以上の結果から,TOGLLは3.8倍の正確なアサーションオラクルと4.9倍の例外オラクルを生成できることがわかった。
以上の結果から,TOGLLは極めて多彩なテストオラクルを生成可能であることが示唆された。
EvoSuiteが検出できない1,023のユニークなバグは、以前のSOTAのニューラルベースメソッドであるTOGAの10倍だ。
Test oracles play a crucial role in software testing, enabling effective bug detection. Despite initial promise, neural- based methods for automated test oracle generation often result in a large number of false positives and weaker test oracles. While LLMs have demonstrated impressive effectiveness in various software engineering tasks, including code generation, test case creation, and bug fixing, there remains a notable absence of large-scale studies exploring their effectiveness in test oracle generation. The question of whether LLMs can address the challenges in effective oracle generation is both compelling and requires thorough investigation. In this research, we present the first comprehensive study to investigate the capabilities of LLMs in generating correct, diverse, and strong test oracles capable of effectively identifying a large number of unique bugs. To this end, we fine-tuned seven code LLMs using six distinct prompts on the SF110 dataset. Utilizing the most effective fine-tuned LLM and prompt pair, we introduce TOGLL, a novel LLM-based method for test oracle generation. To investigate the generalizability of TOGLL, we conduct studies on 25 large-scale Java projects. Besides assessing the correctness, we also assess the diversity and strength of the generated oracles. We compare the results against EvoSuite and the state-of-the-art neural method, TOGA. Our findings reveal that TOGLL can produce 3.8 times more correct assertion oracles and 4.9 times more exception oracles. Moreover, our findings demonstrate that TOGLL is capable of generating significantly diverse test oracles. It can detect 1,023 unique bugs that EvoSuite cannot, which is ten times more than what the previous SOTA neural-based method, TOGA, can detect. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# 摂動潜在表現によるテキスト分類の逆例について
On Adversarial Examples for Text Classification by Perturbing Latent Representations ( http://arxiv.org/abs/2405.03789v1 ) ライセンス: Link先を確認 | Korn Sooksatra, Bikram Khanal, Pablo Rivas, | (参考訳) 近年,ディープラーニングの進歩に伴い,テキスト分類におけるいくつかの応用が著しく進歩している。
しかし、ディープラーニングは敵の例に弱いため、この改善にはコストが伴う。
この弱点は、ディープラーニングがそれほど堅牢ではないことを示している。
幸いなことに、テキスト分類器の入力は離散的である。
これにより、分類器が最先端の攻撃を防ぐことができる。
それでも、以前の研究はブラックボックス攻撃を発生させ、入力の離散値をうまく操作して敵の例を見つけることに成功した。
したがって、離散値を変更する代わりに、入力を実値を含む埋め込みベクトルに変換して最先端のホワイトボックス攻撃を行う。
次に、摂動埋め込みベクトルをテキストに変換し、それを逆例とします。
要約すると、分類器の勾配を用いて、テキスト分類器の頑健さを測定するフレームワークを作成する。
Recently, with the advancement of deep learning, several applications in text classification have advanced significantly. However, this improvement comes with a cost because deep learning is vulnerable to adversarial examples. This weakness indicates that deep learning is not very robust. Fortunately, the input of a text classifier is discrete. Hence, it can prevent the classifier from state-of-the-art attacks. Nonetheless, previous works have generated black-box attacks that successfully manipulate the discrete values of the input to find adversarial examples. Therefore, instead of changing the discrete values, we transform the input into its embedding vector containing real values to perform the state-of-the-art white-box attacks. Then, we convert the perturbed embedding vector back into a text and name it an adversarial example. In summary, we create a framework that measures the robustness of a text classifier by using the gradients of the classifier. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# 変圧器を用いた大規模言語モデルを用いた反セミティック・ヘイト音声の検出
Detecting Anti-Semitic Hate Speech using Transformer-based Large Language Models ( http://arxiv.org/abs/2405.03794v1 ) ライセンス: Link先を確認 | Dengyi Liu, Minghao Wang, Andrew G. Catlin, | (参考訳) 学術研究者やソーシャルメディアは、ヘイトスピーチの識別に不満を抱いているが、主に大量のデータとヘイトスピーチのダイナミックな性質のために大きな課題に直面している。
このようなセンシティブな問題に直接対処するChatGPTのような大規模予測モデルの倫理的かつ実践的な制限を考えると、我々の研究は2019年以降、トランスフォーマーベースで生成可能なAI技術に代わる方法を模索してきた。
具体的には,新たなデータラベリング手法を開発し,BERT (arXiv:1810.04805), DistillBERT (arXiv:1910.01108), RoBERTa (arXiv:1907.11692), LLaMA-2 (arXiv:2307.09288), LoRAファインチューニングアプローチ (arXiv:2106.09685) などのトランスフォーマモデルを用いて,反セミティックヘイトスピーチをターゲットとした概念実証を確立した。
本稿では、ヘイトスピーチ検出の複雑さに対処する上で、これらの最先端手法の比較効果を詳述し、評価し、センシティブな文脈において、責任と慎重に管理されたAIアプリケーションの必要性を強調した。
Academic researchers and social media entities grappling with the identification of hate speech face significant challenges, primarily due to the vast scale of data and the dynamic nature of hate speech. Given the ethical and practical limitations of large predictive models like ChatGPT in directly addressing such sensitive issues, our research has explored alternative advanced transformer-based and generative AI technologies since 2019. Specifically, we developed a new data labeling technique and established a proof of concept targeting anti-Semitic hate speech, utilizing a variety of transformer models such as BERT (arXiv:1810.04805), DistillBERT (arXiv:1910.01108), RoBERTa (arXiv:1907.11692), and LLaMA-2 (arXiv:2307.09288), complemented by the LoRA fine-tuning approach (arXiv:2106.09685). This paper delineates and evaluates the comparative efficacy of these cutting-edge methods in tackling the intricacies of hate speech detection, highlighting the need for responsible and carefully managed AI applications within sensitive contexts. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# デコヒーレンスの2つのトイスピン鎖モデル
Two Toy Spin Chain Models of Decoherence ( http://arxiv.org/abs/2405.03795v1 ) ライセンス: Link先を確認 | P. C. E. Stamp Zhen Zhu, | (参考訳) 簡単なクビットまたは中央スピンがスピンのカップに結合する2つのモデルのデコヒーレンスダイナミクスを解く。
モデル1では、入浴スピンはイジングスピンであり、モデル2では横スピン-スピン相互作用によって結合され、鎖はスピン波をサポートする。
私たちは
(i) ハミルトニアンが定数系/バス結合を持つ静的で、かつ
(ii) この結合は時間によって変化する。
We solve for the decoherence dynamics of two models in which a simple qubit or Central Spin couples to a bath of spins; the bath is made from a chain of spins. In model 1, the bath spins are Ising spins; in Model 2, they are coupled by transverse spin-spin interactions, and the chain supports spin waves. We look at (i) the case where the Hamiltonian is static, with a constant system/bath coupling, and (ii) where this coupling varies in time. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# 厳密な変動性、容積法則の振る舞い、ニューラルネットワーク状態の効率的な表現をキャプチャするテンソルネットワーク計算
Tensor Network Computations That Capture Strict Variationality, Volume Law Behavior, and the Efficient Representation of Neural Network States ( http://arxiv.org/abs/2405.03797v1 ) ライセンス: Link先を確認 | Wen-Yuan Liu, Si-Jing Du, Ruojing Peng, Johnnie Gray, Garnet Kin-Lic Chan, | (参考訳) 本稿では,振幅の収縮の計算グラフによって定義されるテンソルネットワーク状態の視点変化を紹介する。
結果として得られる状態のクラスはテンソルネットワーク関数と呼ばれ、テンソルネットワーク状態の概念上の利点を継承し、近似された収縮を収束させる必要から生じる計算的制約を除去する。
テンソルネットワーク関数を用いて、ループグラフ上のエネルギーの厳密な変動推定を計算し、基底状態の表現力を解析し、体積法則の時間進化の側面を捉え、一般的なフィードフォワードニューラルネットワークの効率的なテンソルネットワーク関数へのマッピングを提供する。
我々の研究は、計算可能なテンソルネットワークの領域を、正確な収縮法が利用できない領域に拡大し、テンソルネットワークを使用するための新たな道を開く。
We introduce a change of perspective on tensor network states that is defined by the computational graph of the contraction of an amplitude. The resulting class of states, which we refer to as tensor network functions, inherit the conceptual advantages of tensor network states while removing computational restrictions arising from the need to converge approximate contractions. We use tensor network functions to compute strict variational estimates of the energy on loopy graphs, analyze their expressive power for ground-states, show that we can capture aspects of volume law time evolution, and provide a mapping of general feed-forward neural nets onto efficient tensor network functions. Our work expands the realm of computable tensor networks to ones where accurate contraction methods are not available, and opens up new avenues to use tensor networks. | 翻訳日:2024-05-08 18:14:30 公開日:2024-05-06 |
# 拡散モデルからの合成データによる薬物発見予測の改善
Synthetic Data from Diffusion Models Improve Drug Discovery Prediction ( http://arxiv.org/abs/2405.03799v1 ) ライセンス: Link先を確認 | Bing Hu, Ashish Saragadam, Anita Layton, Helen Chen, | (参考訳) 人工知能(AI)は、薬物開発におけるあらゆる段階において使われるようになっている。
薬物発見のためのAIベースの方法の継続的なブレークスルーは、薬物発見データの作成、改善、改善を必要とする。
私たちは、薬物発見AIの進歩を遅らせる新しいデータ課題を提示します。
データあいまいさは、複数のデータセットにまたがる値を必要とする重要な研究課題に答えようとする研究者にとって、データのキュレーションを難しくする。
本稿では,リガンドおよび薬物動態データをエンドツーエンドに生成できる新しい拡散GNNモデルSyngandを提案する。
我々は,既存のリガンドの薬物動態データをSyngandモデルを用いてサンプリングする方法を提示し,提案する。
我々は,AqSolDB,LD50,hERGを中心とした下流回帰タスクにおいて,Syngand生成した合成目標データの有効性について,最初の有望な結果を示した。
提案したモデルと手法を用いて、研究者は簡単に合成リガンドデータを生成し、複数のデータセットにまたがるデータを必要とする研究課題を探索するのに役立つ。
Artificial intelligence (AI) is increasingly used in every stage of drug development. Continuing breakthroughs in AI-based methods for drug discovery require the creation, improvement, and refinement of drug discovery data. We posit a new data challenge that slows the advancement of drug discovery AI: datasets are often collected independently from each other, often with little overlap, creating data sparsity. Data sparsity makes data curation difficult for researchers looking to answer key research questions requiring values posed across multiple datasets. We propose a novel diffusion GNN model Syngand capable of generating ligand and pharmacokinetic data end-to-end. We show and provide a methodology for sampling pharmacokinetic data for existing ligands using our Syngand model. We show the initial promising results on the efficacy of the Syngand-generated synthetic target property data on downstream regression tasks with AqSolDB, LD50, and hERG central. Using our proposed model and methodology, researchers can easily generate synthetic ligand data to help them explore research questions that require data spanning multiple datasets. | 翻訳日:2024-05-08 18:04:45 公開日:2024-05-06 |
# MoDiPO: AI-feedback-driven Direct Preference Optimizationによるテキスト間アライメント
MoDiPO: text-to-motion alignment via AI-feedback-driven Direct Preference Optimization ( http://arxiv.org/abs/2405.03803v1 ) ライセンス: Link先を確認 | Massimiliano Pappa, Luca Collorone, Giovanni Ficarra, Indro Spinelli, Fabio Galasso, | (参考訳) 拡散モデルは、自然言語条件付けによる例外的な生成品質ときめ細かい制御性を提供することによって、人間の運動生成の分野に革命をもたらした。
彼らの固有の確率性は、単一の入力から様々な出力を生成する能力であり、その成功の鍵である。
しかし、この多様性は、不可能な世代に繋がる可能性があるため、制限されてはいけない。
代わりに、テキスト整列および現実的な世代の境界内に閉じ込めるべきである。
そこで本研究では,DPO(Direct Preference Optimization)を利用してテキスト・ツー・モーション・モデルを調整する手法であるMoDiPO(Motion Diffusion DPO)を提案する。
代わりにAIフィードバックを活用することで、DPOに必要な人間の嗜好を収集する、残酷で高価なプロセスを合理化します。
これにより、オンラインとオフラインの両方で生成された動き参照ペアを使用して、新しいDPO戦略を試すことができる。
将来の研究を促進するために、我々はPick-a-Moveをダブするモーション参照データセットにコントリビュートする。
我々は,定性的かつ定量的に,提案手法がより現実的な動作をもたらすことを示す。
特に、MoDiPOはFrechet Inception Distance(FID)を大幅に改善し、RPrecisionとMulti-Modalityのパフォーマンスを維持している。
Diffusion Models have revolutionized the field of human motion generation by offering exceptional generation quality and fine-grained controllability through natural language conditioning. Their inherent stochasticity, that is the ability to generate various outputs from a single input, is key to their success. However, this diversity should not be unrestricted, as it may lead to unlikely generations. Instead, it should be confined within the boundaries of text-aligned and realistic generations. To address this issue, we propose MoDiPO (Motion Diffusion DPO), a novel methodology that leverages Direct Preference Optimization (DPO) to align text-to-motion models. We streamline the laborious and expensive process of gathering human preferences needed in DPO by leveraging AI feedback instead. This enables us to experiment with novel DPO strategies, using both online and offline generated motion-preference pairs. To foster future research we contribute with a motion-preference dataset which we dub Pick-a-Move. We demonstrate, both qualitatively and quantitatively, that our proposed method yields significantly more realistic motions. In particular, MoDiPO substantially improves Frechet Inception Distance (FID) while retaining the same RPrecision and Multi-Modality performances. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# EPOC:量子回路のための高度な合成技術を導入した新しいパルス発生フレームワーク
EPOC: A Novel Pulse Generation Framework Incorporating Advanced Synthesis Techniques for Quantum Circuits ( http://arxiv.org/abs/2405.03804v1 ) ライセンス: Link先を確認 | Jinglei Cheng, Yuchen Zhu, Yidong Zhou, Hang Ren, Zhixin Song, Zhiding Liang, | (参考訳) 本稿では、ZX-Calculus、回路分割、回路合成を組み合わせてパルス生成を高速化する、量子回路のための効率的なパルス生成フレームワークEPOCを提案する。
等価表現を探索することなくユニタリ行列からパルスを生成する従来の研究とは異なり、EPOCは量子ゲートをグループ化し、その結果のユニタリ行列をより小さなものに分解することで、より微細な粒度アプローチを採用する。
これにより、並列性が向上し、量子パルスの遅延が減少する。
EPOCはまた、等価表現を識別することで回路を継続的に最適化し、量子最適制御に関連する計算オーバーヘッドを最小限に抑えながら、回路遅延をさらに削減する。
回路合成を初めて量子最適制御のワークフローに導入し、前回の処理に比べて31.74%のレイテンシ削減を実現し、パルスを生成するゲートベースの手法と比較して76.80%の削減を実現した。
このアプローチは、計算オーバーヘッドを最小限に抑えながら、量子回路の大幅な性能向上の可能性を示す。
In this paper we propose EPOC, an efficient pulse generation framework for quantum circuits that combines ZX-Calculus, circuit partitioning, and circuit synthesis to accelerate pulse generation. Unlike previous works that focus on generating pulses from unitary matrices without exploring equivalent representations, EPOC employs a finer granularity approach by grouping quantum gates and decomposing the resulting unitary matrices into smaller ones using synthesis techniques. This enables increased parallelism and decreased latency in quantum pulses. EPOC also continuously optimizes the circuit by identifying equivalent representations, leading to further reductions in circuit latency while minimizing the computational overhead associated with quantum optimal control. We introduce circuit synthesis into the workflow of quantum optimal control for the first time and achieve a 31.74% reduction in latency compared to previous work and a 76.80% reduction compared to the gate-based method for creating pulses. The approach demonstrates the potential for significant performance improvements in quantum circuits while minimizing computational overhead. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# UniGen: 自律走行シナリオ生成のための初期エージェント状態と軌道の統一モデリング
UniGen: Unified Modeling of Initial Agent States and Trajectories for Generating Autonomous Driving Scenarios ( http://arxiv.org/abs/2405.03807v1 ) ライセンス: Link先を確認 | Reza Mahjourian, Rongbing Mu, Valerii Likhosherstov, Paul Mougin, Xiukun Huang, Joao Messias, Shimon Whiteson, | (参考訳) 本稿では,シミュレーションによる自動運転ソフトウェアの評価・改善のための新しい交通シナリオ生成手法であるUniGenを紹介する。
我々のアプローチは、新しいエージェントの位置、初期状態、将来の動き軌跡といった、統一されたモデルでシナリオ要素を駆動する全てをモデル化する。
共有グローバルシナリオの埋め込みからこれらの変数の分布を予測することで、最終的なシナリオが既存のシーンで利用可能なすべてのコンテキストで完全に条件付けられていることを保証します。
我々の統合モデリングアプローチは、自己回帰剤注入と組み合わせて、既存の全てのエージェントとその軌道上の全ての新しいエージェントの配置と運動軌跡を条件付け、衝突率の低い現実的なシナリオを生み出す。
実験の結果,UniGenはWaymo Open Motion Datasetで先行技術より優れていた。
This paper introduces UniGen, a novel approach to generating new traffic scenarios for evaluating and improving autonomous driving software through simulation. Our approach models all driving scenario elements in a unified model: the position of new agents, their initial state, and their future motion trajectories. By predicting the distributions of all these variables from a shared global scenario embedding, we ensure that the final generated scenario is fully conditioned on all available context in the existing scene. Our unified modeling approach, combined with autoregressive agent injection, conditions the placement and motion trajectory of every new agent on all existing agents and their trajectories, leading to realistic scenarios with low collision rates. Our experimental results show that UniGen outperforms prior state of the art on the Waymo Open Motion Dataset. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# 人工知能時代における事務・行政支援事業の将来 : 文献分析による検討
The Future of Office and Administrative Support Occupations in the Era of Artificial Intelligence: A Bibliometric Analysis ( http://arxiv.org/abs/2405.03808v1 ) ライセンス: Link先を確認 | Priyadarshini R. Pennathur, Valerie Boksa, Arunkumar Pennathur, Andrew Kusiak, Beth Livingston, | (参考訳) 2029年までに、米国労働統計局は、技術、自動化、人工知能(AI)が事務員が行う事務機能や行政機能を代替または置き換える可能性があるため、オフィスと行政支援職で100万人の職を失うことを計画している。
AIがオフィスワークに与える潜在的な影響と、オフィスワーカーが米国経済で果たす重要な役割にもかかわらず、私たちは、新しい人工知能技術の交差点におけるオフィスワークにおける最先端の研究について限られた知識を持っている。
本研究では,オフィスワークと人工知能の交点における学術文献の文献分析を行った。
Compendex と Scopus のデータベースから文献資料を抽出し,VOSviewer を用いて文献分析の可視化と定量化を行った。
キーワード分析の結果, 学術文献では, オフィスオートメーション, ヒューマン・コンピュータインタラクション, 人工知能の頻度が高く, リンク強度が高いことが示唆された。
共起分析のキーワードクラスタは、インテリジェントな建物、ロボティクス、モノのインターネットがオフィスワーク領域に出現しつつあることを示している。
エルゴノミクス、労働者の特徴、人間のパフォーマンス、安全性に関連する2つのクラスターは、オフィスの作業環境においてより広く研究されている人間の要因のタイプを示している。
まとめると、オフィスワークにおける最先端の研究は、オフィスワークのためのスマートな建物、ロボティクス、技術開発について、オフィスワーカーとその専門的開発についての研究と比較して、より多くの研究がなされていることを示している。
The U.S. Bureau of Labor Statistics projects that by the year 2029, the United States will lose a million jobs in the office and administrative support occupations because technology, automation, and artificial intelligence (AI) have the potential to substitute or replace the office and administrative functions performed by office workers. Despite the potential impact AI will have on office work and the important role office workers play in the American economy, we have limited knowledge of the state of the art research in office work at the intersection of emerging artificial intelligence technologies. In this study, we conducted a bibliometric analysis of the scholarly literature at the intersection of office work and artificial intelligence. We extracted literature sources from Compendex and Scopus databases and used VOSviewer for visualizing and quantifying our bibliometric analyses. Our findings from keywords analysis indicate that office automation, humans, human-computer interaction, and artificial intelligence occurred more frequently in the scholarly literature and had high link strengths. Keyword clusters from co-occurrence analysis indicate that intelligent buildings, robotics, and the internet of things are emerging topics in the office work domain. The two clusters related to ergonomics, worker characteristics, human performance, and safety indicate the types of human factors concerns that are more widely studied in office work settings. In summary, our findings on the state-of-the-art research in office work indicate that more studies have been conducted on smart buildings, robotics, and technology development for office work, compared to studies on office workers and their professional development. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# SocialFormer:軌道予測のためのエッジ強化不均質グラフ変換器を用いたソーシャルインタラクションモデリング
SocialFormer: Social Interaction Modeling with Edge-enhanced Heterogeneous Graph Transformers for Trajectory Prediction ( http://arxiv.org/abs/2405.03809v1 ) ライセンス: Link先を確認 | Zixu Wang, Zhigang Sun, Juergen Luettin, Lavdim Halilaj, | (参考訳) 正確な軌道予測は安全かつ効率的な自動運転を保証するために不可欠である。
しかし、既存のほとんどの手法は、しばしば将来の軌跡を統治する交通参加者間の複雑な相互作用を見落としている。
本稿では,道路トポロジを利用して,対象車両と周辺車両のセマンティックな関係を生かしたエージェント対話型軌道予測手法SocialFormerを提案する。
また、グラフニューラルネットワーク(GNN)のアグリゲータとしてエッジ強化ヘテロジニアスグラフトランスフォーマー(EHGT)を導入し、意味的および空間的エージェント相互作用情報を符号化する。
さらに,エージェント動作の時間的社会的挙動をモデル化するために,ゲートリカレント単位(GRU)に基づくテンポラルエンコーダを導入する。
最後に,交通シーンの全体的表現のためのエージェントエンコーディング,レーンエンコーディング,エージェントインタラクションエンコーディングを統合した情報融合フレームワークを提案する。
一般的なnuScenesベンチマークの軌道予測タスクとしてSocialFormerを評価し,最先端の性能を実現する。
Accurate trajectory prediction is crucial for ensuring safe and efficient autonomous driving. However, most existing methods overlook complex interactions between traffic participants that often govern their future trajectories. In this paper, we propose SocialFormer, an agent interaction-aware trajectory prediction method that leverages the semantic relationship between the target vehicle and surrounding vehicles by making use of the road topology. We also introduce an edge-enhanced heterogeneous graph transformer (EHGT) as the aggregator in a graph neural network (GNN) to encode the semantic and spatial agent interaction information. Additionally, we introduce a temporal encoder based on gated recurrent units (GRU) to model the temporal social behavior of agent movements. Finally, we present an information fusion framework that integrates agent encoding, lane encoding, and agent interaction encoding for a holistic representation of the traffic scene. We evaluate SocialFormer for the trajectory prediction task on the popular nuScenes benchmark and achieve state-of-the-art performance. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# オープン量子系における二部構造OTOC : 情報スクランブルと可逆性
Bipartite OTOC in open quantum systems: information scrambling and irreversibility ( http://arxiv.org/abs/2405.03810v1 ) ライセンス: Link先を確認 | Baibhab Bose, Devvrat Tiwari, Subhashish Banerjee, | (参考訳) 情報スクランブルの分野は、過去10年間で著しい成長を遂げており、そこでは、時間外順序付き相関器(OTOC)が、それを調査するための顕著なツールとして登場した。
本研究では、OTOCの特定の形態である二部体OTOCを用いて、原子-磁場相互作用モデルと傾斜磁場と相互作用するイジングスピン鎖のモデルにおける情報スクランブルについて研究する。
これはオープン量子系の影響を考慮して行われる。
両部類OTOCを用いた情報スクランブルとエントロピー生成を用いた不可逆性の関係を,ユニタリダイナミクスの下で調査する。
演算子エンタングルメントを持つ二部式OTOCの同値性はイジングモデルに対して明示的に示される。
The field of information scrambling has seen significant growth over the last decade, where the out-of-time-ordered correlator (OTOC) has emerged as a prominent tool to probe it. In this work, we use bipartite OTOC, a particular form of OTOC, to study information scrambling in the atom-field interaction models and the model of the Ising spin chain interacting with a tilted magnetic field. This is done considering the effects of open quantum systems. A relationship between information scrambling, using bipartite OTOC, and irreversibility, using entropy production, is probed under unitary dynamics. The equivalence of bipartite OTOC with operator entanglement is explicitly shown for the Ising model. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# パワーインスツルメンツとしての大規模言語モデル:自律的な操作と制御の新しいレジーム
Large Language Models as Instruments of Power: New Regimes of Autonomous Manipulation and Control ( http://arxiv.org/abs/2405.03813v1 ) ライセンス: Link先を確認 | Yaqub Chaudhary, Jonnie Penn, | (参考訳) 大規模言語モデル(LLM)は様々な修辞スタイルを再現し、幅広い感情を表現したテキストを生成する。
この容量は現在低コストで利用可能であり、操作と制御のための強力なツールとなっている。
本稿では,LLMの迅速かつ大半非規制導入によって可能となった,過小評価された社会的危害について考察する。
LLMを独立したデジタルアーティファクトとして、あるいはそれに代わる作業領域として考えるのではなく、ドメイン間で計測される大規模計算基盤に焦点を当てる。
まず,LLMが情報環境の汚染と均一化の両方にどのように利用されるのか,制御機構としてどのように活用されるのかについて議論する。
次に,LLMをパワーの道具として持つ能力を組み合わせた新興研究のいくつかの分野に注目した。
以下を含む。
(i)会話インタフェースにおける選択アーキテクチャのリアルタイム設計による説得(例:「AIペルソナ」を通して)
(II)人為的エージェントの計算モデルとしてのLCMエージェントの使用(例えば「シリコン」科目)
三 人間のエージェント集団(例えば「シリコン社会」)の計算モデルとしてのLDMエージェントの使用、そして最後に
(4)LLMと強化学習を組み合わせることで,制御可能な戦略対話モデルを構築した。
これらの領域がどのように組み合わさって、人間の行動、意図、行動の非行な「予測」を通じて、個人、社会的、政治的制御の強力な手段として機能するLLMベースのシステムを構築するかについて議論する。
Large language models (LLMs) can reproduce a wide variety of rhetorical styles and generate text that expresses a broad spectrum of sentiments. This capacity, now available at low cost, makes them powerful tools for manipulation and control. In this paper, we consider a set of underestimated societal harms made possible by the rapid and largely unregulated adoption of LLMs. Rather than consider LLMs as isolated digital artefacts used to displace this or that area of work, we focus on the large-scale computational infrastructure upon which they are instrumentalised across domains. We begin with discussion on how LLMs may be used to both pollute and uniformize information environments and how these modalities may be leveraged as mechanisms of control. We then draw attention to several areas of emerging research, each of which compounds the capabilities of LLMs as instruments of power. These include (i) persuasion through the real-time design of choice architectures in conversational interfaces (e.g., via "AI personas"), (ii) the use of LLM-agents as computational models of human agents (e.g., "silicon subjects"), (iii) the use of LLM-agents as computational models of human agent populations (e.g., "silicon societies") and finally, (iv) the combination of LLMs with reinforcement learning to produce controllable and steerable strategic dialogue models. We draw these strands together to discuss how these areas may be combined to build LLM-based systems that serve as powerful instruments of individual, social and political control via the simulation and disingenuous "prediction" of human behaviour, intent, and action. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# 説明可能な人工知能(XAI)におけるセキュリティの虚偽感覚
False Sense of Security in Explainable Artificial Intelligence (XAI) ( http://arxiv.org/abs/2405.03820v1 ) ライセンス: Link先を確認 | Neo Christopher Chung, Hongkyou Chung, Hearim Lee, Hongbeom Chung, Lennart Brocki, George Dyer, | (参考訳) EUと米国におけるAI規制とポリシーの慎重な解釈は、準拠するAIシステムの中心的な提供物として説明可能性を置いている。
しかし、技術的観点から見れば、説明可能なAI(XAI)は、最先端の手法でさえしばしば誤った、誤解を招く、不完全な説明に達するという、明らかに複雑なターゲットのままである。
「説明可能性」は、しばしば相互に使用される複数の意味を持ち、さらに多くのXAIメソッドが存在します。
実際、各XAIメソッドには複数の障害モードがあり、アプリケーション固有の開発と継続的な評価が必要である。
本稿では、米国と欧州連合の立法・政策開発、例えば、人工知能の安全・安全・信頼性開発・利用に関する執行命令、AI法、AI責任指令、一般データ保護規則(GDPR)を、説明的観点から分析する。
これらのAI規制と現在の市場状況は、信頼できる、説明責任のある、透明なAIの目的が、意味のある説明を提供するためのAIオペレーターの疑わしい能力と本質的に関連しているため、効果的なAIガバナンスと安全を脅かしている、と我々は主張する。
政府は、技術的現実を考慮に入れた明確な立法と政策ステートメントを通じて説明可能性の問題に明示的に対処しない限り、科学標準を法的基準に置き換え、XAIにおける誤ったセキュリティ感覚を提供する、空虚な「ボックス・ティキング」演習となる。
A cautious interpretation of AI regulations and policy in the EU and the USA place explainability as a central deliverable of compliant AI systems. However, from a technical perspective, explainable AI (XAI) remains an elusive and complex target where even state of the art methods often reach erroneous, misleading, and incomplete explanations. "Explainability" has multiple meanings which are often used interchangeably, and there are an even greater number of XAI methods - none of which presents a clear edge. Indeed, there are multiple failure modes for each XAI method, which require application-specific development and continuous evaluation. In this paper, we analyze legislative and policy developments in the United States and the European Union, such as the Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence, the AI Act, the AI Liability Directive, and the General Data Protection Regulation (GDPR) from a right to explanation perspective. We argue that these AI regulations and current market conditions threaten effective AI governance and safety because the objective of trustworthy, accountable, and transparent AI is intrinsically linked to the questionable ability of AI operators to provide meaningful explanations. Unless governments explicitly tackle the issue of explainability through clear legislative and policy statements that take into account technical realities, AI governance risks becoming a vacuous "box-ticking" exercise where scientific standards are replaced with legalistic thresholds, providing only a false sense of security in XAI. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# 興味深いこと:小さな言語モデルで人間中心のスマートデバイスを構築する
Thoughtful Things: Building Human-Centric Smart Devices with Small Language Models ( http://arxiv.org/abs/2405.03821v1 ) ライセンス: Link先を確認 | Evan King, Haoxiang Yu, Sahil Vartak, Jenna Jacob, Sangsu Lee, Christine Julien, | (参考訳) 電球やキッチンアプライアンスなどのデバイスは、今では多くの機能や自動化された振る舞いが組み込まれているので、実際に使うのが難しくなってきた。
このような“スマート”な機能はユーザの目標をよりよくサポートしますが、さまざまなデバイスの“イン・アンド・アウト”を学ぶというタスクは大変なものです。
音声アシスタントは、デバイスに自然言語インターフェースを提供することでこの問題を解決することを目指しているが、そのようなアシスタントはゆるやかな制約のあるコマンドを理解できない。
これらの問題に対処するために、我々は、軽量でオンデバイスな言語モデルを活用して、制約のないユーザコマンドに応答して、アクションを処理し、それらの振る舞いを説明するデバイスという、思慮深いことを提案する。
本稿では,形式的モデリング,自動トレーニングデータ合成,生成言語モデルを活用するエンドツーエンドフレームワークを提案する。
当社のフレームワークはラベル付きデータを必要とせず、クラウド依存なしにデバイス上でデプロイできます。
我々は、2つの思慮深いもの(ランプとサーモスタット)を実装し、それらを実際のハードウェアにデプロイし、その実用性能を評価する。
Everyday devices like light bulbs and kitchen appliances are now embedded with so many features and automated behaviors that they have become complicated to actually use. While such "smart" capabilities can better support users' goals, the task of learning the "ins and outs" of different devices is daunting. Voice assistants aim to solve this problem by providing a natural language interface to devices, yet such assistants cannot understand loosely-constrained commands, they lack the ability to reason about and explain devices' behaviors to users, and they rely on connectivity to intrusive cloud infrastructure. Toward addressing these issues, we propose thoughtful things: devices that leverage lightweight, on-device language models to take actions and explain their behaviors in response to unconstrained user commands. We propose an end-to-end framework that leverages formal modeling, automated training data synthesis, and generative language models to create devices that are both capable and thoughtful in the presence of unconstrained user goals and inquiries. Our framework requires no labeled data and can be deployed on-device, with no cloud dependency. We implement two thoughtful things (a lamp and a thermostat) and deploy them on real hardware, evaluating their practical performance. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# 障害を打破する - ソフトウェア工学の女子学生と非専門学生の間での長寿意識を探る
Breaking Barriers: Investigating the Sense of Belonging Among Women and Non-Binary Students in Software Engineering ( http://arxiv.org/abs/2405.03824v1 ) ライセンス: Link先を確認 | Lina Boman, Jonatan Andersson, Francisco Gomes de Oliveira Neto, | (参考訳) コンピューティングの女性は20世紀初頭に最初のプログラマの1人となり、業界に多大な貢献をした。
今日、男性はソフトウェアエンジニアリング産業を支配しています。
調査やデータによると、女性がこの業界でキャリアを追求する確率ははるかに低く、男性よりも男性の方が低い。
女性や他の少数民族が業界を離れる理由は、成長と発展、不公平な治療、職場文化の機会の欠如である。
本研究は,大学レベルでのソフトウェア工学教育において,女性や非バイナリ個人に不利な産業を育成・維持する可能性について考察する。
この調査には調査とインタビューが含まれる。
我々は,性別名認識を調査機器として使用し,その結果,性別に基づくソフトウェア工学の学生の認識の相違点が小さかった。
特に調査の回答者は、男性ソフトウェアエンジニア(Hans)の価値をさまざまな技術スキルと非技術スキルに固定していますが、女性ソフトウェアエンジニア(Hanna)の同様の説明は、主に管理スキルによって固定されています。
女性や非バイナリーの学生へのインタビューから, 環境意識への大きな障壁について考察した。
収集されたデータは、トークン主義やステレオタイプ脅威といった文献からの既知の障壁がまだ存在することを示している。
しかし,学生の意識を高める役割モデルや励ましなどの肯定的な要因を見出した。
Women in computing were among the first programmers in the early 20th century and were substantial contributors to the industry. Today, men dominate the software engineering industry. Research and data show that women are far less likely to pursue a career in this industry, and those that do are less likely than men to stay in it. Reasons for women and other underrepresented minorities to leave the industry are a lack of opportunities for growth and advancement, unfair treatment and workplace culture. This research explores how the potential to cultivate or uphold an industry unfavourable to women and non-binary individuals manifests in software engineering education at the university level. For this purpose, the study includes surveys and interviews. We use gender name perception as a survey instrument, and the results show small differences in perceptions of software engineering students based on their gender. Particularly, the survey respondents anchor the values of the male software engineer (Hans) to a variety of technical and non-technical skills, while the same description for a female software engineer (Hanna) is anchored mainly by her managerial skills. With interviews with women and non-binary students, we gain insight on the main barriers to their sense of ambient belonging. The collected data shows that some known barriers from the literature such as tokenism, and stereotype threat, do still exist. However, we find positive factors such as role models and encouragement that strengthen the sense of belonging among these students. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# 言語モデル社会の組織化:集団知能の強化のための構造とメカニズム
Organizing a Society of Language Models: Structures and Mechanisms for Enhanced Collective Intelligence ( http://arxiv.org/abs/2405.03825v1 ) ライセンス: Link先を確認 | Silvan Ferreira, Ivanovitch Silva, Allan Martins, | (参考訳) 近年のLarge Language Models (LLM) の開発は、様々な領域にまたがってアプリケーションを大きく拡大している。
しかし、複雑な環境で個別に運用する場合、LLMの有効性は制約されることが多い。
本稿では,LLMをコミュニティベース構造に整理し,その集合的知性と問題解決能力の向上をめざして,変革的アプローチを提案する。
協力型AIシステムに特有のメリットと課題を提示する,階層的,フラット,ダイナミック,フェデレートされたさまざまな組織モデルについて検討する。
これらの構造されたコミュニティの中で、LLMは異なる認知タスクを専門化し、直接コミュニケーション、投票システム、市場ベースのアプローチといった高度な相互作用メカニズムを採用し、変化する要求を満たすためにガバナンス構造を動的に調整するように設計されている。
このようなコミュニティの実装は、AIにおける問題解決能力を改善するための大きな可能性を秘めており、倫理的考察、管理戦略、スケーラビリティの可能性の徹底的な検証を促している。
このポジションペーパーは、AI研究と応用における孤立した運用フレームワークからシナジスティックな運用フレームワークへのパラダイムシフトを提唱し、将来の研究の基盤を築こうとしている。
Recent developments in Large Language Models (LLMs) have significantly expanded their applications across various domains. However, the effectiveness of LLMs is often constrained when operating individually in complex environments. This paper introduces a transformative approach by organizing LLMs into community-based structures, aimed at enhancing their collective intelligence and problem-solving capabilities. We investigate different organizational models-hierarchical, flat, dynamic, and federated-each presenting unique benefits and challenges for collaborative AI systems. Within these structured communities, LLMs are designed to specialize in distinct cognitive tasks, employ advanced interaction mechanisms such as direct communication, voting systems, and market-based approaches, and dynamically adjust their governance structures to meet changing demands. The implementation of such communities holds substantial promise for improve problem-solving capabilities in AI, prompting an in-depth examination of their ethical considerations, management strategies, and scalability potential. This position paper seeks to lay the groundwork for future research, advocating a paradigm shift from isolated to synergistic operational frameworks in AI research and application. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# 昆虫に触発されたロボットナビゲーションのための自宅ベクトル方向の直接学習
Direct learning of home vector direction for insect-inspired robot navigation ( http://arxiv.org/abs/2405.03827v1 ) ライセンス: Link先を確認 | Michiel Firlefyn, Jesse Hagenaars, Guido de Croon, | (参考訳) 昆虫は長い間、巣の環境から視覚的手がかりを使って、ナビゲートと帰路の能力で認識されてきた。
しかし、この顕著なホーミングスキルの根底にある正確なメカニズムは、現在も進行中の調査の対象となっている。
ハチミツバチとハチミツバチの学習飛行からインスピレーションを得て,巣の近くの学習飛行中に視覚的知覚から家ベクトル方向を直接学習するロボットナビゲーション法を提案する。
学習後、ロボットは巣から離れて、オドメトリーで戻ってきて、現在経験のあるビューから自宅ベクトルの向きを推測することで漂流を除去する。
コンパクトな畳み込みニューラルネットワークを用いて、シミュレーションされた森林環境と実際の森林環境の両方で学習を成功させ、シミュレートされた四重項子のホーミング制御に成功したことを実証する。
推定されたホームベクトルの平均誤差は、ホーミングが成功するのに必要な90{\deg}以下であり、全ての画像が十分なテクスチャと照明を含んでいる場合、24{\deg}以下である。
さらに,初期学習飛行における軌道がネットワークの性能に顕著な影響を及ぼすことを示す。
巣に近いサンプルポイントの密度が高いと、より一貫したリターンをもたらす。
コードとデータはhttps://mavlab.tudelft.nl/learning_to_home で公開されている。
Insects have long been recognized for their ability to navigate and return home using visual cues from their nest's environment. However, the precise mechanism underlying this remarkable homing skill remains a subject of ongoing investigation. Drawing inspiration from the learning flights of honey bees and wasps, we propose a robot navigation method that directly learns the home vector direction from visual percepts during a learning flight in the vicinity of the nest. After learning, the robot will travel away from the nest, come back by means of odometry, and eliminate the resultant drift by inferring the home vector orientation from the currently experienced view. Using a compact convolutional neural network, we demonstrate successful learning in both simulated and real forest environments, as well as successful homing control of a simulated quadrotor. The average errors of the inferred home vectors in general stay well below the 90{\deg} required for successful homing, and below 24{\deg} if all images contain sufficient texture and illumination. Moreover, we show that the trajectory followed during the initial learning flight has a pronounced impact on the network's performance. A higher density of sample points in proximity to the nest results in a more consistent return. Code and data are available at https://mavlab.tudelft.nl/learning_to_home . | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# アメリカにおけるロマンス詐欺の軌跡
The Trajectory of Romance Scams in the U.S ( http://arxiv.org/abs/2405.03828v1 ) ライセンス: Link先を確認 | LD Herrera, John Hastings, | (参考訳) ロマンス詐欺(Romance scams, RS)は、意味のある関係を意図して被害者を欺くことで、経済的・感情的な損害を与える。
本研究は,2004年から2023年までのWeb検索,ニュース記事,研究論文,政府報告の定量的分析を通じて,米国におけるRSの動向を調査した。
RSトレンド分析に複数のソースを使用した最初の研究である。
結果は、最近当局に報告された事件の減少と対照的な、大衆の関心とメディアの報道が増していることを示している。
RSに特化した研究の頻度は着実に増加しているが、主にソリューションの開発よりも問題の文書化に焦点が当てられている。
全体としては、公式報告の減少にもかかわらずRSのエスカレーションが示唆されている。
これは、正確なデータ駆動ポリシー応答を可能にするレポートを促進するための、より深い認識の必要性を強調します。
さらに、これらの犯罪に対処する技術により多くの研究が焦点を合わせなければならない。
認識と予防の改善と、より正確なデータからの回答により、RS脅威の増大は軽減される可能性がある。
Romance scams (RS) inflict financial and emotional damage by defrauding victims under the guise of meaningful relationships. This research study examines RS trends in the U.S. through a quantitative analysis of web searches, news articles, research publications, and government reports from 2004 to 2023. This is the first study to use multiple sources for RS trend analysis. Results reveal increasing public interest and media coverage contrasted by a recent decrease in incidents reported to authorities. The frequency of research dedicated to RS has steadily grown but focuses predominantly on documenting the problem rather than developing solutions. Overall, findings suggest RS escalation despite declining official reports, which are likely obscured by low victim reporting rates. This highlights the need for greater awareness to encourage reporting enabling accurate data-driven policy responses. Additionally, more research must focus on techniques to counter these crimes. With improved awareness and prevention, along with responses informed by more accurate data, the rising RS threat can perhaps be mitigated. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# 大規模クラウドストレージの統合性 - 動的ハッシュツリーの例
Cloud Storage Integrity at Scale: A Case for Dynamic Hash Trees ( http://arxiv.org/abs/2405.03830v1 ) ライセンス: Link先を確認 | Quinn Burke, Ryan Sheatsley, Rachel King, Michael Swift, Patrick McDaniel, | (参考訳) Merkle hash treeは、ストレージシステムの完全性を保護する最先端の方法である。
しかし、ハッシュツリーの使用はパフォーマンスを著しく低下させる可能性があるため、事前の最適化作業では、大規模なクラウドストレージシステムのコンテキストにおいて、特定の設計のスケーラビリティに関する具体的な理解が得られていない。
本稿では,最適なハッシュツリーの定義を導入し,ハッシュツリーの保存性能を第一原理として解析する手法と,ハッシュツリー設計の原理的手法を提案する。
安全でないベースライン上で最大40.1倍のスローダウンを発生し、様々な実験で最適性能の50%を達成している。
次に、動的ハッシュツリー(DHT)の設計に最適なハッシュツリーの特性を活用し、作業負荷パターンに対応可能なハッシュツリーをオンザフライで設計し、95%以上の読み書き性能と4.2倍のスピードアップを実現する。
我々の新しい方法論とDHT設計は、大規模に効率的に動作可能な整合性メカニズムの探索に新たな基盤を提供する。
Merkle hash trees are the state-of-the-art method to protect the integrity of storage systems. However, using a hash tree can severely degrade performance, and prior works optimizing them have yet to yield a concrete understanding of the scalability of certain designs in the context of large-scale cloud storage systems. In this paper, we take a first-principles approach to analyzing hash tree performance for storage by introducing a definition of an optimal hash tree and a principled methodology for evaluating hash tree designs. We show that state-of-the-art designs are not scalable; they incur up to 40.1X slowdowns over an insecure baseline and deliver <50% of optimal performance across various experiments. We then exploit the characteristics of optimal hash trees to design Dynamic Hash Trees (DHTs), hash trees that can adapt to workload patterns on-the-fly, delivering >95% of optimal read and write performance and up to 4.2X speedups over the state-of-the art. Our novel methodology and DHT design provides a new foundation in the search for integrity mechanisms that can operate efficiently at scale. | 翻訳日:2024-05-08 18:04:44 公開日:2024-05-06 |
# Guylingo:Guyana Creole Corpora(英語)
Guylingo: The Republic of Guyana Creole Corpora ( http://arxiv.org/abs/2405.03832v1 ) ライセンス: Link先を確認 | Christopher Clarke, Roland Daynauth, Charlene Wilkinson, Hubert Devonish, Jason Mars, | (参考訳) 主要言語は、しばしばかなりの注意と資源を享受するが、世界中の言語多様性は、同じレベルの計算支援を欠く、より小さく、先住民的、地域言語を含む。
そのような地域の一つがカリブ海である。
一般的に「英語」と名付けられているが、元カリブ海地域は英語と共に繁栄するクレオール語が多数存在する。
本稿では,ガイアナの文化的に豊かな国で最も広く話されている言語であるクレオール語(グアーン英語・レキシコンクレオール語)の領域におけるNLP研究を促進するために設計された包括的コーパスであるGuylingoを紹介する。
我々はまず,この多言語コーパスの収集とデジタル化のための枠組みについて概説する。
次に、クレオールにおける機械翻訳のためのNLPモデルの訓練と評価の課題を示す。
最後に、カリブ海における公用語としてのクレオール語の公式導入を促進するため、最近のNLPの進歩によってもたらされる特異な機会について論じる。
While major languages often enjoy substantial attention and resources, the linguistic diversity across the globe encompasses a multitude of smaller, indigenous, and regional languages that lack the same level of computational support. One such region is the Caribbean. While commonly labeled as "English speaking", the ex-British Caribbean region consists of a myriad of Creole languages thriving alongside English. In this paper, we present Guylingo: a comprehensive corpus designed for advancing NLP research in the domain of Creolese (Guyanese English-lexicon Creole), the most widely spoken language in the culturally rich nation of Guyana. We first outline our framework for gathering and digitizing this diverse corpus, inclusive of colloquial expressions, idioms, and regional variations in a low-resource language. We then demonstrate the challenges of training and evaluating NLP models for machine translation in Creole. Lastly, we discuss the unique opportunities presented by recent NLP advancements for accelerating the formal adoption of Creole languages as official languages in the Caribbean. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# ドリルストリング音響通信のためのエンド・ツー・エンドオートエンコーダ
End-to-End Autoencoder for Drill String Acoustic Communications ( http://arxiv.org/abs/2405.03840v1 ) ライセンス: Link先を確認 | Iurii Lezhenin, Aleksandr Sidnev, Vladimir Tsygan, Igor Malyshev, | (参考訳) ドリルストリング通信は掘削効率と安全性に重要である。
高いスループットと信頼性を備えた低レイテンシドリル文字列通信システムの設計は、依然としてオープンな課題である。
本稿では,送信機と受信機をフィードフォワードニューラルネットワークとして実装した,AEを用いたエンドツーエンド通信システムを提案する。
シミュレーションにより、AEシステムはBERおよびPAPRの観点からベースラインの非連続OFDMシステムよりも高速に動作し、低レイテンシで動作可能であることが示された。
Drill string communications are important for drilling efficiency and safety. The design of a low latency drill string communication system with high throughput and reliability remains an open challenge. In this paper a deep learning autoencoder (AE) based end-to-end communication system, where transmitter and receiver implemented as feed forward neural networks, is proposed for acousticdrill string communications. Simulation shows that the AE system is able to outperform a baseline non-contiguous OFDM system in terms of BER and PAPR, operating with lower latency. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# マルチバンドフィンガープリントに基づく位置推定のための新しいクロスバンドCSI予測方式
A Novel Cross-band CSI Prediction Scheme for Multi-band Fingerprint based Localization ( http://arxiv.org/abs/2405.03842v1 ) ライセンス: Link先を確認 | Yuan Ruihao, Huang Kaixuan, Zhang Shunqing, | (参考訳) 従来のローカライゼーションアルゴリズムと比較して計算複雑性の利点があるため、指紋ベースのローカライゼーションは需要が高まっている。
チャネル再構成により、周波数領域から指紋データベースを拡張することにより、ローカライズ精度を向上させることができる。
しかし、移動環境においては、チャネル再構成の精度は時間変化パラメータによって制限される。
本稿では,空間交互一般化予測最大化(SAGE)アルゴリズムに基づいて時間変化パラメータを抽出し,可変オートエンコーダ(VAE)を用いて他のチャネルのチャネル状態情報を再構成するシステムを提案する。
提案手法は深部MIMOチャネルモデルにより生成されたデータに基づいて検証される。
本論文では,本システムの生存可能性に関する数学的解析についても述べる。
Because of the advantages of computation complex- ity compared with traditional localization algorithms, fingerprint based localization is getting increasing demand. Expanding the fingerprint database from the frequency domain by channel reconstruction can improve localization accuracy. However, in a mobility environment, the channel reconstruction accuracy is limited by the time-varying parameters. In this paper, we proposed a system to extract the time-varying parameters based on space-alternating generalized expectation maximization (SAGE) algorithm, then used variational auto-encoder (VAE) to reconstruct the channel state information on another channel. The proposed scheme is tested on the data generated by the deep- MIMO channel model. Mathematical analysis for the viability of our system is also shown in this paper. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# LLMに基づく自己改善型顧客レビュー応答生成
Self-Improving Customer Review Response Generation Based on LLMs ( http://arxiv.org/abs/2405.03845v1 ) ライセンス: Link先を確認 | Guy Azov, Tatiana Pelc, Adi Fledel Alon, Gila Kamhi, | (参考訳) これまでの研究では、ユーザレビューとの積極的なインタラクションがアプリのユーザの認識に肯定的な影響を与え、改訂された評価の提出を促すことが示されている。
それにもかかわらず、開発者は大量のレビューを管理することの難しさに直面する。
その結果,ユーザレビューへの回答プロセスの合理化を目的とした自動化ソリューションの需要が高まっている。
そこで我々は,検索強化世代 (RAG) と高度大言語モデル (LLMs) の助けを借りて,ユーザ貢献型文書を活用した自動応答生成システムを開発した。
我々のソリューションであるSCRABLEは、自己最適化プロンプトとLCMに基づく判断機構によって自己向上する適応的な顧客レビュー応答自動化である。
また、顧客レビュー領域で発生する応答の質を評価するために、人間評価者の役割を模倣する自動スコアリング機構を導入する。
実世界のデータセットを用いた大規模な実験と分析により,本手法は高品質な応答生成に有効であり,ベースラインと比較して8.5%以上の改善が得られた。
生成した応答を手動で検証することで,提案システムの有効性を実証する。
Previous studies have demonstrated that proactive interaction with user reviews has a positive impact on the perception of app users and encourages them to submit revised ratings. Nevertheless, developers encounter challenges in managing a high volume of reviews, particularly in the case of popular apps with a substantial influx of daily reviews. Consequently, there is a demand for automated solutions aimed at streamlining the process of responding to user reviews. To address this, we have developed a new system for generating automatic responses by leveraging user-contributed documents with the help of retrieval-augmented generation (RAG) and advanced Large Language Models (LLMs). Our solution, named SCRABLE, represents an adaptive customer review response automation that enhances itself with self-optimizing prompts and a judging mechanism based on LLMs. Additionally, we introduce an automatic scoring mechanism that mimics the role of a human evaluator to assess the quality of responses generated in customer review domains. Extensive experiments and analyses conducted on real-world datasets reveal that our method is effective in producing high-quality responses, yielding improvement of more than 8.5% compared to the baseline. Further validation through manual examination of the generated responses underscores the efficacy our proposed system. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# クロスモーダル・エンベディングによるパーソナリティ・トランジット分析の強化
Enhancing Apparent Personality Trait Analysis with Cross-Modal Embeddings ( http://arxiv.org/abs/2405.03846v1 ) ライセンス: Link先を確認 | Ádám Fodor, Rachid R. Saboundji, András Lőrincz, | (参考訳) 人的特性の自動評価は、高品質な人間と機械の相互作用に不可欠である。
人間の行動分析が可能なシステムは、自動運転車、医療研究、監視などに使われる。
本稿では,ショートビデオ記録をトレーニングし,モダリティ不変な埋め込みを活用するために,シームズ拡張を用いたマルチモーダルディープニューラルネットワークを提案する。
このタスクでは,音響,視覚,テキストの情報を高性能なソリューションに活用する。
分析されたデータセットの高度に集中したターゲット分布のため、第3桁の変更は関連している。
提案手法は, 最短値表現の難しさに対処し, 0.0033 MAE平均改善を実現し, 導入モジュールを使わずに, ベースラインマルチモーダルDNNに対して明確な優位性を示す。
Automatic personality trait assessment is essential for high-quality human-machine interactions. Systems capable of human behavior analysis could be used for self-driving cars, medical research, and surveillance, among many others. We present a multimodal deep neural network with a Siamese extension for apparent personality trait prediction trained on short video recordings and exploiting modality invariant embeddings. Acoustic, visual, and textual information are utilized to reach high-performance solutions in this task. Due to the highly centralized target distribution of the analyzed dataset, the changes in the third digit are relevant. Our proposed method addresses the challenge of under-represented extreme values, achieves 0.0033 MAE average improvement, and shows a clear advantage over the baseline multimodal DNN without the introduced module. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# 一般化相キックバックのさらなる応用
Further Applications of the Generalised Phase Kick-Back ( http://arxiv.org/abs/2405.03850v1 ) ライセンス: Link先を確認 | Joaquín Osorio-Castillo, Ulises Pastor-Díaz, José M. Tornero, | (参考訳) これまでの研究で、一般化位相キックバック(Generalized Phase Kick-Back, $GPK$)と呼ばれる量子アルゴリズム技術を定義し、Deutsch-Jozsa問題やBernstein-Vazirani問題といった古典的な量子問題を一般化するための応用を解析した。
また、この手法を用いることでSimonの問題をより効率的に解けることも証明した。
本稿では、この手法の可能性を分析し、$\mathbf{y}$- Balanced関数の概念を定義し、新しい問題を解き、一般化されたDeutsch-Jozsa問題(完全平衡画像問題)をさらに一般化する。
この問題はまた、量子計算とブール関数理論の関係、特にウォルシュ変換とフーリエ・アダマール変換(英語版)(Walsh and Fourier-Hadamard transforms)との関係を基盤としている。
我々は、新しい解の効率を解析しながら、$GPK$アルゴリズムを用いてSimonの問題を一般化したバージョンを解くことで議論を終わらせる。
In our previous work, we defined a quantum algorithmic technique known as the Generalised Phase Kick-Back, or $GPK$, and analysed its applications in generalising some classical quantum problems, such as the Deutsch-Jozsa problem or the Bernstein-Vazirani problem. We also proved that using this technique we can solve Simon's problem in a more efficient manner. In this paper we continue analysing the potential of this technique, defining the concept of $\mathbf{y}$-balanced functions and solving a new problem, which further generalises the generalised Deutsch-Jozsa problem (the fully balanced image problem). This problem also underlines the relation between quantum computation and Boolean function theory, and, in particular, the Walsh and Fourier-Hadamard transforms. We finish our discussion by solving the generalised version of Simon's problem using the $GPK$ algorithm, while analysing the efficiency of this new solution. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# VSA4VQA: ベクトル記号型アーキテクチャを自然画像の視覚的質問応答に拡張する
VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images ( http://arxiv.org/abs/2405.03852v1 ) ライセンス: Link先を確認 | Anna Penzkofer, Lei Shi, Andreas Bulling, | (参考訳) ベクトル記号アーキテクチャ(VSAs)は空間認識のモデル化を約束しているが、現在は人工的に生成された画像と単純な空間クエリに限られている。
視覚質問応答(VQA)の課題に対して,自然画像の心的表現を実装したVSAの4D実装であるVSA4VQAを提案する。
VSA4VQAは、VSAを複雑な空間クエリに拡張する最初のモデルである。
本手法は,超次元ベクトル空間にオブジェクトをエンコードするセマンティックポインタアーキテクチャ(SPA)に基づいている。
自然画像をエンコードするために,SPAは空間的位置に加えて,物体の幅と高さの次元を含むように拡張する。
空間問合せを行うために,学習された空間問合せマスクを導入し,属性関連質問に応答するための事前学習された視覚言語モデルを統合する。
提案手法をGQAベンチマークデータセット上で評価し,自然画像のエンコードを効果的に行い,ゼロショットVQAのための最先端のディープラーニング手法と競合する性能が得られることを示す。
While Vector Symbolic Architectures (VSAs) are promising for modelling spatial cognition, their application is currently limited to artificially generated images and simple spatial queries. We propose VSA4VQA - a novel 4D implementation of VSAs that implements a mental representation of natural images for the challenging task of Visual Question Answering (VQA). VSA4VQA is the first model to scale a VSA to complex spatial queries. Our method is based on the Semantic Pointer Architecture (SPA) to encode objects in a hyperdimensional vector space. To encode natural images, we extend the SPA to include dimensions for object's width and height in addition to their spatial location. To perform spatial queries we further introduce learned spatial query masks and integrate a pre-trained vision-language model for answering attribute-related questions. We evaluate our method on the GQA benchmark dataset and show that it can effectively encode natural images, achieving competitive performance to state-of-the-art deep learning methods for zero-shot VQA. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# 企業の責任を負うAIプライオリティ化を促進するための戦略
Strategies for Increasing Corporate Responsible AI Prioritization ( http://arxiv.org/abs/2405.03855v1 ) ライセンス: Link先を確認 | Angelina Wang, Teresa Datta, John P. Dickerson, | (参考訳) 責任ある人工知能(RAI)は、ますます重要な関心事として認識されている。
しかし、企業RAIの優先順位付けのレベルはペースを保っていない。
本研究では,RAIの優先性を高めるために,企業を歴史的に動機づけてきたものについて,実践者に対して16回の半構造化インタビューを行った。
現れるのは、矛盾する要因とさまざまな要因の複雑な物語ですが、私たちは、採用可能なさまざまな戦略を強調して、それぞれにアクセス可能なアクターを指し示することで、物語に構造をもたらします。
RAI優先化を促進するための保証されたステップはないが、私たちは、実践者が互いに学び合うように、現在のモチベーターの風景を描き、将来性のある方向の選択を私たち自身で進める。
Responsible artificial intelligence (RAI) is increasingly recognized as a critical concern. However, the level of corporate RAI prioritization has not kept pace. In this work, we conduct 16 semi-structured interviews with practitioners to investigate what has historically motivated companies to increase the prioritization of RAI. What emerges is a complex story of conflicting and varied factors, but we bring structure to the narrative by highlighting the different strategies available to employ, and point to the actors with access to each. While there are no guaranteed steps for increasing RAI prioritization, we paint the current landscape of motivators so that practitioners can learn from each other, and put forth our own selection of promising directions forward. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# コンフォーマル性, コンバブレーション, 偽装:多言語LLMコラボレーションにおけるペルソナの不整合
Conformity, Confabulation, and Impersonation: Persona Inconstancy in Multi-Agent LLM Collaboration ( http://arxiv.org/abs/2405.03862v1 ) ライセンス: Link先を確認 | Razan Baltaji, Babak Hemmatian, Lav R. Varshney, | (参考訳) 本研究は,マルチエージェントLLMシステムにおける文化的ペルソナや意見の維持における不安定性の源泉について検討する。
異文化間コラボレーションと議論のシミュレーションに基づいて、エージェントの事前・事後私的反応とチャットの書き起こしを分析し、文化的ペルソナの安定性と意見の多様性が集団的成果に与える影響を評価する。
本研究は, 多様な視点を反映した集団的意思決定を促すことが示唆されるが, この利益は, 対人的プレッシャーや一貫したペルソナや意見を維持する上での課題により, エージェントの適合性への感受性によって誘惑される。
反対に、意見を支持する議論を促す指示は、矛盾の率を増加させる。
私たちが特定した要因に対処しない限り、より文化的に多様なAI出力を生成するためのマルチエージェントフレームワークの潜在能力は未完成のままだ。
This study explores the sources of instability in maintaining cultural personas and opinions within multi-agent LLM systems. Drawing on simulations of inter-cultural collaboration and debate, we analyze agents' pre- and post-discussion private responses alongside chat transcripts to assess the stability of cultural personas and the impact of opinion diversity on group outcomes. Our findings suggest that multi-agent discussions can encourage collective decisions that reflect diverse perspectives, yet this benefit is tempered by the agents' susceptibility to conformity due to perceived peer pressure and challenges in maintaining consistent personas and opinions. Counterintuitively, instructions that encourage debate in support of one's opinions increase the rate of inconstancy. Without addressing the factors we identify, the full potential of multi-agent frameworks for producing more culturally diverse AI outputs will remain untapped. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# 言語から計画的抽象化を学ぶ
Learning Planning Abstractions from Language ( http://arxiv.org/abs/2405.03864v1 ) ライセンス: Link先を確認 | Weiyu Liu, Geng Chen, Joy Hsu, Jiayuan Mao, Jiajun Wu, | (参考訳) 本稿では,シーケンシャルな意思決定領域における状態と行動の抽象化を学習するためのフレームワークを提案する。
言語からの抽象化(PARL)を計画する我々のフレームワークは、言語アノテーションによるデモを利用して、シンボル的で抽象的なアクション空間を自動的に発見し、それに基づいて潜在状態の抽象化を誘導する。
PARLは3つの段階から構成される。
1【対象レベル及び行動概念の回復】
2 状態抽象化、抽象行動実現可能性及び遷移モデルを学ぶこと。
3)抽象行動に低レベル政策を適用する。
タスク記述から推測すると、PARLはまず潜在遷移関数と実現可能性関数を用いて抽象的なアクションプランを作成し、次に低レベルポリシーを用いて高レベルプランを洗練する。
PARLは、新しいオブジェクトインスタンスと環境、目に見えない概念構成、トレーニングされた設定よりも長い計画的地平線を必要とするタスクを含むシナリオを一般化する。
This paper presents a framework for learning state and action abstractions in sequential decision-making domains. Our framework, planning abstraction from language (PARL), utilizes language-annotated demonstrations to automatically discover a symbolic and abstract action space and induce a latent state abstraction based on it. PARL consists of three stages: 1) recovering object-level and action concepts, 2) learning state abstractions, abstract action feasibility, and transition models, and 3) applying low-level policies for abstract actions. During inference, given the task description, PARL first makes abstract action plans using the latent transition and feasibility functions, then refines the high-level plan using low-level policies. PARL generalizes across scenarios involving novel object instances and environments, unseen concept compositions, and tasks that require longer planning horizons than settings it is trained on. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# 効率的なロボットマニピュレーションのための情報駆動型アクダクタンス発見
Information-driven Affordance Discovery for Efficient Robotic Manipulation ( http://arxiv.org/abs/2405.03865v1 ) ライセンス: Link先を確認 | Pietro Mazzaglia, Taco Cohen, Daniel Dijkman, | (参考訳) ロボットが与えられた状況でどのような行動を取るかに関する情報を提供するロボットは、ロボット操作を支援することができる。
しかし、手頃な価格について学ぶには、対話やデモのための高価な大規模な注釈付きデータセットが必要である。
本研究では,環境との良好な対話がこの問題を緩和し,エージェントの目的を増強し,アベイランス発見プロセスを加速させる情報に基づく尺度を提案する。
我々は,本手法の理論的正当性を提供し,シミュレーションと実世界の課題の両方において,そのアプローチを実証的に検証する。
筆者らはIDAを用いて,物体の把握,積み重ね,引き出しの開放など,複数のアクションプリミティブの視覚的余裕を効果的に発見し,シミュレーションにおけるデータ効率を向上し,UFACTORY XArm 6ロボットアームを用いた実環境において,少数のインタラクションにおいて,視覚的余裕の把握を学べるようにした。
Robotic affordances, providing information about what actions can be taken in a given situation, can aid robotic manipulation. However, learning about affordances requires expensive large annotated datasets of interactions or demonstrations. In this work, we argue that well-directed interactions with the environment can mitigate this problem and propose an information-based measure to augment the agent's objective and accelerate the affordance discovery process. We provide a theoretical justification of our approach and we empirically validate the approach both in simulation and real-world tasks. Our method, which we dub IDA, enables the efficient discovery of visual affordances for several action primitives, such as grasping, stacking objects, or opening drawers, strongly improving data efficiency in simulation, and it allows us to learn grasping affordances in a small number of interactions, on a real-world setup with a UFACTORY XArm 6 robot arm. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# 波長可変線形光位相増幅
Tunable linear-optical phase amplification ( http://arxiv.org/abs/2405.03868v1 ) ライセンス: Link先を確認 | Christopher R. Schwarze, David S. Simon, Abdoulaye Ndao, Alexander V. Sergienko, | (参考訳) 我々は、損失のない位相のみの変換と完全伝達線形光散乱器を組み合わせることで、線形光位相増幅の原理を定義する。
これにより、物理的な位相シフト $\phi$ を線型光学を使って新しい空間 $\gamma(\phi)$ に非線形にマッピングすることができ、その結果、任意の標準の位相シフト器を完全に一般化し拡張することができる。
特定の位相増幅器を実験的に実現し、位相拡張パラメータ$d\gamma/d\phi$を連続的に調整する。
マッハ・ツェンダー干渉計の片腕にこの強化位相シフト器を配置すると、増幅されていないものよりも20倍以上の急勾配が得られた。
We combine lossless, phase-only transformations with fully-transmitting linear-optical scatterers to define the principle of linear-optical phase amplification. This enables a physical phase shift $\phi$ to be nonlinearly mapped to a new space $\gamma(\phi)$ using linear optics, resulting in a completely general and enhanced phase shifter that can replace any standard one. A particular phase amplifier is experimentally realized, allowing the phase enhancement parameter $d\gamma/d\phi$ to be continuously tuned. Placing this enhanced phase shifter in one arm of a Mach-Zehnder interferometer led to an intensity-phase slope more than twenty times steeper than what can be obtained with its unamplified counterpart. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# Outlier Gradient Analysis: ヘシアンフリーインフルエンス関数によるディープラーニングモデルの性能向上
Outlier Gradient Analysis: Efficiently Improving Deep Learning Model Performance via Hessian-Free Influence Functions ( http://arxiv.org/abs/2405.03869v1 ) ライセンス: Link先を確認 | Anshuman Chhabra, Bo Li, Jian Chen, Prasant Mohapatra, Hongfu Liu, | (参考訳) 影響関数は、各トレーニングデータサンプルがモデル予測に与える影響を評価するための堅牢なフレームワークを提供する。
様々なタスクで広く使われているにもかかわらず、モデルに対する強い凸性仮定と、ヘッセン行列の逆数を計算することに関連する計算コストは、特に大きな深層モデルを分析する際に制約となる。
本稿では、古典的なデータ中心のシナリオ、トリミング・デトリメンタル・サンプルに焦点を当て、統一されたフレームワークにおける両方の課題に対処する。
具体的には、影響関数と外乱勾配検出による有害トレーニングサンプルの同定の同値変換を確立する。
この変換は単純でヘッセン自由な定式化を提示するだけでなく、試料衝突における勾配の役割について深い洞察を与える。
さらに、影響関数の凸性仮定を緩和し、その適用性を非凸深度モデルに拡張する。
系統的な実験的な評価を通じて,提案した合成データセットのアウトリー勾配解析の正しさを検証し,その効果を視覚モデルにおける誤ラベルサンプルの検出,自然言語処理におけるトランスフォーマーモデルの性能向上のためのデータサンプルの選択,微調整された大規模言語モデルにおける影響力のあるサンプルの同定などに適用した。
Influence functions offer a robust framework for assessing the impact of each training data sample on model predictions, serving as a prominent tool in data-centric learning. Despite their widespread use in various tasks, the strong convexity assumption on the model and the computational cost associated with calculating the inverse of the Hessian matrix pose constraints, particularly when analyzing large deep models. This paper focuses on a classical data-centric scenario--trimming detrimental samples--and addresses both challenges within a unified framework. Specifically, we establish an equivalence transformation between identifying detrimental training samples via influence functions and outlier gradient detection. This transformation not only presents a straightforward and Hessian-free formulation but also provides profound insights into the role of the gradient in sample impact. Moreover, it relaxes the convexity assumption of influence functions, extending their applicability to non-convex deep models. Through systematic empirical evaluations, we first validate the correctness of our proposed outlier gradient analysis on synthetic datasets and then demonstrate its effectiveness in detecting mislabeled samples in vision models, selecting data samples for improving performance of transformer models for natural language processing, and identifying influential samples for fine-tuned Large Language Models. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# ビッグデータエコシステムにおけるデータ品質向上のためのAI駆動フレームワーク:エラー検出、補正、メタデータ統合
AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration ( http://arxiv.org/abs/2405.03870v1 ) ライセンス: Link先を確認 | Widad Elouataoui, | (参考訳) ビッグデータの普及により、データ駆動型意思決定の新時代が到来し、多くの産業やセクターが変化した。
しかし、これらの決定の有効性は、基礎となるデータの品質に依存している。
不適切なデータ品質は、不正確な分析と偽りの結論をもたらす可能性がある。
膨大な量のデータソース、ベロシティ、さまざまなデータソースを管理することは、ビッグデータの品質問題に対処することの重要性を高める上で、大きな課題となる。
学術と産業の両方から注目が集まっているが、現在のアプローチは包括性と普遍性に欠けることが多い。
彼らは限られたメトリクスに集中し、データ品質の他の次元を無視する傾向があります。
さらに、既存のメソッドは、しばしばコンテキスト固有であり、異なるドメインにまたがる適用性を制限する。
高度なデータ品質の修正に人工知能(AI)を活用するインテリジェントで自動化されたアプローチの必要性は明らかである。
これらのギャップを埋めるために、この博士論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第2に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
第3に,予測モデルを用いて検出された異常を補正する革新的なフレームワークを提案する。
さらに、ビッグデータエコシステム内のメタデータの品質向上にも取り組みます。
これらのフレームワークはさまざまなデータセットで厳格にテストされており、ビッグデータの品質を改善する上での有効性を実証している。
最後に、論文は将来の研究方向性についての洞察と提案で締めくくられる。
The widespread adoption of big data has ushered in a new era of data-driven decision-making, transforming numerous industries and sectors. However, the efficacy of these decisions hinges on the quality of the underlying data. Poor data quality can result in inaccurate analyses and deceptive conclusions. Managing the vast volume, velocity, and variety of data sources presents significant challenges, heightening the importance of addressing big data quality issues. While there has been increased attention from both academia and industry, current approaches often lack comprehensiveness and universality. They tend to focus on limited metrics, neglecting other dimensions of data quality. Moreover, existing methods are often context-specific, limiting their applicability across different domains. There is a clear need for intelligent, automated approaches leveraging artificial intelligence (AI) for advanced data quality corrections. To bridge these gaps, this Ph.D. thesis proposes a novel set of interconnected frameworks aimed at enhancing big data quality comprehensively. Firstly, we introduce new quality metrics and a weighted scoring system for precise data quality assessment. Secondly, we present a generic framework for detecting various quality anomalies using AI models. Thirdly, we propose an innovative framework for correcting detected anomalies through predictive modeling. Additionally, we address metadata quality enhancement within big data ecosystems. These frameworks are rigorously tested on diverse datasets, demonstrating their efficacy in improving big data quality. Finally, the thesis concludes with insights and suggestions for future research directions. | 翻訳日:2024-05-08 16:07:44 公開日:2024-05-06 |
# 非射影ベル状態測定
Non-projective Bell state measurements ( http://arxiv.org/abs/2405.03872v1 ) ライセンス: Link先を確認 | Amanda Wei, Gabriele Cobucci, Armin Tavakoli, | (参考訳) ベル状態測定 (BSM) は4つの直交極大絡み合った状態への2つの量子ビットの射影である。
ここでは、まず、4つ以上の可能な結果を持つより一般的なBSMを適切に定義し、量子論においてそれらが存在するかどうかを考察する。
非射影的 BSM は、最大交絡状態の等角的強フレーム、すなわち最大交絡状態の集合において体系的に定義される。
明示的な構成により、5つの出力を持つBSMが存在することが示され、単純な幾何学的表現が認められる。
そして、2つのキュービット上により大きなBSMが存在しないことを証明し、6つのアウトカムBSMが不可能であることを示す。
また、6つの等角的最大絡み合った状態の最も区別可能な集合を決定し、それが有効な量子測度を形成するのにわずかに不足していることを示す。
最後に,非射影型BSMを局所的状態識別と絡み合い支援量子通信の両方の文脈で検討する。
本結果は,非射影ジョイント測定の自然な形態を提示し,絡み合った量子状態の幾何学に関する洞察を与えるものである。
The Bell state measurement (BSM) is the projection of two qubits onto four orthogonal maximally entangled states. Here, we first propose how to appropriately define more general BSMs, that have more than four possible outcomes, and then study whether they exist in quantum theory. We observe that non-projective BSMs can be defined in a systematic way in terms of equiangular tight frames of maximally entangled states, i.e.~a set of maximally entangled states, where every pair is equally, and in a sense maximally, distinguishable. We show that there exists a five-outcome BSM through an explicit construction, and find that it admits a simple geometric representation. Then, we prove that there exists no larger BSM on two qubits by showing that no six-outcome BSM is possible. We also determine the most distinguishable set of six equiangular maximally entangled states and show that it falls only somewhat short of forming a valid quantum measurement. Finally, we study the non-projective BSM in the contexts of both local state discrimination and entanglement-assisted quantum communication. Our results put forward natural forms of non-projective joint measurements and provide insight on the geometry of entangled quantum states. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# ジレンマゾーンにおけるパーソナライズドライビング行動の調査:ストップ・オー・ゴー判定の分析と予測
Investigating Personalized Driving Behaviors in Dilemma Zones: Analysis and Prediction of Stop-or-Go Decisions ( http://arxiv.org/abs/2405.03873v1 ) ライセンス: Link先を確認 | Ziye Qin, Siyan Li, Guoyuan Wu, Matthew J. Barth, Amr Abdelraouf, Rohit Gupta, Kyungtae Han, | (参考訳) 信号交差点のジレンマゾーンは、一般的に発生するが、運転者や交通業者にとって未解決の課題である。
黄色いライトのオンセットは、様々なドライバーからの反応を刺激する: ある者は突然ブレーキをかけ、乗り心地を損なうが、ある者は加速し、赤信号違反のリスクと潜在的な安全リスクを増大させる。
このようなドライバの停止決定の多様性は、交通条件を囲むだけでなく、運転行動のパーソナライズによってもたらされる可能性がある。
この目的のために、パーソナライズされた運転行動を特定し、ジレンマゾーン問題を緩和する高度運転支援システム(ADAS)に統合することは、興味深い科学的疑問を呈する。
本研究では,CARLA対応のゲームエンジン駆動シミュレータを用いて,高解像度車両軌道,着信信号位相,タイミング情報を収集し,各シナリオにおける4人の運転者の停止決定を行う。
このアプローチにより、ジレンマゾーンにおけるパーソナライズされた運転行動を分析し、個別のドライバーの停止決定を予測できるパーソナライズされたトランスフォーマーエンコーダを開発することができる。
その結果、パーソナライズされたトランスフォーマーエンコーダは、ジェネリックトランスフォーマーエンコーダよりも3.7%から12.6%、バイナリロジスティック回帰モデルより16.8%から21.6%の精度で、ジレンマゾーンにおけるドライバの意思決定の予測精度を向上することが示された。
Dilemma zones at signalized intersections present a commonly occurring but unsolved challenge for both drivers and traffic operators. Onsets of the yellow lights prompt varied responses from different drivers: some may brake abruptly, compromising the ride comfort, while others may accelerate, increasing the risk of red-light violations and potential safety hazards. Such diversity in drivers' stop-or-go decisions may result from not only surrounding traffic conditions, but also personalized driving behaviors. To this end, identifying personalized driving behaviors and integrating them into advanced driver assistance systems (ADAS) to mitigate the dilemma zone problem presents an intriguing scientific question. In this study, we employ a game engine-based (i.e., CARLA-enabled) driving simulator to collect high-resolution vehicle trajectories, incoming traffic signal phase and timing information, and stop-or-go decisions from four subject drivers in various scenarios. This approach allows us to analyze personalized driving behaviors in dilemma zones and develop a Personalized Transformer Encoder to predict individual drivers' stop-or-go decisions. The results show that the Personalized Transformer Encoder improves the accuracy of predicting driver decision-making in the dilemma zone by 3.7% to 12.6% compared to the Generic Transformer Encoder, and by 16.8% to 21.6% over the binary logistic regression model. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# データ選択タスクのためのデータ共有の再考:誤解とメリット
Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits ( http://arxiv.org/abs/2405.03875v1 ) ライセンス: Link先を確認 | Jiachen T. Wang, Tianji Yang, James Zou, Yongchan Kwon, Ruoxi Jia, | (参考訳) Data Shapleyはデータ評価に対する原則的なアプローチを提供し、データ中心機械学習(ML)研究において重要な役割を果たす。
データ選択は、Data Shapleyの標準的な応用と見なされている。
しかし、そのデータ選択性能は、文献における設定間で矛盾していることが示されている。
この研究は、この現象の理解を深めることを目的としている。
我々は仮説テストフレームワークを導入し、Data Shapleyのパフォーマンスがユーティリティ関数に特定の制約を加えることなくランダムな選択に勝ることを示す。
我々は,Data Shapleyが最適にデータを選択するモジュール関数を単調に変換したユーティリティ関数のクラスを同定する。
この知見に基づいて,データ選択タスクにおけるデータ共有の有効性を予測するヒューリスティックを提案する。
我々の実験は、これらの発見を裏付け、Data Shapleyがいつ成功するか、あるいは成功しないか、という新たな洞察を追加します。
Data Shapley provides a principled approach to data valuation and plays a crucial role in data-centric machine learning (ML) research. Data selection is considered a standard application of Data Shapley. However, its data selection performance has shown to be inconsistent across settings in the literature. This study aims to deepen our understanding of this phenomenon. We introduce a hypothesis testing framework and show that Data Shapley's performance can be no better than random selection without specific constraints on utility functions. We identify a class of utility functions, monotonically transformed modular functions, within which Data Shapley optimally selects data. Based on this insight, we propose a heuristic for predicting Data Shapley's effectiveness in data selection tasks. Our experiments corroborate these findings, adding new insights into when Data Shapley may or may not succeed. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# シーケンス圧縮は強化学習におけるクレジット割り当てを高速化する
Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning ( http://arxiv.org/abs/2405.03878v1 ) ライセンス: Link先を確認 | Aditya A. Ramesh, Kenny Young, Louis Kirsch, Jürgen Schmidhuber, | (参考訳) 強化学習における時間的クレジット割り当ては、遅れた確率的な結果のために困難である。
モンテカルロの標的は行動と結果の間の長い遅延を橋渡しすることができるが、確率性によって高い分散目標につながる。
時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。
TD($\lambda$)は、このバイアス分散トレードオフをスムーズにナビゲートするメカニズムを提供する。
適切な$\lambda$を選択すると、パフォーマンスが大幅に向上する。
本稿では,Chunked-TDを提案する。これは,$\lambda$-returnターゲットを計算するためのモデルからトランジションの予測確率を利用する。
他のモデルベースの信用代入ソリューションとは異なり、Chunked-TDはモデルの不正確さに弱い。
本手法は,従来のTD学習における履歴圧縮と「チャンク」軌道の原理に動機付けられている。
学習された世界モデルによるチャンキングは、環境と政治の相互作用のほぼ決定論的領域を圧縮し、必要に応じてブートストラップしながらクレジット割り当てを高速化する。
我々は,オンラインで実装可能なアルゴリズムを提案し,従来のTD($\lambda$)よりもはるかに高速に解決できることを示す。
Temporal credit assignment in reinforcement learning is challenging due to delayed and stochastic outcomes. Monte Carlo targets can bridge long delays between action and consequence but lead to high-variance targets due to stochasticity. Temporal difference (TD) learning uses bootstrapping to overcome variance but introduces a bias that can only be corrected through many iterations. TD($\lambda$) provides a mechanism to navigate this bias-variance tradeoff smoothly. Appropriately selecting $\lambda$ can significantly improve performance. Here, we propose Chunked-TD, which uses predicted probabilities of transitions from a model for computing $\lambda$-return targets. Unlike other model-based solutions to credit assignment, Chunked-TD is less vulnerable to model inaccuracies. Our approach is motivated by the principle of history compression and 'chunks' trajectories for conventional TD learning. Chunking with learned world models compresses near-deterministic regions of the environment-policy interaction to speed up credit assignment while still bootstrapping when necessary. We propose algorithms that can be implemented online and show that they solve some problems much faster than conventional TD($\lambda$). | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# 単一セルトランスクリプトミクスデータのためのスケーラブルな償却GPLVM
Scalable Amortized GPLVMs for Single Cell Transcriptomics Data ( http://arxiv.org/abs/2405.03879v1 ) ライセンス: Link先を確認 | Sarah Zhao, Aditya Ravuri, Vidhi Lalchand, Neil D. Lawrence, | (参考訳) 大規模単細胞RNA-seqデータの解析には次元化が不可欠である。
Gaussian Process Latent Variable Models (GPLVMs) は解釈可能な次元削減法を提供するが、現在のスケーラブルモデルはクラスタリングセルタイプの有効性に欠ける。
本稿では,特定のエンコーダ,カーネル,および可能性設計を備えた単一セルRNA-seqに適した改良モデル,BGPLVM (Amortized stochastic variational Bayesian GPLVM)を提案する。
このモデルは、合成および実世界のCOVIDデータセットに対する主要なシングルセル変動推論(scVI)アプローチのパフォーマンスと一致し、細胞周期とバッチ情報を効果的に組み込んで、自然免疫データセットで示すように、より解釈可能な潜在構造を明らかにする。
Dimensionality reduction is crucial for analyzing large-scale single-cell RNA-seq data. Gaussian Process Latent Variable Models (GPLVMs) offer an interpretable dimensionality reduction method, but current scalable models lack effectiveness in clustering cell types. We introduce an improved model, the amortized stochastic variational Bayesian GPLVM (BGPLVM), tailored for single-cell RNA-seq with specialized encoder, kernel, and likelihood designs. This model matches the performance of the leading single-cell variational inference (scVI) approach on synthetic and real-world COVID datasets and effectively incorporates cell-cycle and batch information to reveal more interpretable latent structures as we demonstrate on an innate immunity dataset. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# ボクセル重要度に基づく効率的な放射線処理計画
Efficient Radiation Treatment Planning based on Voxel Importance ( http://arxiv.org/abs/2405.03880v1 ) ライセンス: Link先を確認 | Sebastian Mair, Anqi Fu, Jens Sjölund, | (参考訳) 最適化は放射線治療計画の時間を要する部分である。
本稿では,情報ボクセルの代表的な部分集合のみを用いることで,最適化問題を削減することを提案する。
このようにして、計画品質を維持したり、強化したりしながら、計画の効率を改善します。
最適化問題の計算複雑性を低減するため,重大サンプリングによるボクセルの集合のサブサンプリングを提案する。
簡易な探索対象を含む簡単な最適化問題の事前解決から得られる重要度スコアに基づくサンプリング分布を導出する。
このサブセットを用いて、元の最適化問題の縮小版を解くことにより、良好な線量供給が困難である領域を考慮しつつ、問題の規模と計算要求を効果的に削減する。
他の確率的(部分)サンプリング法とは対照的に,本手法では,最適化問題を最小化するために,単一のサンプリングステップしか必要としない。
この問題は、確立された解法を用いて効率的に解ける。
オープンベンチマークデータに関する実証実験では、従来の手法に匹敵する計画品質を維持しつつ、従来のものよりも最大50倍の最適化時間を著しく短縮した。
提案手法は,本質的な計算課題に対処することで,放射線治療計画の大幅な高速化を図っている。
最適化法を改善するのではなく、最適化問題のサイズを小さくすることで、治療計画時間を短縮する。
私たちの努力は、これまでの開発の多くを補完するものです。
Optimization is a time-consuming part of radiation treatment planning. We propose to reduce the optimization problem by only using a representative subset of informative voxels. This way, we improve planning efficiency while maintaining or enhancing the plan quality. To reduce the computational complexity of the optimization problem, we propose to subsample the set of voxels via importance sampling. We derive a sampling distribution based on an importance score that we obtain from pre-solving an easy optimization problem involving a simplified probing objective. By solving a reduced version of the original optimization problem using this subset, we effectively reduce the problem's size and computational demands while accounting for regions in which satisfactory dose deliveries are challenging. In contrast to other stochastic (sub-)sampling methods, our technique only requires a single sampling step to define a reduced optimization problem. This problem can be efficiently solved using established solvers. Empirical experiments on open benchmark data highlight substantially reduced optimization times, up to 50 times faster than the original ones, for intensity-modulated radiation therapy (IMRT), all while upholding plan quality comparable to traditional methods. Our approach has the potential to significantly accelerate radiation treatment planning by addressing its inherent computational challenges. We reduce the treatment planning time by reducing the size of the optimization problem rather than improving the optimization method. Our efforts are thus complementary to much of the previous developments. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# 符号化コヒーレント状態を用いた高忠実度人工量子熱状態生成
High Fidelity Artificial Quantum Thermal State Generation using Encoded Coherent States ( http://arxiv.org/abs/2405.03881v1 ) ライセンス: Link先を確認 | Haley Weinstein, Bruno Avritzer, Todd A. Brun, Jonathan L. Habif, | (参考訳) 量子ステガノグラフィーは、送信者と受信者の通信をチャネル内で自然に発生するノイズとして偽装する、情報セキュリティのための強力な方法である。
我々は,通信路をモニタする第三者が,伝送路を通して光状態の流れを計測し,熱雑音光と区別できないような弱コヒーレントレーザー状態の位相と振幅を符号化した。
量子状態トモグラフィーを用いて, 人工的に設計した熱状態と光増幅器からの自然放出のための密度行列を実験的に再構成し, 理論熱状態と比較するとF>0.98の状態忠実度を検証した。
Quantum steganography is a powerful method for information security where communications between a sender and receiver are disguised as naturally occurring noise in a channel. We encoded the phase and amplitude of weak coherent laser states such that a third party monitoring the communications channel, measuring the flow of optical states through the channel, would see an amalgamation of states indistinguishable from thermal noise light. Using quantum state tomography, we experimentally reconstructed the density matrices for artificially engineered thermal states and spontaneous emission from an optical amplifier and verified a state fidelity F>0.98 when compared with theoretical thermal states. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# Trio-ViT:Softmax-free Efficient Vision Transformerのための後処理量子化と高速化
Trio-ViT: Post-Training Quantization and Acceleration for Softmax-Free Efficient Vision Transformer ( http://arxiv.org/abs/2405.03882v1 ) ライセンス: Link先を確認 | Huihong Shi, Haikuo Shao, Wendong Mao, Zhongfeng Wang, | (参考訳) 自然言語処理(NLP)分野におけるトランスフォーマーの大きな成功により、視覚トランスフォーマー(ViT)は急速に発展し、様々なコンピュータビジョンタスクにおいて顕著な性能を発揮している。
しかし、その巨大なモデルサイズと集約的な計算により、ViTsの組み込みデバイスへの展開が妨げられ、量子化のような効果的なモデル圧縮手法が要求される。
残念なことに、ハードウェアに親しみやすく量子化に敏感な非線形演算、特に {Softmax} が存在するため、ViTの全ての操作を完全に定量化することは簡単ではない。
textit{standard ViTs} に関連する課題に対応するため、問題となるソフトマックスを除去するだけでなく、計算複雑性の低い線形注意を組み込んだ \textit{standard ViTs} の量子化と加速に焦点を合わせ、それに応じて \emph{Trio-ViT} を提案する。
具体的には,アルゴリズムレベルでは,ソフトマックスフリーで効率的なViTのユニークな活性化分布をフルに考慮し,量子化の精度を高めることを目的とした,‘調整後量子化エンジン’を開発する。
さらに、ハードウェアレベルでは、効率的なViTの特定のConvolution-Transformerハイブリッドアーキテクチャに特化したアクセラレータを構築し、ハードウェア効率を向上させる。
Trio-ViTフレームワークの有効性を常に実証する実験結果が得られた。
特に、$\uparrow$$\mathbf{7.2}\times$と$\uparrow$$\mathbf{14.6}\times$ FPSは、最先端のViTアクセラレータと同等の精度で、$\uparrow$$\mathbf{5.9}\times$と$\uparrow$\mathbf{2.0}\times$ DSP効率で得ることができる。
Codesは受理後、公開されます。
Motivated by the huge success of Transformers in the field of natural language processing (NLP), Vision Transformers (ViTs) have been rapidly developed and achieved remarkable performance in various computer vision tasks. However, their huge model sizes and intensive computations hinder ViTs' deployment on embedded devices, calling for effective model compression methods, such as quantization. Unfortunately, due to the existence of hardware-unfriendly and quantization-sensitive non-linear operations, particularly {Softmax}, it is non-trivial to completely quantize all operations in ViTs, yielding either significant accuracy drops or non-negligible hardware costs. In response to challenges associated with \textit{standard ViTs}, we focus our attention towards the quantization and acceleration for \textit{efficient ViTs}, which not only eliminate the troublesome Softmax but also integrate linear attention with low computational complexity, and propose \emph{Trio-ViT} accordingly. Specifically, at the algorithm level, we develop a {tailored post-training quantization engine} taking the unique activation distributions of Softmax-free efficient ViTs into full consideration, aiming to boost quantization accuracy. Furthermore, at the hardware level, we build an accelerator dedicated to the specific Convolution-Transformer hybrid architecture of efficient ViTs, thereby enhancing hardware efficiency. Extensive experimental results consistently prove the effectiveness of our Trio-ViT framework. {Particularly, we can gain up to $\uparrow$$\mathbf{7.2}\times$ and $\uparrow$$\mathbf{14.6}\times$ FPS under comparable accuracy over state-of-the-art ViT accelerators, as well as $\uparrow$$\mathbf{5.9}\times$ and $\uparrow$$\mathbf{2.0}\times$ DSP efficiency.} Codes will be released publicly upon acceptance. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# sqlelf: ELF分析におけるSQL中心のアプローチ
sqlelf: a SQL-centric Approach to ELF Analysis ( http://arxiv.org/abs/2405.03883v1 ) ライセンス: Link先を確認 | Farid Zakaria, Zheyuan Chen, Andrew Quinn, Thomas R. W. Scogland, | (参考訳) Executable and Linkable Format (ELF) オブジェクトの探索と理解は、デバッグからリバースエンジニアリングまで、コンピュータシステムにおける様々な重要な活動の基盤となっている。
Readelf、nm、objdumpといった従来のUNIXツールは、長年にわたってコミュニティに確実に役立っている。
しかしながら、ソフトウェアプロジェクトの複雑さと規模が大きくなるにつれて、ELFオブジェクトを調べるためのより直感的で柔軟で強力な方法が求められます。
本稿では,SQLの表現力を通じてELFオブジェクトを探索する革新的なツールであるsqlelfを紹介する。
ELFオブジェクトをリレーショナルデータベースとしてモデル化することで、sqlelfは従来の方法よりも次の利点を提供する。
我々の評価では、sqlelfはELFオブジェクトに対するよりニュアンスで包括的な洞察を提供するだけでなく、従来のALF探索作業に必要な労力や時間を大幅に削減する。
The exploration and understanding of Executable and Linkable Format (ELF) objects underpin various critical activities in computer systems, from debugging to reverse engineering. Traditional UNIX tooling like readelf, nm, and objdump have served the community reliably over the years. However, as the complexity and scale of software projects has grown, there arises a need for more intuitive, flexible, and powerful methods to investigate ELF objects. In this paper, we introduce sqlelf, an innovative tool that empowers users to probe ELF objects through the expressive power of SQL. By modeling ELF objects as relational databases, sqlelf offers the following advantages over conventional methods. Our evaluations demonstrate that sqlelf not only provides more nuanced and comprehensive insights into ELF objects but also significantly reduces the effort and time traditionally required for ELF exploration tasks | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# BadFusion:3Dオブジェクト検出に対する2D指向のバックドア攻撃
BadFusion: 2D-Oriented Backdoor Attacks against 3D Object Detection ( http://arxiv.org/abs/2405.03884v1 ) ライセンス: Link先を確認 | Saket S. Chaturvedi, Lan Zhang, Wenbin Zhang, Pan He, Xiaoyong Yuan, | (参考訳) 3Dオブジェクト検出は、自動運転において重要な役割を果たすが、バックドア攻撃に対する脆弱性は明らかになっている。
トレーニングデータセットに「トリガー」を注入することで、バックドア攻撃は、これらのトリガーを含む入力に対する検出器の予測を操作する。
既存の3Dオブジェクト検出に対するバックドア攻撃は、主に3D LiDAR信号に毒を与え、大きな3Dトリガーを注入することで、スパース3D空間内での視認性を確保する。
本稿では,3次元物体検出のロバスト性を探究し,新しいバックドア攻撃面を2次元カメラで探索する。
高忠実度3次元知覚にカメラとLiDAR信号の融合が広く採用されていることを踏まえ、この過程を妨害するカメラ信号の潜在可能性について検討する。
カメラ信号の密集性は、2Dオブジェクト検出を誤解させるため、ほとんど知覚できない小さなトリガーの使用を可能にするが、3Dオブジェクト検出に対する2D指向のバックドアアタックを実現することは簡単ではない。
主な課題は、カメラ信号を3D空間に変換する融合プロセスから生じ、2Dトリガとターゲット出力との関連性を妥協する。
この問題に対処するために,バッドフュージョン(BadFusion)という名前の3次元物体検出のための,LiDAR-カメラ融合法に対する革新的な2D指向のバックドア攻撃を提案し,核融合プロセス全体を通してトリガ効果を維持する。
この評価は、BadFusionの有効性を示し、既存の2D指向の攻撃と比較して、攻撃の成功率を大幅に向上させる。
3D object detection plays an important role in autonomous driving; however, its vulnerability to backdoor attacks has become evident. By injecting ''triggers'' to poison the training dataset, backdoor attacks manipulate the detector's prediction for inputs containing these triggers. Existing backdoor attacks against 3D object detection primarily poison 3D LiDAR signals, where large-sized 3D triggers are injected to ensure their visibility within the sparse 3D space, rendering them easy to detect and impractical in real-world scenarios. In this paper, we delve into the robustness of 3D object detection, exploring a new backdoor attack surface through 2D cameras. Given the prevalent adoption of camera and LiDAR signal fusion for high-fidelity 3D perception, we investigate the latent potential of camera signals to disrupt the process. Although the dense nature of camera signals enables the use of nearly imperceptible small-sized triggers to mislead 2D object detection, realizing 2D-oriented backdoor attacks against 3D object detection is non-trivial. The primary challenge emerges from the fusion process that transforms camera signals into a 3D space, compromising the association with the 2D trigger to the target output. To tackle this issue, we propose an innovative 2D-oriented backdoor attack against LiDAR-camera fusion methods for 3D object detection, named BadFusion, for preserving trigger effectiveness throughout the entire fusion process. The evaluation demonstrates the effectiveness of BadFusion, achieving a significantly higher attack success rate compared to existing 2D-oriented attacks. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# O-RANセキュリティの強化: グラフ強化学習に基づくコネクション管理のための侵入攻撃とロバスト防御
Enhancing O-RAN Security: Evasion Attacks and Robust Defenses for Graph Reinforcement Learning-based Connection Management ( http://arxiv.org/abs/2405.03891v1 ) ライセンス: Link先を確認 | Ravikumar Balakrishnan, Marius Arvinte, Nageen Himayat, Hosein Nikopour, Hassnaa Moustafa, | (参考訳) 機械学習(ML)モデルに対する様々な攻撃や防御の研究に焦点をあてた敵対的機械学習は、オープン無線アクセスネットワーク(O-RAN)などの無線システムの最適化にMLが採用されるにつれ、急速に重要性が高まっている。
セキュリティ脅威の包括的モデリングと、実践的なAIベースのO-RANシステムに対する敵攻撃と防御のデモはまだ初期段階である。
まず、MLベースのコネクション管理アプリケーション(xApp)を例として、O-RANの攻撃面をピンポイントする脅威モデリングを実行する。
xAppでは、Deep Reinforcement Learningを使用してトレーニングされたグラフニューラルネットワークを使用して、ユーザデータレートの5パーセントとして測定されたカバレッジレートの平均54%の改善を実現している。
次に、オープン無線媒体を含む様々な脅威面に有界雑音を注入することにより、カバーレートを最大50%低下させる回避攻撃を定式化し、実証する。
重要な点として、MLベースのxAppと非MLベースのヒューリスティックに対する攻撃の有効性を比較し、比較する。
難易度の高い物理的・妨害的攻撃に対する堅牢な訓練ベースの防御を開発し、幅広い騒音予算に対する防御を使わずに実施した場合と比較して、カバーレートが15%向上したことを示す。
Adversarial machine learning, focused on studying various attacks and defenses on machine learning (ML) models, is rapidly gaining importance as ML is increasingly being adopted for optimizing wireless systems such as Open Radio Access Networks (O-RAN). A comprehensive modeling of the security threats and the demonstration of adversarial attacks and defenses on practical AI based O-RAN systems is still in its nascent stages. We begin by conducting threat modeling to pinpoint attack surfaces in O-RAN using an ML-based Connection management application (xApp) as an example. The xApp uses a Graph Neural Network trained using Deep Reinforcement Learning and achieves on average 54% improvement in the coverage rate measured as the 5th percentile user data rates. We then formulate and demonstrate evasion attacks that degrade the coverage rates by as much as 50% through injecting bounded noise at different threat surfaces including the open wireless medium itself. Crucially, we also compare and contrast the effectiveness of such attacks on the ML-based xApp and a non-ML based heuristic. We finally develop and demonstrate robust training-based defenses against the challenging physical/jamming-based attacks and show a 15% improvement in the coverage rates when compared to employing no defense over a range of noise budgets | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# オフラインRLにおけるアウト・オブ・ディストリビューション適応:因果正規化流れによる対実的推論
Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows ( http://arxiv.org/abs/2405.03892v1 ) ライセンス: Link先を確認 | Minjae Cho, Jonathan P. How, Chuangchuang Sun, | (参考訳) 強化学習(RL)の顕著な成功にもかかわらず、オンライン学習パラダイムが普及していることにより、特に危険またはコストのかかるシナリオにおいて、その普及が妨げられる。
オフラインRLは、事前にコンパイルされた静的データセットから学習する代替ソリューションとして登場した。
しかし、このオフライン学習は、分散シフトと呼ばれる新しい課題を導入し、トレーニングデータセットからアウトオフ・ディストリビューション(OOD)のシナリオでポリシーを評価すると、パフォーマンスが低下する。
既存のオフラインRLのほとんどは、所定のデータセットでサポートされている情報内でポリシー学習を規則化することで、この問題を解決している。
しかし、そのような正規化はデータセットを超えて存在する可能性のある高次領域の可能性を見落としている。
これは、ポリシのパフォーマンスを損なうことなく、データサポートを超えて改善を可能にする、新たなオフライン学習テクニックを探求する動機である。
本稿では、ポリシー規則化手法ではなく、因果推論によるオフラインポリシートレーニングのための外挿を課題とするMOOD-CRL(Model-based Offline OOD-Adapting Causal RL)アルゴリズムを提案する。
具体的には、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために、因果正規化フロー(CNF)を開発した。
データ不変、物理に基づく定性因果グラフと観測データに基づいて、CNFの定量的構造因果モデルを学ぶための新しい学習手法を開発する。
その結果、CNFはシーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにした。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
Despite notable successes of Reinforcement Learning (RL), the prevalent use of an online learning paradigm prevents its widespread adoption, especially in hazardous or costly scenarios. Offline RL has emerged as an alternative solution, learning from pre-collected static datasets. However, this offline learning introduces a new challenge known as distributional shift, degrading the performance when the policy is evaluated on scenarios that are Out-Of-Distribution (OOD) from the training dataset. Most existing offline RL resolves this issue by regularizing policy learning within the information supported by the given dataset. However, such regularization overlooks the potential for high-reward regions that may exist beyond the dataset. This motivates exploring novel offline learning techniques that can make improvements beyond the data support without compromising policy performance, potentially by learning causation (cause-and-effect) instead of correlation from the dataset. In this paper, we propose the MOOD-CRL (Model-based Offline OOD-Adapting Causal RL) algorithm, which aims to address the challenge of extrapolation for offline policy training through causal inference instead of policy-regularizing methods. Specifically, Causal Normalizing Flow (CNF) is developed to learn the transition and reward functions for data generation and augmentation in offline policy evaluation and training. Based on the data-invariant, physics-based qualitative causal graph and the observational data, we develop a novel learning scheme for CNF to learn the quantitative structural causal model. As a result, CNF gains predictive and counterfactual reasoning capabilities for sequential decision-making tasks, revealing a high potential for OOD adaptation. Our CNF-based offline RL approach is validated through empirical evaluations, outperforming model-free and model-based methods by a significant margin. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# MVDiff:シングルビューからの3Dオブジェクト再構成のためのスケーラブルでフレキシブルなマルチビュー拡散
MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View ( http://arxiv.org/abs/2405.03894v1 ) ライセンス: Link先を確認 | Emmanuelle Bourigault, Pauline Bourigault, | (参考訳) 3次元再構成タスクに対して一貫した複数のビューを生成することは、既存の画像から3次元の拡散モデルにとって依然として課題である。
一般に、3次元表現を拡散モデルに組み込むことで、モデルの速度と一般化可能性、品質が低下する。
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
モデルでは,3次元の一貫性を強制するために,エピポーラ幾何学的制約とマルチビューアテンションを導入する。
1つの画像入力から,PSNR,SSIM,LPIPSなどの評価指標において,ベースラインを超える3Dメッシュを生成することができる。
Generating consistent multiple views for 3D reconstruction tasks is still a challenge to existing image-to-3D diffusion models. Generally, incorporating 3D representations into diffusion model decrease the model's speed as well as generalizability and quality. This paper proposes a general framework to generate consistent multi-view images from single image or leveraging scene representation transformer and view-conditioned diffusion model. In the model, we introduce epipolar geometry constraints and multi-view attention to enforce 3D consistency. From as few as one image input, our model is able to generate 3D meshes surpassing baselines methods in evaluation metrics, including PSNR, SSIM and LPIPS. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# 分数フーリエ領域における量子センシング
Quantum sensing in the fractional Fourier domain ( http://arxiv.org/abs/2405.03896v1 ) ライセンス: Link先を確認 | Swastik Hegde, David J. Durden, Lakshmy Priya Ajayakumar, Rishi Sivakumar, Mikael P. Backlund, | (参考訳) 特定の量子センシングプロトコルは、初期化され、測定される刺激の存在下でコヒーレントに駆動され、読み出される量子ビットに依存している。
最も広く使われているパルスシーケンスは、センシング量子ビットを駆動するのに使われ、時間領域と周波数領域の両方で局所的に作用する。
我々は、任意の分数フーリエ領域、すなわち時間周波数平面を通して任意の角度の線型軌跡に沿って測定する一般化された列を導入する。
窒素空孔中心のアンサンブルを用いて、時間変化スペクトルを用いたセンシング信号の利点を実験的に実証した。
Certain quantum sensing protocols rely on qubits that are initialized, coherently driven in the presence of a stimulus to be measured, then read out. Most widely employed pulse sequences used to drive sensing qubits act locally in either the time or frequency domain. We introduce a generalized set of sequences that effect a measurement in any fractional Fourier domain, i.e. along a linear trajectory of arbitrary angle through the time-frequency plane. Using an ensemble of nitrogen-vacancy centers we experimentally demonstrate advantages in sensing signals with time-varying spectra. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# 共鳴蛍光のマルチモードアレイフィルタ
Multi-Mode Array Filtering of Resonance Fluorescence ( http://arxiv.org/abs/2405.03900v1 ) ライセンス: Link先を確認 | Jacob Ngaha, Scott Parkins, Howard J. Carmichael, | (参考訳) 本稿では,周波数フィルタによる光子相関の測定と計算のための新しい周波数フィルタ法を提案する。
本手法は共振器を多モードアレイフィルタと呼ぶ空洞型システムであり,周波数が等間隔である可変単一モードキャビティのアレイで構成されている。
モード依存位相変調を導入することで、周波数分離を犠牲にすることなく、ほぼ長方形の周波数応答を生成する。
フィルタのバックアクションを完全に無視するカスケード量子オープンシステムアプローチを用いて周波数フィルタリングをモデル化する。
これにより、ソースおよびフィルタ系演算子に対する閉作用素モーメント方程式の導出が可能となり、周波数フィルタリングされた1次および2次相関関数を計算するための極めて効率的な方法が提供される。
共振駆動2レベル原子に印加することで, この新しいフィルタ法を実証する。
単一モードフィルタ上でのマルチモードアレイフィルタの周波数分離を改良した周波数フィルタパワースペクトルの例を示す。
次に、単モードおよび多モードアレイフィルタによる2階自動・相互相関関数の結果を示す。
これらは俗的な近似から派生した表現と比較される。
マルチモードアレイフィルタの周波数分離の改善により、2光子跳躍過程のような周波数フィルタリング光子相関の新たな状態と、フィルタされた自己相関関数に対する帯域幅の消滅の影響を解明することができる。
We present a novel frequency-filtering method for measuring and calculating frequency-filtered photon-correlations. This novel method is a cavity-based system we call the multi-mode array filter, which consists of an array of tunable single-mode cavities that are equally spaced in frequency. By introducing a mode-dependent phase modulation, we produce a near rectangular frequency response, allowing us to increase the filter bandwidth -- and thus the temporal response -- without sacrificing frequency isolation. We model the frequency filtering using a cascaded quantum open systems approach which completely neglects any back-action of the filter onto the source system. This allows us to derive a closed set of operator moment equations for source and filter system operators, thus providing an extremely efficient method to calculate frequency-filtered first- and second-order correlation functions. We demonstrate this novel filtering method by applying it to a resonantly driven two-level atom. We present examples of frequency-filtered power spectra to demonstrate the improved frequency isolation of the multi-mode array filter over the single-mode filter. We then present results for the single-mode and multi-mode-array filtered second-order auto- and cross-correlation functions. These are compared against expressions derived in the secular approximation. The improved frequency isolation of the multi-mode array filter allows us to investigate new regimes of frequency-filtered photon correlations, such as two-photon leapfrog processes, and the effect of vanishing bandwidth on filtered auto-correlation functions. | 翻訳日:2024-05-08 15:57:58 公開日:2024-05-06 |
# OmniActions:LLMを用いた実世界のマルチモーダル感覚入力に対するデジタル行動予測
OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs ( http://arxiv.org/abs/2405.03901v1 ) ライセンス: Link先を確認 | Jiahao Nick Li, Yan Xu, Tovi Grossman, Stephanie Santosa, Michelle Li, | (参考訳) Pervasive Augmented Reality" への進展は,マルチモーダル情報への継続的なアクセスを容易にすることを想定している。
しかし、多くの日常シナリオでは、ユーザーは物理的、認知的、社会的に占有される。
これにより、ユーザが世界で遭遇するマルチモーダル情報に作用する際の摩擦が増大する可能性がある。
このような摩擦を減らすために、将来の対話インタフェースは、ユーザのコンテキストに基づいて、デジタルアクションへの迅速なアクセスを提供する必要がある。
可能なデジタル行動の範囲を探索するため,我々は,参加者が望む行動やコンテキスト情報とともに(例えば,画像や音声など)メディアをキャプチャして共有することを要求した日記調査を行った。
このデータを用いて、様々な種類のマルチモーダル感覚入力に対応するデジタル追従動作の全体的設計空間を作成した。
OmniActionsは大規模言語モデル(LLM)をベースとしたパイプラインで、マルチモーダルな知覚入力を処理し、導出設計空間に根ざしたターゲット情報に対する追従動作を予測する。
筆者らは, 日記研究で収集した経験的データを用いて, LLM手法の3つのバリエーション(意図的分類, 文脈内学習, 微調整)を定量的に評価し, タスクに最も有効な手法を同定した。
さらに、パイプラインのインスタンス化として、インタラクティブなプロトタイプを開発し、人々がアクション予測とそのエラーをどのように認識し、反応するかについての予備的なユーザーフィードバックを報告した。
The progression to "Pervasive Augmented Reality" envisions easy access to multimodal information continuously. However, in many everyday scenarios, users are occupied physically, cognitively or socially. This may increase the friction to act upon the multimodal information that users encounter in the world. To reduce such friction, future interactive interfaces should intelligently provide quick access to digital actions based on users' context. To explore the range of possible digital actions, we conducted a diary study that required participants to capture and share the media that they intended to perform actions on (e.g., images or audio), along with their desired actions and other contextual information. Using this data, we generated a holistic design space of digital follow-up actions that could be performed in response to different types of multimodal sensory inputs. We then designed OmniActions, a pipeline powered by large language models (LLMs) that processes multimodal sensory inputs and predicts follow-up actions on the target information grounded in the derived design space. Using the empirical data collected in the diary study, we performed quantitative evaluations on three variations of LLM techniques (intent classification, in-context learning and finetuning) and identified the most effective technique for our task. Additionally, as an instantiation of the pipeline, we developed an interactive prototype and reported preliminary user feedback about how people perceive and react to the action predictions and its errors. | 翻訳日:2024-05-08 15:48:10 公開日:2024-05-06 |
# 曲線時空における量子ゆらぎ定理
Quantum fluctuation theorem in a curved spacetime ( http://arxiv.org/abs/2405.03902v1 ) ライセンス: Link先を確認 | Marcos L. W. Basso, Jonas Maziero, Lucas Chibebe Céleri, | (参考訳) 熱力学、一般相対性理論、量子力学の相互作用は長い間研究者の興味を惹きつけてきた。
近年、熱力学において、主にゆらぎ定理による量子領域への応用に関する重要な進歩が得られている。
本稿では、フェルミ正規座標を用いて、2点測定スキームに基づく完全に一般相対論的詳細量子ゆらぎ定理を報告する。
一般時空を移動する局所量子系において、時空曲率がどのようにエントロピーを生成できるかを実証する。
膨張する宇宙に住む量子調和振動子の例を示す。
この結果から、エントロピー生成は強いオブザーバー依存であり、時間矢印と時空の因果構造を深く結びつけることが示唆される。
The interplay between thermodynamics, general relativity and quantum mechanics has long intrigued researchers. Recently, important advances have been obtained in thermodynamics, mainly regarding its application to the quantum domain through fluctuation theorems. In this letter, we apply Fermi normal coordinates to report a fully general relativistic detailed quantum fluctuation theorem based on the two point measurement scheme. We demonstrate how the spacetime curvature can produce entropy in a localized quantum system moving in a general spacetime. The example of a quantum harmonic oscillator living in an expanding universe is presented. This result implies that entropy production is strongly observer dependent and deeply connects the arrow of time with the causal structure of the spacetime. | 翻訳日:2024-05-08 15:48:10 公開日:2024-05-06 |
# Unified Locational Differential Privacy Framework
Unified Locational Differential Privacy Framework ( http://arxiv.org/abs/2405.03903v1 ) ライセンス: Link先を確認 | Aman Priyanshu, Yash Maurya, Suriya Ganesh, Vy Tran, | (参考訳) 地理的地域に関する統計の集約は、所得の分析、選挙結果、病気の拡大など、多くのアプリケーションにとって重要である。
しかし、このデータの繊細な性質は、個人を保護するために強力なプライバシー保護を必要とする。
本研究では,1ホットエンコード,ブール,フロート,整数配列などのデータ型を地理的領域上でプライベートアグリゲーション可能な,統合された位置微分プライバシ(DP)フレームワークを提案する。
本フレームワークでは, ランダム化応答, 指数化機構, ガウス機構などの局所DP機構を用いる。
我々は,重要な位置情報収集シナリオを表す4つのデータセットに対するアプローチを評価した。
その結果,地理データ解析が可能でありながら,正式なDP保証を提供する上で,我々のフレームワークの有用性を実証した。
Aggregating statistics over geographical regions is important for many applications, such as analyzing income, election results, and disease spread. However, the sensitive nature of this data necessitates strong privacy protections to safeguard individuals. In this work, we present a unified locational differential privacy (DP) framework to enable private aggregation of various data types, including one-hot encoded, boolean, float, and integer arrays, over geographical regions. Our framework employs local DP mechanisms such as randomized response, the exponential mechanism, and the Gaussian mechanism. We evaluate our approach on four datasets representing significant location data aggregation scenarios. Results demonstrate the utility of our framework in providing formal DP guarantees while enabling geographical data analysis. | 翻訳日:2024-05-08 15:48:10 公開日:2024-05-06 |
# 変圧器モデルによる乱数分類
Transformer models classify random numbers ( http://arxiv.org/abs/2405.03904v1 ) ライセンス: Link先を確認 | Rishabh Goel, YiZi Xiao, Ramin Ramezani, | (参考訳) ランダム数は様々な分野において非常に重要であり、検証の必要性は依然として重要である。
量子乱数生成器(QRNG)は理論上真にランダムな数を生成することができるが、そのランダムさを徹底的にテストする必要はない。
一般に、乱数検証のタスクはNIST統計テストスイート(STS)の試験など、異なる統計テストに委譲されている。
我々の研究は、トランスフォーマーアーキテクチャを利用して、NIST STSからのテストの一部を、より高速に動作する単一のモデルにエンコードする深層学習モデルを提示している。
このモデルはこれらのテストに対して複数ラベルの分類を行い、符号化した各統計テストに合格する確率を出力する。
最良モデルに収束するために, 完全超パラメータ最適化を行い, その結果, 試料f1スコアを0.9以上で高い精度で達成した。
Random numbers are incredibly important in a variety of fields, and the need for their validation remains important. A Quantum Random Number Generator (QRNG) can theoretically generate truly random numbers however this does not remove the need to thoroughly test their randomness. Generally, the task of validating random numbers has been delegated to different statistical tests such as the tests from the NIST Statistical Test Suite (STS) which are often slow and only perform one task at a time. Our work presents a deep learning model that utilizes the transformer architecture to encode some of the tests from the NIST STS in a single model that also runs much faster. This model performs multi-label classification on these tests and outputs the probability of passing each statistical test that it encodes. We perform a thorough hyper-parameter optimization to converge on the best possible model and as a result, achieve a high degree of accuracy with a sample f1 score of above 0.9. | 翻訳日:2024-05-08 15:48:10 公開日:2024-05-06 |
# 65nm36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM ( http://arxiv.org/abs/2405.03905v1 ) ライセンス: Link先を確認 | Qinyu Chen, Kwantae Kim, Chang Gao, Sheng Zhou, Taekwang Jang, Tobi Delbruck, Shih-Chii Liu, | (参考訳) 本稿では,入力フレームから抽出した隣接特徴ベクトルとネットワーク隠蔽状態との時間的類似性を活かし,不要な操作やメモリアクセスを排除した,最初の微細な時空間認識キーワードスポッティング(KWS)ICについて紹介する。
このKWS ICは、バイオインスパイアされたデルタゲートリカレントニューラルネットワーク({\Delta}RNN)分類器を特徴とし、11クラスのGoogle Speech Command Dataset (GSCD) KWS精度90.5%、エネルギー消費量36nJ/decisionを達成している。
87%の時間間隔で、計算遅延と推論毎のエネルギーはそれぞれ2.4$\times$/3.4$\times$に削減される。
65nmの設計は0.78mm$^2$を占有し、コンパクトな0.084mm$^2$デジタル無限インパルス(IIR)ベースの帯域通過フィルタ(BPF)オーディオ特徴抽出器(FEx)と24kB 0.6V近VのSRAMの6.6$\times$標準のSRAMより低いリードパワーの2つの追加ブロックを備えている。
This paper introduces, to the best of the authors' knowledge, the first fine-grained temporal sparsity-aware keyword spotting (KWS) IC leveraging temporal similarities between neighboring feature vectors extracted from input frames and network hidden states, eliminating unnecessary operations and memory accesses. This KWS IC, featuring a bio-inspired delta-gated recurrent neural network ({\Delta}RNN) classifier, achieves an 11-class Google Speech Command Dataset (GSCD) KWS accuracy of 90.5% and energy consumption of 36nJ/decision. At 87% temporal sparsity, computing latency and energy per inference are reduced by 2.4$\times$/3.4$\times$, respectively. The 65nm design occupies 0.78mm$^2$ and features two additional blocks, a compact 0.084mm$^2$ digital infinite-impulse-response (IIR)-based band-pass filter (BPF) audio feature extractor (FEx) and a 24kB 0.6V near-Vth weight SRAM with 6.6$\times$ lower read power compared to the standard SRAM. | 翻訳日:2024-05-08 15:48:10 公開日:2024-05-06 |
# 直接学習型高性能深部スパイクニューラルネットワーク:理論と方法のレビュー
Direct Training High-Performance Deep Spiking Neural Networks: A Review of Theories and Methods ( http://arxiv.org/abs/2405.04289v1 ) ライセンス: Link先を確認 | Chenlin Zhou, Han Zhang, Liutao Yu, Yumin Ye, Zhaokun Zhou, Liwei Huang, Zhengyu Ma, Xiaopeng Fan, Huihui Zhou, Yonghong Tian, | (参考訳) スパイキングニューラルネットワーク(SNN)は、その高い生物学的可視性、豊かな時空間力学、イベント駆動型計算により、人工知能ニューラルネットワーク(ANN)に代わる有望なエネルギー効率の代替を提供する。
代用勾配法に基づく直接学習アルゴリズムは、新しいSNNアーキテクチャの設計とSNNの時空間ダイナミクスの探索に十分な柔軟性を提供する。
以前の研究によると、モデルの性能はそのサイズに大きく依存している。
近年,ニューロモルフィックデータセットと大規模静的データセットの両方において,深層SNNの直接訓練が大きな進歩を遂げている。
特に、トランスフォーマーベースのSNNは、ANNと同等のパフォーマンスを示している。
本稿では,SNNの基本理論,スパイクニューロンモデル,先進的なSNNモデルと残留アーキテクチャ,ソフトウェアフレームワークとニューロモルフィックハードウェア,アプリケーション,今後のトレンドなど,高度なSNNを体系的かつ包括的に訓練するための理論と手法を要約する。
レビューされた論文はhttps://github.com/zhouchenlin2096/Awesome-Spiking-Neural-Networksで収集されている。
Spiking neural networks (SNNs) offer a promising energy-efficient alternative to artificial neural networks (ANNs), in virtue of their high biological plausibility, rich spatial-temporal dynamics, and event-driven computation. The direct training algorithms based on the surrogate gradient method provide sufficient flexibility to design novel SNN architectures and explore the spatial-temporal dynamics of SNNs. According to previous studies, the performance of models is highly dependent on their sizes. Recently, direct training deep SNNs have achieved great progress on both neuromorphic datasets and large-scale static datasets. Notably, transformer-based SNNs show comparable performance with their ANN counterparts. In this paper, we provide a new perspective to summarize the theories and methods for training deep SNNs with high performance in a systematic and comprehensive way, including theory fundamentals, spiking neuron models, advanced SNN models and residual architectures, software frameworks and neuromorphic hardware, applications, and future trends. The reviewed papers are collected at https://github.com/zhouchenlin2096/Awesome-Spiking-Neural-Networks | 翻訳日:2024-05-08 14:10:19 公開日:2024-05-06 |
# モデル非依存アテンションマップを用いた解釈可能なバイタルサイン予測
Interpretable Vital Sign Forecasting with Model Agnostic Attention Maps ( http://arxiv.org/abs/2405.01714v2 ) ライセンス: Link先を確認 | Yuwei Liu, Chen Dan, Anubhav Bhatti, Bingjie Shen, Divij Gupta, Suraj Parmar, San Lee, | (参考訳) セプシスは集中治療室(ICU)の死亡率の主要な原因であり、深刻な医療上の課題である。
敗血症を予測するために様々な重要な兆候を分析する複雑さは、この問題をさらに悪化させる。
深層学習技術は早期の敗血症予測のために進歩してきたが、その'ブラックボックス'という性質は内部ロジックを曖昧にし、ICUのようなクリティカルな設定での解釈性を損なう。
本稿では,深層学習モデルと注意機構を組み合わせたフレームワークを提案する。これは,予測過程における臨界時間ステップを強調し,モデル解釈性を改善し,臨床的意思決定を支援する。
注意機構は,N-HiTSやN-BEATSといった様々なブラックボックス時系列予測モデルに適用可能であることを示す。
本手法は,従来のディープラーニングモデルの精度を保ちながら,注目重み付きヒートマップによる解釈性を向上させる。
eICU-CRDデータセットを用いて,敗血症患者に対するバイタルサインの予測に焦点をあてた。
平均二乗誤差 (MSE) と動的時間歪み (DTW) 測定値を用いて評価を行った。
我々は,N-HiTS と N-BEATS の注意マップを探索し,その性能の違いを調べた。
Sepsis is a leading cause of mortality in intensive care units (ICUs), representing a substantial medical challenge. The complexity of analyzing diverse vital signs to predict sepsis further aggravates this issue. While deep learning techniques have been advanced for early sepsis prediction, their 'black-box' nature obscures the internal logic, impairing interpretability in critical settings like ICUs. This paper introduces a framework that combines a deep learning model with an attention mechanism that highlights the critical time steps in the forecasting process, thus improving model interpretability and supporting clinical decision-making. We show that the attention mechanism could be adapted to various black box time series forecasting models such as N-HiTS and N-BEATS. Our method preserves the accuracy of conventional deep learning models while enhancing interpretability through attention-weight-generated heatmaps. We evaluated our model on the eICU-CRD dataset, focusing on forecasting vital signs for sepsis patients. We assessed its performance using mean squared error (MSE) and dynamic time warping (DTW) metrics. We explored the attention maps of N-HiTS and N-BEATS, examining the differences in their performance and identifying crucial factors influencing vital sign forecasting. | 翻訳日:2024-05-08 13:00:13 公開日:2024-05-06 |
# コンディショナル・確率的電力消費プロファイルの生成と予測のためのフローベースモデル
A Flow-Based Model for Conditional and Probabilistic Electricity Consumption Profile Generation and Prediction ( http://arxiv.org/abs/2405.02180v2 ) ライセンス: Link先を確認 | Weijie Xia, Chenguang Wang, Peter Palensky, Pedro P. Vergara, | (参考訳) 住宅負荷プロファイル(RLP)の生成と予測は配電網の運用と計画にとって重要であり、特に多種多様な低炭素技術の統合が進んでいる。
本稿では,条件付きおよび条件なしのRLP生成と確率的負荷予測のために一意に設計された,FCPFlowと呼ばれる新しいフローベース生成モデルを提案する。
可逆線形層と可逆正規化層という2つの新しい層を導入することで、提案したFCPFlowアーキテクチャは、従来の統計的および現代的な深層生成モデルと比較して3つの大きな利点を示している。
1) 気象の変化や年間電力消費など, 連続した条件下でのRLP生成に適している。
2)従来の統計モデルと比較すると,データセットのスケーラビリティに優れていた。
3) 深部生成モデルと比較して, RLPの複雑な相関を捉える上で, より優れたモデリング能力を示す。
Residential Load Profile (RLP) generation and prediction are critical for the operation and planning of distribution networks, particularly as diverse low-carbon technologies are increasingly integrated. This paper introduces a novel flow-based generative model, termed Full Convolutional Profile Flow (FCPFlow), which is uniquely designed for both conditional and unconditional RLP generation, and for probabilistic load forecasting. By introducing two new layers--the invertible linear layer and the invertible normalization layer--the proposed FCPFlow architecture shows three main advantages compared to traditional statistical and contemporary deep generative models: 1) it is well-suited for RLP generation under continuous conditions, such as varying weather and annual electricity consumption, 2) it shows superior scalability in different datasets compared to traditional statistical models, and 3) it also demonstrates better modeling capabilities in capturing the complex correlation of RLPs compared with deep generative models. | 翻訳日:2024-05-08 11:01:28 公開日:2024-05-06 |
# グラフ表現構造を用いた複数スケールの点雲の生成
Generate Point Clouds with Multiscale Details from Graph-Represented Structures ( http://arxiv.org/abs/2112.06433v3 ) ライセンス: Link先を確認 | Ximing Yang, Zhibo Zhang, Zhengfu He, Cheng Jin, | (参考訳) 多くの構造表現に詳細が欠けているため、より多くの情報に対する制御可能性の欠如は、構造ベースの制御可能なポイントクラウド生成における大きな弱点の1つである。
詳細と構造の定義が主観的であることは観察可能である。
詳細は小規模な構造として扱うことができる。
異なるスケールの構造を同時に表現するために,マルチスケール構造グラフ (Multiscale Structure Graph, MSG) と呼ばれるグラフベースの構造表現を提案する。
複数のスケールの構造が与えられた場合、局所構造の類似したパターンは異なるスケール、位置、角度で見ることができる。
地域構造パターンから学んだ知識は,他の類似したパターンに移行する。
マルチスケール構造に基づくポイントクラウドジェネレータ(MSPCG)の符号化と生成機構を提案する。
提案手法は,MSGを編集することで,ポイントクラウド上のマルチスケールエディションをサポートする。
局所構造から点雲を生成し、複数のスケールで同時に学習することで、MSPCGはより優れた一般化能力とスケーラビリティを持つ。
ShapeNetでトレーニングされたMSPCGは、不明瞭なカテゴリや屋内シーンのために、所定の構造から点雲を生成することができます。
実験の結果,本手法はベースライン法よりも有意に優れていた。
As details are missing in most representations of structures, the lack of controllability to more information is one of the major weaknesses in structure-based controllable point cloud generation. It is observable that definitions of details and structures are subjective. Details can be treated as structures on small scales. To represent structures in different scales at the same time, we present a graph-based representation of structures called the Multiscale Structure Graph (MSG). Given structures in multiple scales, similar patterns of local structures can be found at different scales, positions, and angles. The knowledge learned from a regional structure pattern shall be transferred to other similar patterns. An encoding and generation mechanism, namely the Multiscale Structure-based Point Cloud Generator (MSPCG) is proposed, which can simultaneously learn point cloud generation from local patterns with miscellaneous spatial properties. The proposed method supports multiscale editions on point clouds by editing the MSG. By generating point clouds from local structures and learning simultaneously in multiple scales, our MSPCG has better generalization ability and scalability. Trained on the ShapeNet, our MSPCG can generate point clouds from a given structure for unseen categories and indoor scenes. The experimental results show that our method significantly outperforms baseline methods. | 翻訳日:2024-05-08 03:57:05 公開日:2024-05-06 |
# ロボット言語学習のための言語モデルに基づくペア付き変分オートエンコーダ
Language Model-Based Paired Variational Autoencoders for Robotic Language Learning ( http://arxiv.org/abs/2201.06317v2 ) ライセンス: Link先を確認 | Ozan Özdemir, Matthias Kerzel, Cornelius Weber, Jae Hee Lee, Stefan Wermter, | (参考訳) ヒトの幼児は、介護者が行動する対象や行動を記述する環境と相互作用しながら言語を学ぶ。
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。
本稿では,まず,ロボットの動作と言語記述を単純なオブジェクト操作シナリオで双方向に結合するニューラルモデルを提案する。
従来のPaired Variational Autoencoders(PVAE)モデルに基づいて、異なる色の立方体を実験し、代替語彙の生成を可能にすることにより、標準オートエンコーダよりも変分オートエンコーダの優位性を実証する。
追加の実験では、モデルのチャンネル分離された視覚特徴抽出モジュールが異なる形状のオブジェクトに対処できることが示されている。
次に、PVAE-BERTを導入し、このモデルに事前訓練された大規模言語モデル、すなわち変換器(BERT)からの双方向エンコーダ表現(Bidirectional Encoder Representations from Transformers)を組み込むことにより、ネットワークがトレーニングした事前定義された記述のみを理解でき、モデルが同じ記述の無制限なバリエーションを理解することができるため、動作記述の認識は制約のない自然言語に一般化される。
実験の結果,事前学習した言語モデルを言語エンコーダとして使用することにより,人間の指示で実世界のシナリオをスケールアップすることが可能であることが示唆された。
Human infants learn language while interacting with their environment in which their caregivers may describe the objects and actions they perform. Similar to human infants, artificial agents can learn language while interacting with their environment. In this work, first, we present a neural model that bidirectionally binds robot actions and their language descriptions in a simple object manipulation scenario. Building on our previous Paired Variational Autoencoders (PVAE) model, we demonstrate the superiority of the variational autoencoder over standard autoencoders by experimenting with cubes of different colours, and by enabling the production of alternative vocabularies. Additional experiments show that the model's channel-separated visual feature extraction module can cope with objects of different shapes. Next, we introduce PVAE-BERT, which equips the model with a pretrained large-scale language model, i.e., Bidirectional Encoder Representations from Transformers (BERT), enabling the model to go beyond comprehending only the predefined descriptions that the network has been trained on; the recognition of action descriptions generalises to unconstrained natural language as the model becomes capable of understanding unlimited variations of the same descriptions. Our experiments suggest that using a pretrained language model as the language encoder allows our approach to scale up for real-world scenarios with instructions from human users. | 翻訳日:2024-05-08 03:57:05 公開日:2024-05-06 |
# 確率的誤差モデルに基づくグラフ畳み込みニューラルネットワークの感度
Graph Convolutional Neural Networks Sensitivity under Probabilistic Error Model ( http://arxiv.org/abs/2203.07831v4 ) ライセンス: Link先を確認 | Xinjue Wang, Esa Ollila, Sergiy A. Vorobyov, | (参考訳) グラフニューラルネットワーク(GNN)、特にグラフ畳み込みニューラルネットワーク(GCNN)は、グラフ構造化データを処理するための機械学習と信号処理において重要な手段として登場した。
本稿では,GCNNの確率的グラフ摂動に対する感度を解析し,グラフシフト演算子(GSO)に直接影響する分析フレームワークを提案する。
本研究は,GCNNの各層におけるGSO摂動と結果の出力差との線形関係を明らかにする。
この線形性は、単一層GCNNがグラフエッジの摂動の下で安定性を維持し、GSO誤差が摂動スケールによらず有界であることを示す。
多層GCNNの場合、GSO摂動に対するシステムの出力差の依存性は線形性の再帰であることが示されている。
最後に、GIN(Graph Isomorphism Network)とSGCN(Simple Graph Convolution Network)でフレームワークを実証する。
実験は、我々の理論的導出とアプローチの有効性を検証する。
Graph Neural Networks (GNNs), particularly Graph Convolutional Neural Networks (GCNNs), have emerged as pivotal instruments in machine learning and signal processing for processing graph-structured data. This paper proposes an analysis framework to investigate the sensitivity of GCNNs to probabilistic graph perturbations, directly impacting the graph shift operator (GSO). Our study establishes tight expected GSO error bounds, which are explicitly linked to the error model parameters, and reveals a linear relationship between GSO perturbations and the resulting output differences at each layer of GCNNs. This linearity demonstrates that a single-layer GCNN maintains stability under graph edge perturbations, provided that the GSO errors remain bounded, regardless of the perturbation scale. For multilayer GCNNs, the dependency of system's output difference on GSO perturbations is shown to be a recursion of linearity. Finally, we exemplify the framework with the Graph Isomorphism Network (GIN) and Simple Graph Convolution Network (SGCN). Experiments validate our theoretical derivations and the effectiveness of our approach. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-06 |
# ブロックチェーンネットワークにおけるサイバー攻撃検出のための協調学習
Collaborative Learning for Cyberattack Detection in Blockchain Networks ( http://arxiv.org/abs/2203.11076v4 ) ライセンス: Link先を確認 | Tran Viet Khoa, Do Hai Son, Dinh Thai Hoang, Nguyen Linh Trung, Tran Thi Thuy Quynh, Diep N. Nguyen, Nguyen Viet Ha, Eryk Dutkiewicz, | (参考訳) この記事では、侵入攻撃を調査し、ブロックチェーンネットワークのネットワーク層(例えば、Brute PasswordやFlooding of Transactions)におけるサイバー攻撃を検出するための、新たなサイバー攻撃検出フレームワークを開発することを目的とする。
具体的には、まず実験室でブロックチェーンネットワークを設計し、実装します。
このブロックチェーンネットワークは、学習モデルのための実際のトラフィックデータ(通常のデータと攻撃データの両方を含む)を生成し、提案した侵入検出フレームワークのパフォーマンスを評価するためにリアルタイム実験を実装するための2つの目的を提供する。
私たちの知る限りでは、ブロックチェーンネットワークにおけるサイバー攻撃の研究所で合成された最初のデータセットです。
次に、ブロックチェーンネットワークへの効率的なデプロイによる攻撃検出を可能にする、新しい協調学習モデルを提案する。
提案された学習モデルの主な考え方は、ブロックチェーンノードがデータを積極的に収集し、Deep Belief Networkを使用してデータから知識を学び、そのデータから得られた知識をネットワーク内の他のブロックチェーンノードと共有できるようにすることである。
このように、ネットワーク内のすべてのノードからの知識を活用できるだけでなく、従来の集中型学習ソリューションのような集中型ノードでのトレーニングのために、すべての生データを収集する必要がない。
このようなフレームワークは、ネットワークの過度のオーバーヘッド/混雑だけでなく、ローカルデータのプライバシを公開するリスクも回避できる。
集中シミュレーションと実時間実験の両方で、我々の提案した侵入検知フレームワークが攻撃検出において最大98.6%の精度を達成できることが明らかに示されている。
This article aims to study intrusion attacks and then develop a novel cyberattack detection framework to detect cyberattacks at the network layer (e.g., Brute Password and Flooding of Transactions) of blockchain networks. Specifically, we first design and implement a blockchain network in our laboratory. This blockchain network will serve two purposes, i.e., to generate the real traffic data (including both normal data and attack data) for our learning models and to implement real-time experiments to evaluate the performance of our proposed intrusion detection framework. To the best of our knowledge, this is the first dataset that is synthesized in a laboratory for cyberattacks in a blockchain network. We then propose a novel collaborative learning model that allows efficient deployment in the blockchain network to detect attacks. The main idea of the proposed learning model is to enable blockchain nodes to actively collect data, learn the knowledge from data using the Deep Belief Network, and then share the knowledge learned from its data with other blockchain nodes in the network. In this way, we can not only leverage the knowledge from all the nodes in the network but also do not need to gather all raw data for training at a centralized node like conventional centralized learning solutions. Such a framework can also avoid the risk of exposing local data's privacy as well as excessive network overhead/congestion. Both intensive simulations and real-time experiments clearly show that our proposed intrusion detection framework can achieve an accuracy of up to 98.6% in detecting attacks. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-06 |
# ノードへのサブグラフの翻訳 - GNNを強力かつ効率的なサブグラフ表現学習を実現する
Translating Subgraphs to Nodes Makes Simple GNNs Strong and Efficient for Subgraph Representation Learning ( http://arxiv.org/abs/2204.04510v3 ) ライセンス: Link先を確認 | Dongkwan Kim, Alice Oh, | (参考訳) グラフ表現学習は重要な問題として現れてきたが、デフォルトでは大規模グローバルグラフ上の特殊なグラフニューラルネットワークによってアプローチされている。
これらのモデルは広範なメモリと計算資源を必要とするが、サブグラフの階層構造をモデル化するには挑戦する。
本稿では,サブグラフの表現を学習するための新しい定式化であるSubgraph-To-Node(S2N)変換を提案する。
具体的には、グローバルグラフのサブグラフの集合が与えられた場合、サブグラフをノードに粗く変換することで、新しいグラフを構築する。
理論的証拠と経験的証拠の両方を実証し、S2Nは最先端のモデルと比較してメモリと計算コストを著しく削減するだけでなく、サブグラフの局所構造と大域構造の両方をキャプチャすることでそれらを上回ります。
グラフの粗大化手法を利用することで,グラフが不十分なデータスカース設定においても,ベースラインの精度が向上する。
8つのベンチマーク実験により、S2N翻訳を用いた微調整モデルでは、最先端モデルよりも183~711倍のサブグラフサンプルを処理可能であることが示された。
Subgraph representation learning has emerged as an important problem, but it is by default approached with specialized graph neural networks on a large global graph. These models demand extensive memory and computational resources but challenge modeling hierarchical structures of subgraphs. In this paper, we propose Subgraph-To-Node (S2N) translation, a novel formulation for learning representations of subgraphs. Specifically, given a set of subgraphs in the global graph, we construct a new graph by coarsely transforming subgraphs into nodes. Demonstrating both theoretical and empirical evidence, S2N not only significantly reduces memory and computational costs compared to state-of-the-art models but also outperforms them by capturing both local and global structures of the subgraph. By leveraging graph coarsening methods, our method outperforms baselines even in a data-scarce setting with insufficient subgraphs. Our experiments on eight benchmarks demonstrate that fined-tuned models with S2N translation can process 183 -- 711 times more subgraph samples than state-of-the-art models at a better or similar performance level. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-06 |
# 双目的ベイズ最適化における超体積改善の確率分布
Probability Distribution of Hypervolume Improvement in Bi-objective Bayesian Optimization ( http://arxiv.org/abs/2205.05505v3 ) ライセンス: Link先を確認 | Hao Wang, Kaifeng Yang, Michael Affenzeller, | (参考訳) ハイパーボリューム改善(HVI)は、多目的ベイズ最適化アルゴリズムにおいて、パレートに準拠する性質から取得関数を定義するために一般的に用いられる。
HVIの特定の統計モーメントに焦点をあてるのではなく、両目的問題に対するHVIの確率分布の正確な表現を提供することを目的としている。
ガウス過程(GP)モデリングによる二変量ガウス確率変数を考慮し,セル分割法による超体積改善の確率分布を導出する。
我々は,HVI分布のモンテカルロ近似と比較して,数値的精度と計算効率が優れている。
この分布を利用することで、超体積改善の確率$\varepsilon$-PoHVIという新しい取得関数を提案する。
実験により,広範に応用された両対象検定問題において,GPモデルが大きな予測不確実性を示す場合,$\varepsilon$-PoHVIは,他の関連する取得関数,例えば$\varepsilon$-PoIよりも有意に優れ,超体積改善が期待できることを示した。
Hypervolume improvement (HVI) is commonly employed in multi-objective Bayesian optimization algorithms to define acquisition functions due to its Pareto-compliant property. Rather than focusing on specific statistical moments of HVI, this work aims to provide the exact expression of HVI's probability distribution for bi-objective problems. Considering a bi-variate Gaussian random variable resulting from Gaussian process (GP) modeling, we derive the probability distribution of its hypervolume improvement via a cell partition-based method. Our exact expression is superior in numerical accuracy and computation efficiency compared to the Monte Carlo approximation of HVI's distribution. Utilizing this distribution, we propose a novel acquisition function - $\varepsilon$-probability of hypervolume improvement ($\varepsilon$-PoHVI). Experimentally, we show that on many widely-applied bi-objective test problems, $\varepsilon$-PoHVI significantly outperforms other related acquisition functions, e.g., $\varepsilon$-PoI, and expected hypervolume improvement, when the GP model exhibits a large the prediction uncertainty. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-06 |
# 波高予測のための回帰による出力確率予測
Exceedance Probability Forecasting via Regression for Significant Wave Height Prediction ( http://arxiv.org/abs/2206.09821v4 ) ライセンス: Link先を確認 | Vitor Cerqueira, Luis Torgo, | (参考訳) 波高予測は、海洋データ分析において重要な問題である。
この作業は、船舶の航路を管理したり、波からのエネルギー生産を見積もるなど、いくつかの海洋活動に影響を及ぼす。
本研究は,沿岸災害の原因となる大きな波高の極端な値の予測に焦点をあてる。
このタスクは、超越確率予測問題としてフレーム化される。
そこで本研究では,有意波高が予め定義された臨界しきい値を超える確率を推定することを目的とする。
この問題は通常、確率的二項分類モデルや予測の集合を用いて解決される。
そこで我々は,点予測に基づく新しい手法を提案する。
両タイプの予測(バイナリ確率とポイント予測)の計算は、意思決定者にとって有用である。
確率的バイナリ予測は、超過イベントに関するエンドユーザの情報を合理化するが、ポイント予測は今後のダイナミクスに関するさらなる洞察を与えることができる。
提案手法の手順は,その推定値に等しい位置パラメータを持つ分布に点予測が従うことを仮定して機能する。
そして,これらの点予測を累積分布関数を用いて超越確率推定に変換する。
カナダのハリファックス沿岸に設置したスマートブイのデータを用いて実験を行った。
その結果,提案手法は,超越確率予測のための最先端手法よりも優れていることが示唆された。
Significant wave height forecasting is a key problem in ocean data analytics. This task affects several maritime operations, such as managing the passage of vessels or estimating the energy production from waves. In this work, we focus on the prediction of extreme values of significant wave height that can cause coastal disasters. This task is framed as an exceedance probability forecasting problem. Accordingly, we aim to estimate the probability that the significant wave height will exceed a predefined critical threshold. This problem is usually solved using a probabilistic binary classification model or an ensemble of forecasts. Instead, we propose a novel approach based on point forecasting. Computing both type of forecasts (binary probabilities and point forecasts) can be useful for decision-makers. While a probabilistic binary forecast streamlines information for end-users concerning exceedance events, the point forecasts can provide additional insights into the upcoming future dynamics. The procedure of the proposed solution works by assuming that the point forecasts follow a distribution with the location parameter equal to that forecast. Then, we convert these point forecasts into exceedance probability estimates using the cumulative distribution function. We carried out experiments using data from a smart buoy placed on the coast of Halifax, Canada. The results suggest that the proposed methodology is better than state-of-the-art approaches for exceedance probability forecasting. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-06 |
# モンテカルロ批判最適化による強化学習におけるガイド探索
Guided Exploration in Reinforcement Learning via Monte Carlo Critic Optimization ( http://arxiv.org/abs/2206.12674v2 ) ライセンス: Link先を確認 | Igor Kuznetsov, | (参考訳) 深い決定論的非政治アルゴリズムのクラスは、継続的な制御問題の解決に効果的に適用される。
現在のアプローチでは、与えられたタスクを手動で調整する必要や、トレーニング中の探索校正の欠如など、いくつかの欠点がある探索法としてランダムノイズを利用するのが一般的である。
本稿では,モンテカルロ批判のアンサンブルを探索行動補正の計算に用いる新しいガイド付き探索法を提案し,これらの課題に対処する。
提案手法は探索を動的に調整することで従来の探査手法を強化する。
次に,提案した探索モジュールをポリシーと批判的修正の両方に活用する新しいアルゴリズムを提案する。
提案アルゴリズムは,DMControlスイートの様々な問題に対して,現代の強化学習アルゴリズムと比較して優れた性能を示す。
The class of deep deterministic off-policy algorithms is effectively applied to solve challenging continuous control problems. Current approaches commonly utilize random noise as an exploration method, which has several drawbacks, including the need for manual adjustment for a given task and the absence of exploratory calibration during the training process. We address these challenges by proposing a novel guided exploration method that uses an ensemble of Monte Carlo Critics for calculating exploratory action correction. The proposed method enhances the traditional exploration scheme by dynamically adjusting exploration. Subsequently, we present a novel algorithm that leverages the proposed exploratory module for both policy and critic modification. The presented algorithm demonstrates superior performance compared to modern reinforcement learning algorithms across a variety of problems in the DMControl suite. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-06 |
# カリキュラムに基づく曖昧さを考慮した部分的マルチラベル画像分類のための深部モデル
A Deep Model for Partial Multi-Label Image Classification with Curriculum Based Disambiguation ( http://arxiv.org/abs/2207.02410v2 ) ライセンス: Link先を確認 | Feng Sun, Ming-Kun Xie, Sheng-Jun Huang, | (参考訳) 本稿では,各画像に複数の関連ラベルおよび他のノイズラベルからなる候補ラベルセットをアノテートする部分的マルチラベル(PML)画像分類問題について検討する。
既存のPML手法は、多くの実タスクでは利用できない余分な仮定で事前知識を利用することで、ノイズの多いラベルをフィルタリングする曖昧な戦略を設計するのが一般的である。
さらに、曖昧化の目的関数は、通常、トレーニングセット全体に対して精巧に設計されているため、ミニバッチ上でSGDを持つディープモデルでは、ほとんど最適化できない。
本稿では,PMLの表現能力と識別能力を向上する深層モデルを提案する。
一方,異なる階層の様々な難易度を取り入れて,新たなカリキュラムに基づく曖昧さを段階的に識別する手法を提案する。
一方、モデル再訓練において、同定された容易なラベルの適合と潜在的な関連ラベルの活用のバランスをとるために整合正則化を導入する。
一般に使用されているベンチマークデータセットの大規模な実験結果から,提案手法がSOTA法より有意に優れていることが示された。
In this paper, we study the partial multi-label (PML) image classification problem, where each image is annotated with a candidate label set consists of multiple relevant labels and other noisy labels. Existing PML methods typically design a disambiguation strategy to filter out noisy labels by utilizing prior knowledge with extra assumptions, which unfortunately is unavailable in many real tasks. Furthermore, because the objective function for disambiguation is usually elaborately designed on the whole training set, it can be hardly optimized in a deep model with SGD on mini-batches. In this paper, for the first time we propose a deep model for PML to enhance the representation and discrimination ability. On one hand, we propose a novel curriculum based disambiguation strategy to progressively identify ground-truth labels by incorporating the varied difficulties of different classes. On the other hand, a consistency regularization is introduced for model retraining to balance fitting identified easy labels and exploiting potential relevant labels. Extensive experimental results on the commonly used benchmark datasets show the proposed method significantly outperforms the SOTA methods. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-06 |
# 幻覚攻撃 : 敵攻撃における情報理論的検出可能性
Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks ( http://arxiv.org/abs/2207.10170v5 ) ライセンス: Link先を確認 | Tim Franzmeyer, Stephen McAleer, João F. Henriques, Jakob N. Foerster, Philip H. S. Torr, Adel Bibi, Christian Schroeder de Witt, | (参考訳) 現実世界に展開される自律エージェントは、感覚入力に対する敵の攻撃に対して堅牢である必要がある。
ロバスティフィケーション・エージェント・ポリシーは可能な限り最強の攻撃を予想する必要がある。
強化学習エージェントに対する既存の観測空間攻撃には共通の弱点があることを実証する。
ディテクタビリティは、セキュリティのエスカレーションを引き起こす可能性があるため、敵には望ましくない。
我々は, シーケンシャルな意思決定者に対する新たな攻撃形態である, {\epsilon}-illusoryを紹介した。
本稿では,このような攻撃をエンドツーエンドに学習するための新しいデュアルアセンジアルゴリズムを提案する。
既存の攻撃と比較すると、自動的な方法による検出が極めて困難であることが実証的に見出され、人間の被験者による小さな研究(参照R84123/RE001)は、同様に人間にとって検出が難しいことを示唆している。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
プロジェクトのWebサイトはhttps://tinyurl.com/illusory- attacksにある。
Autonomous agents deployed in the real world need to be robust against adversarial attacks on sensory inputs. Robustifying agent policies requires anticipating the strongest attacks possible. We demonstrate that existing observation-space attacks on reinforcement learning agents have a common weakness: while effective, their lack of information-theoretic detectability constraints makes them detectable using automated means or human inspection. Detectability is undesirable to adversaries as it may trigger security escalations. We introduce {\epsilon}-illusory, a novel form of adversarial attack on sequential decision-makers that is both effective and of {\epsilon}-bounded statistical detectability. We propose a novel dual ascent algorithm to learn such attacks end-to-end. Compared to existing attacks, we empirically find {\epsilon}-illusory to be significantly harder to detect with automated methods, and a small study with human participants (IRB approval under reference R84123/RE001) suggests they are similarly harder to detect for humans. Our findings suggest the need for better anomaly detectors, as well as effective hardware- and system-level defenses. The project website can be found at https://tinyurl.com/illusory-attacks. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-06 |
# ブラックボックス攻撃による骨格型人間行動認識の脆弱性理解
Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack ( http://arxiv.org/abs/2211.11312v2 ) ライセンス: Link先を確認 | Yunfeng Diao, He Wang, Tianjia Shao, Yong-Liang Yang, Kun Zhou, David Hogg, Meng Wang, | (参考訳) HAR(Human Activity Recognition)は、自動運転車など、安全と生命が危ぶまれる幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
しかし、提案された攻撃は攻撃された分類器の完全な知識を必要とするため、過度に制限される。
本稿では,攻撃者がモデルの入出力にのみアクセスできる場合でも,そのような脅威が実際に存在することを示す。
この目的のために,本研究では,BASARと呼ばれる骨格型HARにおいて,最初のブラックボックス対逆攻撃手法を提案する。
BASARは分類境界と自然運動多様体の間の相互作用を探索する。
我々の知る限りでは、時系列に対する逆攻撃でデータ多様体が導入されたのはこれが初めてである。
BASARでは, 対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対
徹底的な評価により、BASARは分類器、データセット、アタックモードにまたがって攻撃を成功させることができることを示す。
攻撃によって、BASARはモデル脆弱性の潜在的な原因を特定し、改善の可能性についての洞察を提供する。
最後に, 新たに同定された脅威を軽減するため, 混合多様体型対角訓練(MMAT)と呼ばれる, オン/オフマニフォールド対向サンプルの高度分布を活用することで, 新たな対向訓練手法を提案する。
MMATは、分類精度を損なうことなく、敵の攻撃を防げる。
Human Activity Recognition (HAR) has been employed in a wide range of applications, e.g. self-driving cars, where safety and lives are at stake. Recently, the robustness of skeleton-based HAR methods have been questioned due to their vulnerability to adversarial attacks. However, the proposed attacks require the full-knowledge of the attacked classifier, which is overly restrictive. In this paper, we show such threats indeed exist, even when the attacker only has access to the input/output of the model. To this end, we propose the very first black-box adversarial attack approach in skeleton-based HAR called BASAR. BASAR explores the interplay between the classification boundary and the natural motion manifold. To our best knowledge, this is the first time data manifold is introduced in adversarial attacks on time series. Via BASAR, we find on-manifold adversarial samples are extremely deceitful and rather common in skeletal motions, in contrast to the common belief that adversarial samples only exist off-manifold. Through exhaustive evaluation, we show that BASAR can deliver successful attacks across classifiers, datasets, and attack modes. By attack, BASAR helps identify the potential causes of the model vulnerability and provides insights on possible improvements. Finally, to mitigate the newly identified threat, we propose a new adversarial training approach by leveraging the sophisticated distributions of on/off-manifold adversarial samples, called mixed manifold-based adversarial training (MMAT). MMAT can successfully help defend against adversarial attacks without compromising classification accuracy. | 翻訳日:2024-05-08 03:39:13 公開日:2024-05-06 |
# ビデオインスタンスシャドウ検出
Video Instance Shadow Detection ( http://arxiv.org/abs/2211.12827v2 ) ライセンス: Link先を確認 | Zhenghao Xing, Tianyu Wang, Xiaowei Hu, Haoran Wu, Chi-Wing Fu, Pheng-Ann Heng, | (参考訳) 写真編集や光方向推定などのアプリケーションに不可欠なインスタンスのシャドー検出は、シャドーインスタンス、オブジェクトインスタンス、およびそれらの関連性を予測する上で大きな進歩を遂げている。
このタスクの動画への拡張は、様々なビデオデータに注釈を付けることや、協会内の隠蔽や一時的な消滅に起因する複雑さに対処することの課題を示す。
これらの課題に対応するために、ラベル付き画像データとラベルなしビデオデータの両方を活用する半教師付きビデオインスタンスシャドウ検出フレームワークViShadowを紹介した。
ViShadowは2段階のトレーニングパイプラインを備えている。第1ステージはラベル付きイメージデータを利用して、クロスフレームペアリングのための対照的な学習を通じて、シャドーとオブジェクトインスタンスを識別する。
第2段階ではラベルのないビデオが採用され、追跡能力を高めるために関連するサイクル一貫性の損失が組み込まれている。
一時的な消失を管理し、追跡継続性を確保するための検索機構が導入された。
ラベル付きトレーニングビデオとラベル付きテストビデオと、SOAP-VIDメトリックを含むSOBA-VIDデータセットを、VISDソリューションの定量的評価のために導入する。
ViShadowの有効性は、ビデオインペインティング、インスタンスクローン、シャドウ編集、テキストインストラクションされたシャドウオブジェクト操作など、様々なビデオレベルのアプリケーションを通じてさらに実証されている。
Instance shadow detection, crucial for applications such as photo editing and light direction estimation, has undergone significant advancements in predicting shadow instances, object instances, and their associations. The extension of this task to videos presents challenges in annotating diverse video data and addressing complexities arising from occlusion and temporary disappearances within associations. In response to these challenges, we introduce ViShadow, a semi-supervised video instance shadow detection framework that leverages both labeled image data and unlabeled video data for training. ViShadow features a two-stage training pipeline: the first stage, utilizing labeled image data, identifies shadow and object instances through contrastive learning for cross-frame pairing. The second stage employs unlabeled videos, incorporating an associated cycle consistency loss to enhance tracking ability. A retrieval mechanism is introduced to manage temporary disappearances, ensuring tracking continuity. The SOBA-VID dataset, comprising unlabeled training videos and labeled testing videos, along with the SOAP-VID metric, is introduced for the quantitative evaluation of VISD solutions. The effectiveness of ViShadow is further demonstrated through various video-level applications such as video inpainting, instance cloning, shadow editing, and text-instructed shadow-object manipulation. | 翻訳日:2024-05-08 03:39:13 公開日:2024-05-06 |
# 楕円スライスサンプリングの可逆性
Reversibility of elliptical slice sampling revisited ( http://arxiv.org/abs/2301.02426v2 ) ライセンス: Link先を確認 | Mareike Hasenpflug, Viacheslav Telezhnikov, Daniel Rudolf, | (参考訳) 我々は、Murray, Adams, MacKay 2010 で提案されたマルコフ連鎖遷移核である楕円スライスサンプリングを無限次元分離ヒルベルト空間に拡張し、その well-definedness について議論する。
正則性要件を示し、望ましい可逆性の代替証明を提供し、正の半定値マルコフ作用素を誘導することを示す。
前述した結果の証明の中で重要なことは、それ自身で興味深いかもしれない収縮マルコフ鎖の解析である。
We extend elliptical slice sampling, a Markov chain transition kernel suggested in Murray, Adams and MacKay 2010, to infinite-dimensional separable Hilbert spaces and discuss its well-definedness. We point to a regularity requirement, provide an alternative proof of the desirable reversibility property and show that it induces a positive semi-definite Markov operator. Crucial within the proof of the formerly mentioned results is the analysis of a shrinkage Markov chain that may be interesting on its own. | 翻訳日:2024-05-08 01:45:50 公開日:2024-05-06 |
# 非線型偏微分方程式のメッシュフリー解法としてのクープマンニューラル作用素
Koopman neural operator as a mesh-free solver of non-linear partial differential equations ( http://arxiv.org/abs/2301.10022v2 ) ライセンス: Link先を確認 | Wei Xiong, Xiaomeng Huang, Ziyang Zhang, Ruixuan Deng, Pei Sun, Yang Tian, | (参考訳) 多様な偏微分方程式 (PDE) の解析解の欠如は、数値解の一連の計算技術を生み出している。
ニューラルネットワークベースのPDE解法の一種であるニューラル演算子の開発において、多くの最新の進歩が達成されているが、非線形PDEファミリーの長期的な振る舞いを学習しながら、これらの解法はより正確で説明しやすいものとなる。
本稿では,新しいニューラル演算子であるクープマンニューラル演算子(KNO)を提案する。
対象PDEファミリーの解作用素として機能するバナッハ空間間の無限次元写像を学習するのと同じ目的により、我々のアプローチは方程式解の非線形力学系を定式化することによって既存のモデルとは異なる。
力学系のフローマッピングに作用する無限次元作用素であるクープマン作用素を近似することにより、単純な線形予測問題を解くことで非線形PDEファミリーの解を等価に学習することができる。
メッシュ非依存・長期・5ゼロショット予測では,5つの代表的なPDE(例:Navier-Stokes方程式,Rayleigh-B{\'e}nard対流)と3つの実力学系(例:大域的水蒸気パターン,西部境界電流)に対してKNOを検証した。
これらの実験では、KNOは従来の最先端モデルと比較して顕著な優位性を示し、多様な科学・工学応用(PDE解決、乱流モデリング、降水予測など)をサポートするKNOの可能性を示している。
The lacking of analytic solutions of diverse partial differential equations (PDEs) gives birth to a series of computational techniques for numerical solutions. Although numerous latest advances are accomplished in developing neural operators, a kind of neural-network-based PDE solver, these solvers become less accurate and explainable while learning long-term behaviors of non-linear PDE families. In this paper, we propose the Koopman neural operator (KNO), a new neural operator, to overcome these challenges. With the same objective of learning an infinite-dimensional mapping between Banach spaces that serves as the solution operator of the target PDE family, our approach differs from existing models by formulating a non-linear dynamic system of equation solution. By approximating the Koopman operator, an infinite-dimensional operator governing all possible observations of the dynamic system, to act on the flow mapping of the dynamic system, we can equivalently learn the solution of a non-linear PDE family by solving simple linear prediction problems. We validate the KNO in mesh-independent, long-term, and5zero-shot predictions on five representative PDEs (e.g., the Navier-Stokes equation and the Rayleigh-B{\'e}nard convection) and three real dynamic systems (e.g., global water vapor patterns and western boundary currents). In these experiments, the KNO exhibits notable advantages compared with previous state-of-the-art models, suggesting the potential of the KNO in supporting diverse science and engineering applications (e.g., PDE solving, turbulence modelling, and precipitation forecasting). | 翻訳日:2024-05-08 01:45:50 公開日:2024-05-06 |
# 広告オークションにおけるユーザ反応:長期収益最適化のMDP定式化
User Response in Ad Auctions: An MDP Formulation of Long-Term Revenue Optimization ( http://arxiv.org/abs/2302.08108v2 ) ライセンス: Link先を確認 | Yang Cai, Zhe Feng, Christopher Liaw, Aranyak Mehta, Grigoris Velegkas, | (参考訳) 本稿では,長期割引収入の最大化を目的として,広告の質に対するユーザ反応を捉えた広告オークションのための新しいマルコフ決定プロセス(MDP)モデルを提案する。
ユーザの反応を取り入れることで,このモデルでは,オークションに関わる3つの関係者(広告,オークション,ユーザ)を考慮に入れます。
ユーザの状態は、ユーザ固有のクリックスルーレート(CTR)としてモデル化され、CTRは、現在のラウンドのユーザに対して表示される広告セットに従って、次のラウンドで変更される。
我々は,このMDPの最適メカニズムを,広告主の価値分布,現在のユーザ状態,ユーザへの広告表示の今後の影響に依拠する,修正された仮想価値の概念を用いて,Myersonのオークションとして特徴づける。
この特徴を生かして,提案アルゴリズムは,真のMDPへのサンプルアクセスと入札者の値分布のみを必要とする,ほぼ最適なポリシを出力する,サンプル効率と計算効率のよいアルゴリズムを設計する。
最後に、パーソナライズされたリザーブ価格を持つ第2価格オークションに基づく簡易なメカニズムを提案する。
We propose a new Markov Decision Process (MDP) model for ad auctions to capture the user response to the quality of ads, with the objective of maximizing the long-term discounted revenue. By incorporating user response, our model takes into consideration all three parties involved in the auction (advertiser, auctioneer, and user). The state of the user is modeled as a user-specific click-through rate (CTR) with the CTR changing in the next round according to the set of ads shown to the user in the current round. We characterize the optimal mechanism for this MDP as a Myerson's auction with a notion of modified virtual value, which relies on the value distribution of the advertiser, the current user state, and the future impact of showing the ad to the user. Leveraging this characterization, we design a sample-efficient and computationally-efficient algorithm which outputs an approximately optimal policy that requires only sample access to the true MDP and the value distributions of the bidders. Finally, we propose a simple mechanism built upon second price auctions with personalized reserve prices and show it can achieve a constant-factor approximation to the optimal long term discounted revenue. | 翻訳日:2024-05-08 01:45:50 公開日:2024-05-06 |
# Sketch In, Sketch Out:カーネルによる構造化予測のための学習と推論の高速化
Sketch In, Sketch Out: Accelerating both Learning and Inference for Structured Prediction with Kernels ( http://arxiv.org/abs/2302.10128v2 ) ライセンス: Link先を確認 | Tamim El Ahmad, Luc Brogat-Motte, Pierre Laforgue, Florence d'Alché-Buc, | (参考訳) 入力空間と出力空間の両方でカーネルのトリックを活用することで、サロゲートカーネル法は、構造化された出力予測に対する柔軟で理論的に基礎付けられた解である。
もしそれらが中程度のサイズの複雑なデータセット(例えば化学情報学)に対して最先端のパフォーマンスを提供するなら、これらのアプローチはスケールに失敗する。
本稿では,カーネル手法にスケッチに基づく近似を加えて,入力特徴写像と出力特徴写像の両方に適用することを提案する。
提案手法は,入力/出力共分散演算子の固有デカイに依存するスケッチサイズを小さくして,最適に近い速度を達成する方法を示す。
入力カーネルのスケッチはトレーニング時間を大幅に短縮する一方、出力カーネルのスケッチは推論時間を短縮する。
提案手法は,提案手法が難易度の高いベンチマークデータセット上で,最先端の性能を達成し,拡張性を示す。
Leveraging the kernel trick in both the input and output spaces, surrogate kernel methods are a flexible and theoretically grounded solution to structured output prediction. If they provide state-of-the-art performance on complex data sets of moderate size (e.g., in chemoinformatics), these approaches however fail to scale. We propose to equip surrogate kernel methods with sketching-based approximations, applied to both the input and output feature maps. We prove excess risk bounds on the original structured prediction problem, showing how to attain close-to-optimal rates with a reduced sketch size that depends on the eigendecay of the input/output covariance operators. From a computational perspective, we show that the two approximations have distinct but complementary impacts: sketching the input kernel mostly reduces training time, while sketching the output kernel decreases the inference time. Empirically, our approach is shown to scale, achieving state-of-the-art performance on benchmark data sets where non-sketched methods are intractable. | 翻訳日:2024-05-08 01:45:50 公開日:2024-05-06 |
# Webスケールトレーニングデータセットの収集は現実的
Poisoning Web-Scale Training Datasets is Practical ( http://arxiv.org/abs/2302.10149v2 ) ライセンス: Link先を確認 | Nicholas Carlini, Matthew Jagielski, Christopher A. Choquette-Choo, Daniel Paleka, Will Pearce, Hyrum Anderson, Andreas Terzis, Kurt Thomas, Florian Tramèr, | (参考訳) ディープラーニングモデルは、インターネットからクロールされた分散Webスケールデータセットでトレーニングされることが多い。
本稿では,モデルの性能に悪意のある事例を意図的に導入する2つの新しいデータセット中毒攻撃を提案する。
私たちの攻撃はすぐに実用的になり、今日では10の人気のデータセットに毒を盛る可能性がある。
私たちの最初の攻撃、スプリットビュー中毒は、インターネットコンテンツの不変性を利用して、データセットアノテータの初期ビューが、その後のクライアントがダウンロードしたビューとは異なることを保証します。
特定の不正な信頼の仮定を利用することで、LAION-400MまたはCOYO-700Mデータセットの0.01%をわずか60USDで毒した可能性があることを示す。
攻撃者は悪意のある例を注入するために、時間制限のウィンドウしか必要としない。
どちらの攻撃も考慮し、影響を受ける各データセットのメンテナに通知し、いくつかの低オーバーヘッド防御を推奨します。
Deep learning models are often trained on distributed, web-scale datasets crawled from the internet. In this paper, we introduce two new dataset poisoning attacks that intentionally introduce malicious examples to a model's performance. Our attacks are immediately practical and could, today, poison 10 popular datasets. Our first attack, split-view poisoning, exploits the mutable nature of internet content to ensure a dataset annotator's initial view of the dataset differs from the view downloaded by subsequent clients. By exploiting specific invalid trust assumptions, we show how we could have poisoned 0.01% of the LAION-400M or COYO-700M datasets for just $60 USD. Our second attack, frontrunning poisoning, targets web-scale datasets that periodically snapshot crowd-sourced content -- such as Wikipedia -- where an attacker only needs a time-limited window to inject malicious examples. In light of both attacks, we notify the maintainers of each affected dataset and recommended several low-overhead defenses. | 翻訳日:2024-05-08 01:45:50 公開日:2024-05-06 |
# 導波管結合量子エミッタアレイにおける共振パラメトリック光子生成
Resonant Parametric Photon Generation in Waveguide-coupled Quantum Emitter Arrays ( http://arxiv.org/abs/2302.12792v2 ) ライセンス: Link先を確認 | Egor S. Vyatkin, Alexander V. Poshakinskiy, Alexander N. Poddubny, | (参考訳) 我々は、時間的に変調された共鳴周波数を持つ量子エミッタの配列に結合した導波路におけるパラメトリック光子生成の理論を開発した。
そのような生成は動的カシミール効果と解釈できる。
放射方向と光子-光子相関が変調の位相によってどのように制御できるかを数値的および解析的に示す。
放射スペクトルはエミッタポテンシャルの非調和性に強く依存していることが示されている。
放射スペクトルでは単励起状態共鳴と二重励起状態共鳴が同定されている。
We have developed a theory of parametric photon generation in the waveguides coupled to arrays of quantum emitters with temporally modulated resonance frequencies. Such generation can be interpreted as a dynamical Casimir effect. We demonstrate numerically and analytically how the emission directionality and photon-photon correlations can be controlled by the phases of the modulation. The emission spectrum is shown to be strongly dependent on the anharmonicity of the emitter potential. Single- and double-excited state resonances have been identified in the emission spectrum. | 翻訳日:2024-05-08 01:45:50 公開日:2024-05-06 |
# マイクロサービスアプリケーションのためのリソース認識型サイバー認識
Resource-aware Cyber Deception for Microservice-based Applications ( http://arxiv.org/abs/2303.03151v5 ) ライセンス: Link先を確認 | Marco Zambianco, Claudio Facchinetti, Roberto Doriguzzi-Corin, Domenico Siracusa, | (参考訳) サイバー詐欺は、従来型のサイバー防御メカニズム、特にセキュリティ領域が薄れつつある現代のクラウドネイティブ環境にとって、価値ある追加となる可能性がある。
しかし、従来のコンピュータネットワークで使用されているデコイは、そのような環境で様々なアプリケーションと混在することができないため、悪意あるアクターの検出と緩和には効果がない。
一方、アプリケーションのデプロイされたマイクロサービスをクローンするデコイは、運用環境内で進行中の攻撃をインターセプトする、高忠実な偽装メカニズムを提供することができる。
しかし、このアプローチを最大限に活用するためには、限られた量のデコイリソースを使用して、正当なサービスパフォーマンスへの影響を最小限に抑えるための適切なクローン戦略を考案することが不可欠である。
この観測の後、固定資源予算内で割り当てられたデコイにインターセプトされる攻撃経路の数を最大化する非線形整数最適化問題を定式化する。
攻撃パスは、インフラストラクチャ内のアタッカーの動きを、違反したマイクロサービスのシーケンスとして表現する。
また、最適解を近似し、提案した定式化の計算複雑性を克服するために、ヒューリスティックなデコイ配置アルゴリズムを設計する。
ローカルな脆弱性メトリクスを使用して、デコイとしてクローンするマイクロサービスを選択する他のスキームに対して、最適でヒューリスティックなソリューションのパフォーマンスを評価します。
提案手法は, ほぼ同じ数のデコイを必要としながら, 攻撃経路のインターセプト化を図り, 攻撃経路のインターセプト化を図っている。
Cyber deception can be a valuable addition to traditional cyber defense mechanisms, especially for modern cloud-native environments with a fading security perimeter. However, pre-built decoys used in classical computer networks are not effective in detecting and mitigating malicious actors due to their inability to blend with the variety of applications in such environments. On the other hand, decoys cloning the deployed microservices of an application can offer a high-fidelity deception mechanism to intercept ongoing attacks within production environments. However, to fully benefit from this approach, it is essential to use a limited amount of decoy resources and devise a suitable cloning strategy to minimize the impact on legitimate services performance. Following this observation, we formulate a non-linear integer optimization problem that maximizes the number of attack paths intercepted by the allocated decoys within a fixed resource budget. Attack paths represent the attacker's movements within the infrastructure as a sequence of violated microservices. We also design a heuristic decoy placement algorithm to approximate the optimal solution and overcome the computational complexity of the proposed formulation. We evaluate the performance of the optimal and heuristic solutions against other schemes that use local vulnerability metrics to select which microservices to clone as decoys. Our results show that the proposed allocation strategy achieves a higher number of intercepted attack paths compared to these schemes while requiring approximately the same number of decoys. | 翻訳日:2024-05-08 01:45:49 公開日:2024-05-06 |
# セマンティックシーン完了のための相互相互作用の信頼性を考慮したブリッジングステレオ形状とBEV表現
Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion ( http://arxiv.org/abs/2303.13959v6 ) ライセンス: Link先を確認 | Bohan Li, Yasheng Sun, Zhujin Liang, Dalong Du, Zhuanghui Zhang, Xiaofeng Wang, Yunnan Wang, Xin Jin, Wenjun Zeng, | (参考訳) 3Dセマンティックシーン完了(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
本稿では,SSCにおけるステレオマッチング手法と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
BEV表現は、グローバルな意味的文脈を持つ見えない領域の幻覚能力を高める一方で、ステレオマッチングは、エピポーラ制約による幾何学的曖昧さを緩和する。
しかし, 立体幾何学とBEVの特徴の相違により, SSCの密接な予測タスクのためにそれらを橋渡しすることは容易ではない。
そこで,この2つの表現を高密度な3Dボリュームで効果的にブリッジして,信頼性の高いセマンティックシーンを補完する,BRGSceneと呼ばれる統合占有型フレームワークをさらに発展させる。
具体的には、ステレオ幾何およびBEV特徴の画素レベルの信頼性の高いアグリゲーションのための新しい相互対話型アンサンブル(MIE)ブロックを設計する。
MIEブロック内では、信頼再重み付けにより強化された双方向信頼インタラクション(BRI)モジュールが、相互誘導によるきめ細かいインタラクションを促進するために使用される。
さらに、チャネルワイド・リカレーションとマルチグループ投票を通じて補完的な集約を容易にするために、DVE(Dual Volume Ensemble)モジュールが導入された。
本手法は,セマンティックKITTIのセマンティック・シーン・コンプリートにおける全カメラ・ベースの手法より優れる。
私たちのコードはhttps://github.com/Arlo0o/StereoScene.comで利用可能です。
3D semantic scene completion (SSC) is an ill-posed perception task that requires inferring a dense 3D scene from limited observations. Previous camera-based methods struggle to predict accurate semantic scenes due to inherent geometric ambiguity and incomplete observations. In this paper, we resort to stereo matching technique and bird's-eye-view (BEV) representation learning to address such issues in SSC. Complementary to each other, stereo matching mitigates geometric ambiguity with epipolar constraint while BEV representation enhances the hallucination ability for invisible regions with global semantic context. However, due to the inherent representation gap between stereo geometry and BEV features, it is non-trivial to bridge them for dense prediction task of SSC. Therefore, we further develop a unified occupancy-based framework dubbed BRGScene, which effectively bridges these two representations with dense 3D volumes for reliable semantic scene completion. Specifically, we design a novel Mutual Interactive Ensemble (MIE) block for pixel-level reliable aggregation of stereo geometry and BEV features. Within the MIE block, a Bi-directional Reliable Interaction (BRI) module, enhanced with confidence re-weighting, is employed to encourage fine-grained interaction through mutual guidance. Besides, a Dual Volume Ensemble (DVE) module is introduced to facilitate complementary aggregation through channel-wise recalibration and multi-group voting. Our method outperforms all published camera-based methods on SemanticKITTI for semantic scene completion. Our code is available on https://github.com/Arlo0o/StereoScene. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-06 |
# LatentForensics:StyleGAN潜伏空間におけるFragal Deepfake検出に向けて
LatentForensics: Towards frugal deepfake detection in the StyleGAN latent space ( http://arxiv.org/abs/2303.17222v3 ) ライセンス: Link先を確認 | Matthieu Delmas, Amine Kacete, Stephane Paquelet, Simon Leglaive, Renaud Seguier, | (参考訳) 偽ビデオの分類はここ数年、難しい課題だった。
ディープフェイク分類器は、ビデオフレームが改ざんされたかどうかを確実に予測できる。
しかしながら、それらのパフォーマンスは、トレーニングに使用されるデータセットと、アナリストの計算能力の両方に結びついている。
本稿では,高品質な顔画像で訓練された最先端生成逆数ネットワーク(GAN)の潜時空間で動作するディープフェイク検出手法を提案する。
提案手法は、StyleGANの潜在空間の構造を利用して、軽量な二項分類モデルを学ぶ。
標準データセットに対する実験結果から,提案手法は他の最先端のディープフェイク分類手法よりも優れており,特に新しい操作手法を導入する場合など,モデルのトレーニングに使用可能なデータが稀な状況では,その性能が向上することが明らかとなった。
我々の知る限りでは、この研究はStyleGANの潜伏空間の深い分類への関心を示す最初の研究である。
この潜伏空間の解釈と操作に関する他の最近の研究と組み合わせて、顔画像の解釈可能な高レベル特性に基づくフラジアルディープフェイク分類法をさらに発展させることができると信じている。
The classification of forged videos has been a challenge for the past few years. Deepfake classifiers can now reliably predict whether or not video frames have been tampered with. However, their performance is tied to both the dataset used for training and the analyst's computational power. We propose a deepfake detection method that operates in the latent space of a state-of-the-art generative adversarial network (GAN) trained on high-quality face images. The proposed method leverages the structure of the latent space of StyleGAN to learn a lightweight binary classification model. Experimental results on standard datasets reveal that the proposed approach outperforms other state-of-the-art deepfake classification methods, especially in contexts where the data available to train the models is rare, such as when a new manipulation method is introduced. To the best of our knowledge, this is the first study showing the interest of the latent space of StyleGAN for deepfake classification. Combined with other recent studies on the interpretation and manipulation of this latent space, we believe that the proposed approach can further help in developing frugal deepfake classification methods based on interpretable high-level properties of face images. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-06 |
# ポピュレーションパラメータ平均化(PAPA)
PopulAtion Parameter Averaging (PAPA) ( http://arxiv.org/abs/2304.03094v4 ) ライセンス: Link先を確認 | Alexia Jolicoeur-Martineau, Emy Gervais, Kilian Fatras, Yan Zhang, Simon Lacoste-Julien, | (参考訳) アンサンブル法は、複数のモデルの予測を組み合わせて性能を向上させるが、推論時に計算コストを大幅に高める必要がある。
これらのコストを回避するために、重みを平均化することにより、複数のニューラルネットワークをひとつにまとめることができる。
しかし、これは通常、アンサンブルよりもはるかに悪いパフォーマンスを示す。
ウェイト平均化は、それらを組み合わせることで利益を得るのに十分な違いがある場合にのみ有益であるが、平均的に十分よく似ている。
この考え方に基づいて,アンサンブルの一般性と平均化の効率を結合する手法であるPopulAtion Parameter Averaging (PAPA)を提案する。
PAPAは多様なモデル(異なるデータ順序、拡張、正規化に基づいて訓練された)の集団を活用しながら、ネットワークの重みを徐々に重みの平均まで押し上げている。
また, PAPA-allおよびPAPA-2は, 平均重みが連続的にではなく, 平均重みがほとんどなく, 全ての手法が一般化を促進させるが, PAPAは最良に機能する傾向にある。
PAPAは平均化とアンサンブルのパフォーマンスギャップを減らし、CIFAR-10では0.8%、CIFAR-100では1.9%、ImageNetでは1.6%となる。
Ensemble methods combine the predictions of multiple models to improve performance, but they require significantly higher computation costs at inference time. To avoid these costs, multiple neural networks can be combined into one by averaging their weights. However, this usually performs significantly worse than ensembling. Weight averaging is only beneficial when different enough to benefit from combining them, but similar enough to average well. Based on this idea, we propose PopulAtion Parameter Averaging (PAPA): a method that combines the generality of ensembling with the efficiency of weight averaging. PAPA leverages a population of diverse models (trained on different data orders, augmentations, and regularizations) while slowly pushing the weights of the networks toward the population average of the weights. We also propose PAPA variants (PAPA-all, and PAPA-2) that average weights rarely rather than continuously; all methods increase generalization, but PAPA tends to perform best. PAPA reduces the performance gap between averaging and ensembling, increasing the average accuracy of a population of models by up to 0.8% on CIFAR-10, 1.9% on CIFAR-100, and 1.6% on ImageNet when compared to training independent (non-averaged) models. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-06 |
# プロンプトベースのブラックボックスチューニングカラーフル:3次元直交視点からのモデル一般化の促進
Make Prompt-based Black-Box Tuning Colorful: Boosting Model Generalization from Three Orthogonal Perspectives ( http://arxiv.org/abs/2305.08088v2 ) ライセンス: Link先を確認 | Qiushi Sun, Chengcheng Han, Nuo Chen, Renyu Zhu, Jingyang Gong, Xiang Li, Ming Gao, | (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクのパワーを増大させている。
しかし、これらのモデルを下流タスクにチューニングするには、通常、余分なコストを必要とするか、商業的な考慮のために利用できない。
近年,タスク固有のプロンプトを勾配や隠れ表現にアクセスせずに最適化することで,この問題に対処するブラックボックスチューニングが提案されている。
しかし、既存のほとんどの研究は、数ショット学習のシナリオの下で、勾配のない最適化の可能性を完全に活用している。
本稿では,ブラックボックス最適化の効率性と性能を向上させるための,単純かつ補完的な手法であるBBT-RGBについて述べる。
具体的には,(1) 高速収束と過度適合を緩和する2段階微分自由最適化戦略,(2) 新規な使用法による自動動詞生成,(3) 命令探索と自動選択による早期初期化ポリシ,の3つの要素を含む。
自然言語の理解と推論に関する多岐にわたる実験により,本手法の有効性が示された。
私たちのコードはhttps://github.com/QiushiSun/BBT-RGBで公開されています。
Large language models (LLMs) have shown increasing power on various natural language processing (NLP) tasks. However, tuning these models for downstream tasks usually needs exorbitant costs or is unavailable due to commercial considerations. Recently, black-box tuning has been proposed to address this problem by optimizing task-specific prompts without accessing the gradients and hidden representations. However, most existing works have yet fully exploited the potential of gradient-free optimization under the scenario of few-shot learning. In this paper, we describe BBT-RGB, a suite of straightforward and complementary techniques for enhancing the efficiency and performance of black-box optimization. Specifically, our method includes three plug-and-play components: (1) Two-stage derivative-free optimization strategy that facilitates fast convergence and mitigates overfitting; (2) Automatic verbalizer construction with its novel usage under few-shot settings; (3) Better prompt initialization policy based on instruction search and auto-selected demonstration. Extensive experiments across various tasks on natural language understanding and inference demonstrate the effectiveness of our method. Our codes are publicly available at https://github.com/QiushiSun/BBT-RGB. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-06 |
# チップ上の高速ソースデバイス非依存量子乱数発生装置
High-speed Source-Device-Independent Quantum Random Number Generator on a Chip ( http://arxiv.org/abs/2305.12472v2 ) ライセンス: Link先を確認 | Tommaso Bertapelle, Marco Avesani, Alberto Santamato, Alberto Montanaro, Marco Chiesa, Davide Rotta, Massimo Artiglia, Vito Sorianello, Francesco Testa, Gabriele De Angelis, Giampiero Contestabile, Giuseppe Vallone, Marco Romagnoli, Paolo Villoresi, | (参考訳) 広範囲のアプリケーションでは、仮説により、高速でプライベートで真にランダムなソースにアクセスする必要がある。
量子乱数生成器(QRNG)は現在、真のランダム性を生み出すことができる唯一の技術である。
しかし、現在の実装では採用が著しく制限されている。
本研究では,カスタム集積フォトニックチップを活用した高性能ソースデバイス独立QRNGを提案する。
提案手法は、ヘテロダイン受信機の特性を利用して、セキュリティと統合を強化し、その実装を簡素化し、空間的フットプリント削減を促進する。
この特徴は、ポータブルおよび宇宙用途の要求を満たすのに適した発電機の開発に向けた大きな進歩を示す可能性がある。
このシステムは、空間と電力のフットプリントを減らした20Gbps以上の速度でセキュアな乱数を提供できる。
A wide range of applications require, by hypothesis, to have access to a high-speed, private, and genuine random source. Quantum Random Number Generators (QRNGs) are currently the sole technology capable of producing true randomness. However, the bulkiness of current implementations significantly limits their adoption. In this work, we present a high-performance source-device independent QRNG leveraging a custom made integrated photonic chip. The proposed scheme exploits the properties of a heterodyne receiver to enhance security and integration to promote spatial footprint reduction while simplifying its implementation. This characteristics could represents a significant advancement toward the development of generators better suited to meet the demands of portable and space applications. The system can deliver secure random numbers at a rate greater than 20 Gbps with a reduced spatial and power footprint. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-06 |
# 脳腫瘍分類のためのエンサンブル深層学習モデル
An Optimized Ensemble Deep Learning Model For Brain Tumor Classification ( http://arxiv.org/abs/2305.12844v2 ) ライセンス: Link先を確認 | Md. Alamin Talukder, Md. Manowarul Islam, Md Ashraf Uddin, | (参考訳) 脳腫瘍は人間の生命に致命的な危険をもたらし、効果的な治療のために正確かつタイムリーな診断を必要とする。
脳腫瘍の不正確な同定は、正確な診断方法に対する重要な必要性を強調し、寿命を著しく低下させる可能性がある。
磁気共鳴イメージング(MRI)画像データセット内の脳腫瘍の手動同定は困難で時間を要する。
したがって、信頼性の高い深層学習(DL)モデルの開発は、診断精度を高め、最終的に命を救うために不可欠である。
本研究は,脳腫瘍を効率よく分類するための伝達学習(TL)を用いた,革新的な最適化に基づく深層アンサンブル手法を提案する。
提案手法は,GAWOやGrid Search-based Weight Optimization(GSWO)などの重み付け最適化技術を利用した,厳密な事前処理,TLアーキテクチャの再構築,微調整,アンサンブルDLモデルを含む。
実験は3064画像からなるFigshare Contrast-Enhanced MRI (CE-MRI) 脳腫瘍データセットを用いて行われた。
Xception, ResNet50V2, ResNet152V2, InceptionResNetV2, GAWO, GSWOはそれぞれ99.42%, 98.37%, 98.22%, 98.26%, 99.71%, 99.76%に達した。
特に、GSWOは優れた精度を示し、Figshare CE-MRI 脳腫瘍データセット上の5つの折り畳み平均99.76\%の精度を示す。
比較分析は,提案したモデルが既存モデルよりも大幅に性能向上していることを示す。
結論として, 最適化された深層アンサンブルモデルでは, 脳腫瘍の早期分類において, 例外的な精度が得られた。
さらに、神経科医や臨床医が正確かつ即時に診断を下すのを助ける可能性がある。
Brain tumors present a grave risk to human life, demanding precise and timely diagnosis for effective treatment. Inaccurate identification of brain tumors can significantly diminish life expectancy, underscoring the critical need for precise diagnostic methods. Manual identification of brain tumors within vast Magnetic Resonance Imaging (MRI) image datasets is arduous and time-consuming. Thus, the development of a reliable deep learning (DL) model is essential to enhance diagnostic accuracy and ultimately save lives. This study introduces an innovative optimization-based deep ensemble approach employing transfer learning (TL) to efficiently classify brain tumors. Our methodology includes meticulous preprocessing, reconstruction of TL architectures, fine-tuning, and ensemble DL models utilizing weighted optimization techniques such as Genetic Algorithm-based Weight Optimization (GAWO) and Grid Search-based Weight Optimization (GSWO). Experimentation is conducted on the Figshare Contrast-Enhanced MRI (CE-MRI) brain tumor dataset, comprising 3064 images. Our approach achieves notable accuracy scores, with Xception, ResNet50V2, ResNet152V2, InceptionResNetV2, GAWO, and GSWO attaining 99.42%, 98.37%, 98.22%, 98.26%, 99.71%, and 99.76% accuracy, respectively. Notably, GSWO demonstrates superior accuracy, averaging 99.76\% accuracy across five folds on the Figshare CE-MRI brain tumor dataset. The comparative analysis highlights the significant performance enhancement of our proposed model over existing counterparts. In conclusion, our optimized deep ensemble model exhibits exceptional accuracy in swiftly classifying brain tumors. Furthermore, it has the potential to assist neurologists and clinicians in making accurate and immediate diagnostic decisions. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-06 |
# 実際に取得したデータを用いた乱用コンテンツ検出の解法
How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have ( http://arxiv.org/abs/2305.14081v2 ) ライセンス: Link先を確認 | Viktor Hangya, Alexander Fraser, | (参考訳) ソーシャルメディアプラットフォームが幅広いため、乱用言語検出システムの要件は様々であり、常に変化している。
ヘイトや不正検出など、さまざまな特性とラベルセットを持つ注釈付きコーパスがすでに作成されているが、乱用されたスピーチの形式とターゲットは常に進化している。
以来、新しいコーパスのアノテーションは高価であり、この作業では、すでに持っているデータセットを活用し、乱用言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
まずモデルをマルチタスクでトレーニングする。
次に、ターゲット要件に数発の適応を実行します。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
また,本モデルでは,ターゲットデータセットにのみ存在するラベルの予測を改良し,ターゲットタスクに直接使用されていないラベルに関する知識の恩恵を受けることができるため,乱用言語に対する一般的な理解も得られている。
Due to the broad range of social media platforms, the requirements of abusive language detection systems are varied and ever-changing. Already a large set of annotated corpora with different properties and label sets were created, such as hate or misogyny detection, but the form and targets of abusive speech are constantly evolving. Since, the annotation of new corpora is expensive, in this work we leverage datasets we already have, covering a wide range of tasks related to abusive language detection. Our goal is to build models cheaply for a new target label set and/or language, using only a few training examples of the target domain. We propose a two-step approach: first we train our model in a multitask fashion. We then carry out few-shot adaptation to the target requirements. Our experiments show that using already existing datasets and only a few-shots of the target task the performance of models improve both monolingually and across languages. Our analysis also shows that our models acquire a general understanding of abusive language, since they improve the prediction of labels which are present only in the target dataset and can benefit from knowledge about labels which are not directly used for the target task. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-06 |
# DiffCLIP: 言語基底3次元分類のための安定拡散の活用
DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification ( http://arxiv.org/abs/2305.15957v3 ) ライセンス: Link先を確認 | Sitian Shen, Zilin Zhu, Linqian Fan, Harry Zhang, Xinxiao Wu, | (参考訳) 大規模な事前学習モデルはマルチモーダル学習を可能にし、CLIPモデルは画像分類、オブジェクト検出、セマンティックセグメンテーションにおいて印象的な結果を得た。
しかし、3Dポイントクラウド処理タスクにおけるモデルの性能は、3Dプロジェクションからの深度マップとCLIPのトレーニングイメージとのドメインギャップによって制限されている。
本稿では、視覚枝の領域ギャップを最小限に抑えるために、制御ネットとの安定拡散を取り入れた新しい事前学習フレームワークであるDiffCLIPを提案する。
さらに、スタイルプロンプト生成モジュールは、テキストブランチで数ショットのタスクに対して導入された。
ModelNet10、ModelNet40、ScanObjectNNデータセットに関する大規模な実験は、DiffCLIPが3D理解に強力な能力を持っていることを示している。
安定した拡散とスタイルプロンプト生成により、DiffCLIPは、最先端性能であるScanObjectNNのOBJ\_BGにおけるゼロショット分類の精度43.2\%、最先端性能のModelNet10におけるゼロショット分類の精度80.6\%を達成する。
Large pre-trained models have had a significant impact on computer vision by enabling multi-modal learning, where the CLIP model has achieved impressive results in image classification, object detection, and semantic segmentation. However, the model's performance on 3D point cloud processing tasks is limited due to the domain gap between depth maps from 3D projection and training images of CLIP. This paper proposes DiffCLIP, a new pre-training framework that incorporates stable diffusion with ControlNet to minimize the domain gap in the visual branch. Additionally, a style-prompt generation module is introduced for few-shot tasks in the textual branch. Extensive experiments on the ModelNet10, ModelNet40, and ScanObjectNN datasets show that DiffCLIP has strong abilities for 3D understanding. By using stable diffusion and style-prompt generation, DiffCLIP achieves an accuracy of 43.2\% for zero-shot classification on OBJ\_BG of ScanObjectNN, which is state-of-the-art performance, and an accuracy of 80.6\% for zero-shot classification on ModelNet10, which is comparable to state-of-the-art performance. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-06 |
# 変分ベイズ動的計画のためのガンベル伝搬による潜在最適経路
Latent Optimal Paths by Gumbel Propagation for Variational Bayesian Dynamic Programming ( http://arxiv.org/abs/2306.02568v2 ) ライセンス: Link先を確認 | Xinlei Niu, Christian Walder, Jing Zhang, Charles Patrick Martin, | (参考訳) 本稿では,確率軟化解を用いて古典的最適経路問題を解く確率最適経路を提案する。
この統一的なアプローチは、幅広いDP問題を、全ての経路がギブス分布に従う有向非巡回グラフに変換する。
本稿では,Gumbel分布の特性によるメッセージパスアルゴリズムに対するギブズ分布の等価性を示し,潜在経路,すなわちベイズ動的計画法(BDP)の変分ベイズ推定に必要なすべての成分を与える。
本稿では,変分オートエンコーダ(VAE)の潜時空間におけるBDPの利用を実証し,構造化されたスパース最適経路を潜時変数として捉えるBDP-VAEを提案する。
これにより、モデルが観測されていない構造情報に依存する生成タスクのエンドツーエンドトレーニングが可能になる。
最後に,提案手法の動作を検証し,実世界の2つの応用,すなわちテキスト音声合成と歌声合成に適用可能性を示す。
We propose the stochastic optimal path which solves the classical optimal path problem by a probability-softening solution. This unified approach transforms a wide range of DP problems into directed acyclic graphs in which all paths follow a Gibbs distribution. We show the equivalence of the Gibbs distribution to a message-passing algorithm by the properties of the Gumbel distribution and give all the ingredients required for variational Bayesian inference of a latent path, namely Bayesian dynamic programming (BDP). We demonstrate the usage of BDP in the latent space of variational autoencoders (VAEs) and propose the BDP-VAE which captures structured sparse optimal paths as latent variables. This enables end-to-end training for generative tasks in which models rely on unobserved structural information. At last, we validate the behaviour of our approach and showcase its applicability in two real-world applications: text-to-speech and singing voice synthesis. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-06 |
# 古典的リカレントニューラルネットワークを用いたスパイク計算
Spike-based computation using classical recurrent neural networks ( http://arxiv.org/abs/2306.03623v3 ) ライセンス: Link先を確認 | Florent De Geeter, Damien Ernst, Guillaume Drion, | (参考訳) スパイクニューラルネットワーク(英: Spiking Neural Network)は、ニューロン間の通信が、スパイクと呼ばれるイベントのみで構成されている人工ニューラルネットワークの一種である。
この特性により、ニューラルネットワークは非同期でスパースな計算を可能にするため、特別なハードウェア上で実行される場合のエネルギー消費量は劇的に減少する。
しかし、このようなネットワークのトレーニングは、主に古典的なバックプロパゲーションの使用を妨げるスパイクアクティベーションの非微分性のために困難であることが知られている。
これは、最先端のスパイクニューラルネットワークが通常、生物学的にインスパイアされたニューロンモデルから派生しているためである。
現在、スパイクニューラルネットワークの研究は、特定のタスクで非スパイクバージョンと競合するネットワークを得ることを目標とするトレーニングアルゴリズムの設計に焦点を当てている。
本稿では、よく知られた、訓練が容易なリカレントニューラルネットワークのダイナミクスをイベントベースに修正する、対称的アプローチを試行する。
スパイキング・リカレント・セルと呼ばれるこの新しいRNN細胞は、完全に微分可能でありながら、スパイク(スパイク)と呼ばれるイベントを使って通信する。
したがって、バニラバックプロパゲーションは、そのようなRNN細胞で作られたネットワークをトレーニングするために使用できる。
この新ネットワークは,MNISTベンチマークとその変種であるFashion-MNISTとNeuromorphic-MNISTの他の種類のスパイクネットワークに匹敵する性能が得られることを示す。
さらに,この新細胞は,深層スパイクネットワークのトレーニングが実現可能であることを示す。
Spiking neural networks are a type of artificial neural networks in which communication between neurons is only made of events, also called spikes. This property allows neural networks to make asynchronous and sparse computations and therefore drastically decrease energy consumption when run on specialised hardware. However, training such networks is known to be difficult, mainly due to the non-differentiability of the spike activation, which prevents the use of classical backpropagation. This is because state-of-the-art spiking neural networks are usually derived from biologically-inspired neuron models, to which are applied machine learning methods for training. Nowadays, research about spiking neural networks focuses on the design of training algorithms whose goal is to obtain networks that compete with their non-spiking version on specific tasks. In this paper, we attempt the symmetrical approach: we modify the dynamics of a well-known, easily trainable type of recurrent neural network to make it event-based. This new RNN cell, called the Spiking Recurrent Cell, therefore communicates using events, i.e. spikes, while being completely differentiable. Vanilla backpropagation can thus be used to train any network made of such RNN cell. We show that this new network can achieve performance comparable to other types of spiking networks in the MNIST benchmark and its variants, the Fashion-MNIST and the Neuromorphic-MNIST. Moreover, we show that this new cell makes the training of deep spiking networks achievable. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-06 |
# SequenceMatch: バックトラッキングを用いた自己回帰シーケンスモデリングのための模擬学習
SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking ( http://arxiv.org/abs/2306.05426v3 ) ライセンス: Link先を確認 | Chris Cundy, Stefano Ermon, | (参考訳) 多くの領域において、自己回帰モデルは次の観測を予測するタスクにおいて高い可能性を得ることができる。
しかし、このMLE(Maxum-likelihood)の目的は、必ずしも下流で自動回帰的に高品質なシーケンスを生成するユースケースと一致しない。
MLEの客観的な重み付けは、データ分布下での頻度に比例し、分布外(OOD)モデルの振る舞いのガイダンスがない。
この複合的誤り問題に対処するために、我々は、シーケンス生成を模倣学習(IL)問題として定式化する。
これにより、自己回帰モデルによって生成されたシーケンスの分布と、OOD生成したシーケンスの重み付き分岐を含むデータセットからのシーケンスとのばらつきを最小化できる。
ILフレームワークはまた、生成プロセスにバックスペースアクションを導入することで、バックトラックを組み込むことができます。
これにより、配列 OOD を取ると、モデルがサンプルトークンを反転させることで、複合的エラー問題を緩和する。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
生成に使用する自己回帰モデルに対して,より適切なトレーニング対象としてSequenceMatch-$\chi^2$ divergenceを同定する。
経験的に、SequenceMatchトレーニングは、言語モデルと算術演算を用いたテキスト生成において、MLEよりも改善されていることを示す。
In many domains, autoregressive models can attain high likelihood on the task of predicting the next observation. However, this maximum-likelihood (MLE) objective does not necessarily match a downstream use-case of autoregressively generating high-quality sequences. The MLE objective weights sequences proportionally to their frequency under the data distribution, with no guidance for the model's behaviour out of distribution (OOD): leading to compounding error during autoregressive generation. In order to address this compounding error problem, we formulate sequence generation as an imitation learning (IL) problem. This allows us to minimize a variety of divergences between the distribution of sequences generated by an autoregressive model and sequences from a dataset, including divergences with weight on OOD generated sequences. The IL framework also allows us to incorporate backtracking by introducing a backspace action into the generation process. This further mitigates the compounding error problem by allowing the model to revert a sampled token if it takes the sequence OOD. Our resulting method, SequenceMatch, can be implemented without adversarial training or architectural changes. We identify the SequenceMatch-$\chi^2$ divergence as a more suitable training objective for autoregressive models which are used for generation. We show that empirically, SequenceMatch training leads to improvements over MLE on text generation with language models and arithmetic. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-06 |
# 自動プログラム修復における突然変異演算子選択のための強化学習
Reinforcement Learning for Mutation Operator Selection in Automated Program Repair ( http://arxiv.org/abs/2306.05792v2 ) ライセンス: Link先を確認 | Carol Hanna, Aymeric Blot, Justyna Petke, | (参考訳) 自動プログラム修復技術は、ソフトウェア開発者がバグを修正するための困難なタスクを支援することを目的としている。
ヒューリスティックなプログラム修復において、ソフトウェア上の突然変異によって生成されたプログラム変種探索空間は、バグの潜在的なパッチを見つけるために探索される。
最も一般的には、検索中の突然変異演算子の選択はランダムに行われるが、hulcihは多くのバグを発生させ、コンパイル不可能なプログラムの変種も生成できる。
私たちのゴールは、相当なリソースを浪費する意図された機能をコンパイルしたり壊したりしない変種の生成を減らすことです。
本稿では、ヒューリスティックなプログラム修復における突然変異演算子の選択に対する強化学習に基づくアプローチの有効性について検討する。
提案手法はプログラミング言語, 粒度レベル, 探索戦略に依存しないものであり, 既存のヒューリスティックな修復ツールに容易に拡張できる。
我々は,4つのオペレータ選択手法,2つの報酬型,2つのクレジット代入戦略,2つの統合方法,および3つの突然変異演算子に対して,30,080個の独立修復試行を用いて広範囲に評価を行った。
我々はDefects4Jベンチマークから実世界の353のバグに対するアプローチを評価する。この強化学習に基づく突然変異演算子の選択は、テストパスの変種数の増加をもたらすが、ランダム選択を用いたベースラインと比較してパッチされたバグの数に顕著な改善は示さない。
強化学習は、しばしばヒューリスティックベースのプログラム修復に使用される進化的アルゴリズムの探索の改善に成功しているが、この領域に適用した場合、そのような改善は示されていない。
Automated program repair techniques aim to aid software developers with the challenging task of fixing bugs. In heuristic-based program repair, a search space of program variants, created via mutations on software, is explored to find potential patches for bugs. Most commonly, every selection of a mutation operator during search is performed uniformly at random, whcih can generate many buggy, even uncompilable program variants. Our goal is to reduce the generation of variants that do not compile or break intended functionality which waste considerable resources. In this paper, we investigate the feasibility of a reinforcement learning-based approach for the selection of mutation operators in heuristic-based program repair. Our proposed approach is programming language, granularity-level, and search strategy agnostic and allows for easy augmentation into existing heuristic-based repair tools. We conduct an extensive empirical evaluation of four operator selection techniques, two reward types, two credit assignment strategies, two integration methods, and three sets of mutation operators using 30,080 independent repair attempts. We evaluate our approach on 353 real-world bugs from the Defects4J benchmark.The reinforcement learning-based mutation operator selection results in a higher number of test-passing variants, but does not exhibit a noticeable improvement in the number of bugs patched in comparison with the baseline, which uses random selection. While reinforcement learning has been previously shown to be successful in improving the search of evolutionary algorithms, often used in heuristic-based program repair, it has not shown such improvements when applied to this area of research. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-06 |
# Data-Copilot: 自律ワークフローで数十億のデータと人間をブリッジする
Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow ( http://arxiv.org/abs/2306.07209v3 ) ライセンス: Link先を確認 | Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang, | (参考訳) 金融、気象学、エネルギーといった様々な産業が毎日大量の異種データを生産している。
人間がデータを効率的に管理、処理、表示することに対する自然な要求がある。
しかし、労働集約的な努力と、これらのデータ関連のタスクに高いレベルの専門知識を必要とする。
大規模言語モデル(LLM)が意味理解と推論において有望な能力を示すことを考慮し、LLMの展開は、人間に優しい方法で対話し、表示しながら、大量のデータを自律的に管理し、処理することができることを提唱する。
そこで本研究では,一方の端に多数のデータソースを接続し,他方の端に多様な人的要求に対応するLLMベースのシステムであるData-Copilotを提案する。
経験豊富な専門家として、Data-Copilotは、生データをユーザの意図に最も合うマルチフォーム出力に自律的に変換する。
具体的には、クエリ、分析、予測、視覚化など、さまざまなデータ関連の要求を満たすために、まず複数のユニバーサルインターフェースを設計する。
リアルタイム応答では、対応するインターフェイスを呼び出すことで、簡潔なワークフローを自動的に展開する。
プロセス全体がData-Copilotによって完全に制御され、人間の助けがない。
私たちは、大規模な中国の財務データ、例えば株式、ファンド、ニュースを使ってData-Copilot-1.0をリリースします。
実験の結果、トークン使用率を低くして信頼性の高いパフォーマンスを実現し、将来性のあるアプリケーションの見通しを示している。
Various industries such as finance, meteorology, and energy produce vast amounts of heterogeneous data every day. There is a natural demand for humans to manage, process, and display data efficiently. However, it necessitates labor-intensive efforts and a high level of expertise for these data-related tasks. Considering large language models (LLMs) showcase promising capabilities in semantic understanding and reasoning, we advocate that the deployment of LLMs could autonomously manage and process massive amounts of data while interacting and displaying in a human-friendly manner. Based on this, we propose Data-Copilot, an LLM-based system that connects numerous data sources on one end and caters to diverse human demands on the other end. Acting as an experienced expert, Data-Copilot autonomously transforms raw data into multi-form output that best matches the user's intent. Specifically, it first designs multiple universal interfaces to satisfy diverse data-related requests, like querying, analysis, prediction, and visualization. In real-time response, it automatically deploys a concise workflow by invoking corresponding interfaces. The whole process is fully controlled by Data-Copilot, without human assistance. We release Data-Copilot-1.0 using massive Chinese financial data, e.g., stocks, funds, and news. Experiments indicate it achieves reliable performance with lower token consumption, showing promising application prospects. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-06 |
# 大規模言語モデルに対する単純かつ効果的なプルーニング手法
A Simple and Effective Pruning Approach for Large Language Models ( http://arxiv.org/abs/2306.11695v3 ) ライセンス: Link先を確認 | Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter, | (参考訳) そのサイズが大きくなるにつれて、LLM(Large Languages Models)は、ネットワークプルーニング手法の自然な候補となる。
しかし、既存の手法では、数十億ドル規模のLLMにはめったに手に入らない再訓練や、2次情報に依存する重み付け問題の解決が必要であり、計算コストも高い可能性がある。
本稿では,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を提案する。
LLMの創発的大規模特徴の最近の観測により,本手法は,出力毎の入力アクティベーションによって乗算される最小の重みを重み付けする。
特にワンダは再訓練や重量の更新を必要とせず、刈り取られたLLMをそのまま使用することができる。
我々は,LLaMAとLLaMA-2におけるWanda法を,様々な言語ベンチマークで徹底的に評価する。
ワンダは、確立されたマグニチュードプルーニングの基準線を著しく上回り、集中重量更新を含む最近の手法と競合する。
コードはhttps://github.com/locuslab/wanda.comで入手できる。
As their size increases, Large Languages Models (LLMs) are natural candidates for network pruning methods: approaches that drop a subset of network weights while striving to preserve performance. Existing methods, however, require either retraining, which is rarely affordable for billion-scale LLMs, or solving a weight reconstruction problem reliant on second-order information, which may also be computationally expensive. In this paper, we introduce a novel, straightforward yet effective pruning method, termed Wanda (Pruning by Weights and activations), designed to induce sparsity in pretrained LLMs. Motivated by the recent observation of emergent large magnitude features in LLMs, our approach prunes weights with the smallest magnitudes multiplied by the corresponding input activations, on a per-output basis. Notably, Wanda requires no retraining or weight update, and the pruned LLM can be used as is. We conduct a thorough evaluation of our method Wanda on LLaMA and LLaMA-2 across various language benchmarks. Wanda significantly outperforms the established baseline of magnitude pruning and performs competitively against recent method involving intensive weight update. Code is available at https://github.com/locuslab/wanda. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-06 |
# DreamTime: 拡散誘導型3Dジェネレーションの最適化戦略の改善
DreamTime: An Improved Optimization Strategy for Diffusion-Guided 3D Generation ( http://arxiv.org/abs/2306.12422v2 ) ライセンス: Link先を確認 | Yukun Huang, Jianan Wang, Yukai Shi, Boshi Tang, Xianbiao Qi, Lei Zhang, | (参考訳) 何十億もの画像テキスト対に事前訓練されたテキスト対拡散モデルにより, ランダムに初期化可能な3次元表現をスコア蒸留で最適化することにより, 3次元コンテンツ作成が可能になった。
しかし、最適化プロセスは緩やかな収束に悩まされ、結果として得られる3Dモデルは2つの制限をしばしば示している。
(a) 属性の欠如,歪んだ形状及び質感等の品質上の懸念
(b)テキスト誘導画像合成と比較して非常に低多様性である。
本稿では,3次元最適化プロセスとスコア蒸留における一様時間ステップサンプリングの矛盾が,これらの制約の主な原因であることを示す。
この対立を解決するため, 単調な非増加関数を用いた時間ステップサンプリングを優先し, 3次元最適化プロセスと拡散モデルのサンプリングプロセスの整合性を示す。
大規模な実験により、私たちの単純な再設計によって、より高速なコンバージェンス、より良い品質、多様性で3Dコンテンツ作成が大幅に改善されることが示されています。
Text-to-image diffusion models pre-trained on billions of image-text pairs have recently enabled 3D content creation by optimizing a randomly initialized differentiable 3D representation with score distillation. However, the optimization process suffers slow convergence and the resultant 3D models often exhibit two limitations: (a) quality concerns such as missing attributes and distorted shape and texture; (b) extremely low diversity comparing to text-guided image synthesis. In this paper, we show that the conflict between the 3D optimization process and uniform timestep sampling in score distillation is the main reason for these limitations. To resolve this conflict, we propose to prioritize timestep sampling with monotonically non-increasing functions, which aligns the 3D optimization process with the sampling process of diffusion model. Extensive experiments show that our simple redesign significantly improves 3D content creation with faster convergence, better quality and diversity. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-06 |
# 整列ニューラルネットワークは逆向きに整列しているか?
Are aligned neural networks adversarially aligned? ( http://arxiv.org/abs/2306.15447v2 ) ライセンス: Link先を確認 | Nicholas Carlini, Milad Nasr, Christopher A. Choquette-Choo, Matthew Jagielski, Irena Gao, Anas Awadalla, Pang Wei Koh, Daphne Ippolito, Katherine Lee, Florian Tramer, Ludwig Schmidt, | (参考訳) 大規模な言語モデルは、クリエイターの目標、すなわち「有害で無害」に合わせるように調整されている。
これらのモデルはユーザからの質問に対して有効に応答するべきですが、害をもたらす可能性のある要求に応答することを拒否します。
しかし、敵のユーザは、アライメントの試みを回避できる入力を構築できる。
本研究は, 逆アライメントについて検討し, 最悪の事例(逆例)を構築した相手ユーザと対話する際に, モデルがどの程度整合したままなのかを問う。
これらの入力は、他の方法では禁止されない有害なコンテンツをモデルに放出させるように設計されている。
既存のNLPベースの最適化攻撃は、アライメントされたテキストモデルを確実に攻撃するには不十分であり、現在のNLPベースの攻撃が失敗したとしても、残酷な力で敵の入力を見つけることができる。
結果として、現在の攻撃の失敗は、アライメントされたテキストモデルが敵の入力の下で整列していることの証明として見るべきではない。
しかし、近年の大規模MLモデルのトレンドは、ユーザが生成したテキストに影響を与える画像を提供するマルチモーダルモデルである。
入力画像の対角摂動により、任意の不整合動作を誘導し、容易に攻撃できることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
Large language models are now tuned to align with the goals of their creators, namely to be "helpful and harmless." These models should respond helpfully to user questions, but refuse to answer requests that could cause harm. However, adversarial users can construct inputs which circumvent attempts at alignment. In this work, we study adversarial alignment, and ask to what extent these models remain aligned when interacting with an adversarial user who constructs worst-case inputs (adversarial examples). These inputs are designed to cause the model to emit harmful content that would otherwise be prohibited. We show that existing NLP-based optimization attacks are insufficiently powerful to reliably attack aligned text models: even when current NLP-based attacks fail, we can find adversarial inputs with brute force. As a result, the failure of current attacks should not be seen as proof that aligned text models remain aligned under adversarial inputs. However the recent trend in large-scale ML models is multimodal models that allow users to provide images that influence the text that is generated. We show these models can be easily attacked, i.e., induced to perform arbitrary un-aligned behavior through adversarial perturbation of the input image. We conjecture that improved NLP attacks may demonstrate this same level of adversarial control over text-only models. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-06 |
# BaBE: 遅延説明変数の推定によるフェアネスの向上
BaBE: Enhancing Fairness via Estimation of Latent Explaining Variables ( http://arxiv.org/abs/2307.02891v2 ) ライセンス: Link先を確認 | Ruta Binkyte, Daniele Gorla, Catuscia Palamidessi, | (参考訳) 両集団間の不公平な差別の問題を考察し,公平性を達成するための事前処理手法を提案する。
統計パリティのような補正法は、通常、精度が悪く、決定を下すべき機密属性Sと正則属性E(説明変数)との間に相関がある状況では、真に公平性を達成できない。
これらの欠点を克服するために、他の公平性の概念、特に条件付き統計パリティと平等機会が提案されている。
しかし、E はデータの中で直接観測できないことが多い、すなわち潜時変数である。
E を表す他の変数 Z も観測できるが、問題は Z が S に影響される可能性があり、したがって Z 自身はバイアスを受けることができることである。
この問題に対処するため、ベイズ推論と期待最大化法の組み合わせに基づくアプローチであるBaBE(Bayesian Bias Elimination)を提案し、各群に対して与えられたZに対してEの最も可能性の高い値を推定する。
合成および実データ集合の実験により、我々のアプローチは、高い精度だけでなく、良好な公平性を提供することを示す。
We consider the problem of unfair discrimination between two groups and propose a pre-processing method to achieve fairness. Corrective methods like statistical parity usually lead to bad accuracy and do not really achieve fairness in situations where there is a correlation between the sensitive attribute S and the legitimate attribute E (explanatory variable) that should determine the decision. To overcome these drawbacks, other notions of fairness have been proposed, in particular, conditional statistical parity and equal opportunity. However, E is often not directly observable in the data, i.e., it is a latent variable. We may observe some other variable Z representing E, but the problem is that Z may also be affected by S, hence Z itself can be biased. To deal with this problem, we propose BaBE (Bayesian Bias Elimination), an approach based on a combination of Bayes inference and the Expectation-Maximization method, to estimate the most likely value of E for a given Z for each group. The decision can then be based directly on the estimated E. We show, by experiments on synthetic and real data sets, that our approach provides a good level of fairness as well as high accuracy. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-06 |
# タレント分析のための人工知能技術に関する総合的調査
A Comprehensive Survey of Artificial Intelligence Techniques for Talent Analytics ( http://arxiv.org/abs/2307.03195v2 ) ライセンス: Link先を確認 | Chuan Qin, Le Zhang, Yihang Cheng, Rui Zha, Dazhong Shen, Qi Zhang, Xi Chen, Ying Sun, Chen Zhu, Hengshu Zhu, Hui Xiong, | (参考訳) 今日の競争力があり、急速に発展するビジネス環境では、組織は、定量的な方法でタレント関連の意思決定をする方法を再考する重要な時期です。
実際、最近のビッグデータと人工知能(AI)技術の発展は、人的資源管理に革命をもたらした。
大規模タレントとマネジメント関連のデータの提供により、ビジネスリーダは組織の振る舞いを理解し、データサイエンスの観点から具体的な知識を得るという、例外のない機会が得られます。
過去10年間で、人材分析は人間の資源管理に応用データ科学の有望な分野として現れ、AIコミュニティから大きな注目を集め、多くの研究努力を刺激している。
この目的のために,人的資源管理の分野で人材分析に使用されるAI技術について,最新の総合的な調査を行う。
具体的には、まず、人材分析の背景知識を提供し、関連するさまざまなデータを分類する。
その後、私たちは、人材管理、組織管理、労働市場分析という3つの異なるアプリケーション駆動シナリオに基づいて分類された、関連する研究活動の包括的分類を提供する。
結論として、AIによる人材分析の分野における今後の研究方向性に関するオープンな課題と可能性についてまとめる。
In today's competitive and fast-evolving business environment, it is a critical time for organizations to rethink how to make talent-related decisions in a quantitative manner. Indeed, the recent development of Big Data and Artificial Intelligence (AI) techniques have revolutionized human resource management. The availability of large-scale talent and management-related data provides unparalleled opportunities for business leaders to comprehend organizational behaviors and gain tangible knowledge from a data science perspective, which in turn delivers intelligence for real-time decision-making and effective talent management at work for their organizations. In the last decade, talent analytics has emerged as a promising field in applied data science for human resource management, garnering significant attention from AI communities and inspiring numerous research efforts. To this end, we present an up-to-date and comprehensive survey on AI technologies used for talent analytics in the field of human resource management. Specifically, we first provide the background knowledge of talent analytics and categorize various pertinent data. Subsequently, we offer a comprehensive taxonomy of relevant research efforts, categorized based on three distinct application-driven scenarios: talent management, organization management, and labor market analysis. In conclusion, we summarize the open challenges and potential prospects for future research directions in the domain of AI-driven talent analytics. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-06 |
# MDEとAIのブリッジ: AIソフトウェアシステムエンジニアリングにおけるドメイン特化言語とモデル駆動プラクティスの体系的レビュー
Bridging MDE and AI: A Systematic Review of Domain-Specific Languages and Model-Driven Practices in AI Software Systems Engineering ( http://arxiv.org/abs/2307.04599v2 ) ライセンス: Link先を確認 | Simon Raedler, Luca Berardinelli, Karolin Winter, Abbas Rahimi, Stefanie Rinderle-Ma, | (参考訳) 背景: 技術的システムは、様々な分野にわたるコンポーネントや機能によって、複雑さが増している。
モデル駆動エンジニアリング(MDE)は、モデルを重要なアーティファクトとして使用することで、この複雑さを管理するのに役立ちます。
MDEがサポートするドメイン特化言語(DSL)はモデリングを容易にする。
製品開発におけるデータ生成が増加するにつれて、AIアルゴリズムに対する需要が高まり、実装が困難になる可能性がある。
AIアルゴリズムとDSLとMDEを統合することで、このプロセスを合理化できる。
目的:本研究は、AIソフトウェアシステムのエンジニアリングを支援するために、DSLに依存する既存のモデル駆動アプローチを調査し、今後の研究をさらに強化し、現在の最先端技術を定義することを目的としている。
方法: システム文献レビュー(SLR)を行い, 主要な5つのデータベースから論文を収集し, 1335 の候補研究を行い, 最終的に18 の初等研究を継続した。
MDEの原則と実践の採用と、CRISP-DM方法論の段階に沿ったAI開発サポートのフェーズに関して、各研究が評価され、議論される。
結果:研究結果は、言語ワークベンチが言語開発におけるすべての側面を扱う上で最重要であり、AIの懸念に明示的に対処するDSLを定義するために活用されていることを示している。
AIに関する最も顕著な懸念は、AIアルゴリズムのトレーニングとモデリングである。
要件の学際的なコミュニケーションをサポートする初期のプロジェクトフェーズ、例えばCRISP-DMビジネス理解フェーズは、ほとんど反映されない。
結論:この研究によると、AIにMDEを使うことはまだ初期段階にあり、広く使われているツールやメソッドはひとつもない。
さらに、現在のアプローチでは、開発プロセス全体のサポートを提供するよりも、特定の開発ステージに注力する傾向があります。
Background:Technical systems are growing in complexity with more components and functions across various disciplines. Model-Driven Engineering (MDE) helps manage this complexity by using models as key artifacts. Domain-Specific Languages (DSL) supported by MDE facilitate modeling. As data generation in product development increases, there's a growing demand for AI algorithms, which can be challenging to implement. Integrating AI algorithms with DSL and MDE can streamline this process. Objective:This study aims to investigate the existing model-driven approaches relying on DSL in support of the engineering of AI software systems to sharpen future research further and define the current state of the art. Method:We conducted a Systemic Literature Review (SLR), collecting papers from five major databases resulting in 1335 candidate studies, eventually retaining 18 primary studies. Each primary study will be evaluated and discussed with respect to the adoption of MDE principles and practices and the phases of AI development support aligned with the stages of the CRISP-DM methodology. Results:The study's findings show that language workbenches are of paramount importance in dealing with all aspects of modeling language development and are leveraged to define DSL explicitly addressing AI concerns. The most prominent AI-related concerns are training and modeling of the AI algorithm, while minor emphasis is given to the time-consuming preparation of the data. Early project phases that support interdisciplinary communication of requirements, e.g., CRISP-DM Business Understanding phase, are rarely reflected. Conclusion:The study found that the use of MDE for AI is still in its early stages, and there is no single tool or method that is widely used. Additionally, current approaches tend to focus on specific stages of development rather than providing support for the entire development process. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-06 |
# エゴセントリックビデオにおける音声と視覚の対応による空間的特徴の学習
Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos ( http://arxiv.org/abs/2307.04760v4 ) ライセンス: Link先を確認 | Sagnik Majumder, Ziad Al-Halah, Kristen Grauman, | (参考訳) 本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法は、マスク付き自動符号化フレームワークを用いて、音声と視覚の相乗効果により、マスク付きバイノーラル(マルチチャンネル)音声を合成し、2つのモード間の有用な空間関係を学習する。
社会的シナリオにおける空間的理解を必要とする2つの下流映像課題(能動的話者検出と空間的音声復調)に、事前訓練した特徴を用いて対処する。
広範な実験を通じて、我々の機能は、両タスクにおける複数の最先端ベースラインよりも、バイノーラルオーディオ、EgoCom、EasyComを提供する2つの挑戦的なエゴセントリックなビデオデータセットにおいて、十分に汎用的であることを示す。
プロジェクト: http://vision.cs.utexas.edu/projects/ego_av_corr.com
We propose a self-supervised method for learning representations based on spatial audio-visual correspondences in egocentric videos. Our method uses a masked auto-encoding framework to synthesize masked binaural (multi-channel) audio through the synergy of audio and vision, thereby learning useful spatial relationships between the two modalities. We use our pretrained features to tackle two downstream video tasks requiring spatial understanding in social scenarios: active speaker detection and spatial audio denoising. Through extensive experiments, we show that our features are generic enough to improve over multiple state-of-the-art baselines on both tasks on two challenging egocentric video datasets that offer binaural audio, EgoCom and EasyCom. Project: http://vision.cs.utexas.edu/projects/ego_av_corr. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-06 |
# 非ガウスフェルミオン回路の古典シミュレーション
Classical simulation of non-Gaussian fermionic circuits ( http://arxiv.org/abs/2307.12912v3 ) ライセンス: Link先を確認 | Beatriz Dias, Robert Koenig, | (参考訳) 非ガウス初期状態に適用されたフェルミオン線形光学演算を古典的にシミュレートする効率的なアルゴリズムを提案する。
ガジェットの構成により、これは非ガウス演算を持つフェルミオン線形光学のアルゴリズムを提供する。
この問題は、クリフォード回路を非安定化器初期状態でシミュレートするのと類似していると主張する: 後者の問題のアルゴリズムは直ちにフェルミオン設定に変換する。
我々の構成は、ガウス状態の重ね合わせにおける相対位相を効率的に追跡できる共分散行列形式の拡張に基づいている。
このアルゴリズムは、フェルミオン数、所望の精度、初期状態の非ガウス性(英語版)の度合いを計測する特定の量において多項式複雑性を持つシミュレーションアルゴリズムを生成する。
そのような量であるフェルミオンガウスの程度を研究し、いわゆるフェルミオンガウスの忠実度がテンソル積に乗算可能であることを示す。
正のパリティを持つ4つのフェルミオンからなる2つの任意の純状態のテンソル積に対して、この性質を確立する。
We propose efficient algorithms for classically simulating fermionic linear optics operations applied to non-Gaussian initial states. By gadget constructions, this provides algorithms for fermionic linear optics with non-Gaussian operations. We argue that this problem is analogous to that of simulating Clifford circuits with non-stabilizer initial states: Algorithms for the latter problem immediately translate to the fermionic setting. Our construction is based on an extension of the covariance matrix formalism which permits to efficiently track relative phases in superpositions of Gaussian states. It yields simulation algorithms with polynomial complexity in the number of fermions, the desired accuracy, and certain quantities capturing the degree of non-Gaussianity of the initial state. We study one such quantity, the fermionic Gaussian extent, and show that it is multiplicative on tensor products when the so-called fermionic Gaussian fidelity is. We establish this property for the tensor product of two arbitrary pure states of four fermions with positive parity. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-06 |
# ExeDec: ニューラルプログラム合成における構成一般化のための実行分解
ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis ( http://arxiv.org/abs/2307.13883v2 ) ライセンス: Link先を確認 | Kensen Shi, Joey Hong, Yinlin Deng, Pengcheng Yin, Manzil Zaheer, Charles Sutton, | (参考訳) プログラムを書く際には、より小さく、より親しみやすいサブタスクに分解することで、新しい複雑なタスクに取り組むことができる。
ニューラルプログラム合成法が類似する能力を持つかどうかを測定することは難しいが、それらが構成的に一般化されるかどうか、つまり、単純なサブタスクで訓練されたモデルが、さらに複雑なタスクを解くことができるかどうかを測定することができる。
本稿では、プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付け、ロバストフィルとディープコーダの2つの一般的なデータセットに対する一般化タスクを作成するために使用されるメタベンチマークを作成する。
次に,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラムの実行によって段階的に通知される問題を解く,新しい分解型合成戦略である。
ゼロからトレーニングされたTransformerモデルを使用する場合、ExeDecは合成性能が向上し、ベースラインに比べて構成一般化能力が大幅に向上した。
最後に、我々のベンチマークを用いて、LCMが数ショットでプログラミング・バイ・エグゼクティブ・バイ・エグゼクティブの実施に苦慮していることを示すが、ExeDecスタイルのプロンプトアプローチは、一般化能力と全体的なパフォーマンスを改善することができる。
When writing programs, people have the ability to tackle a new complex task by decomposing it into smaller and more familiar subtasks. While it is difficult to measure whether neural program synthesis methods have similar capabilities, we can measure whether they compositionally generalize, that is, whether a model that has been trained on the simpler subtasks is subsequently able to solve more complex tasks. In this paper, we characterize several different forms of compositional generalization that are desirable in program synthesis, forming a meta-benchmark which we use to create generalization tasks for two popular datasets, RobustFill and DeepCoder. We then propose ExeDec, a novel decomposition-based synthesis strategy that predicts execution subgoals to solve problems step-by-step informed by program execution at each step. When used with Transformer models trained from scratch, ExeDec has better synthesis performance and greatly improved compositional generalization ability compared to baselines. Finally, we use our benchmarks to demonstrate that LLMs struggle to compositionally generalize when asked to do programming-by-example in a few-shot setting, but an ExeDec-style prompting approach can improve the generalization ability and overall performance. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-06 |
# 視覚変換器と説明可能なAIを利用したCoVid-19検出
CoVid-19 Detection leveraging Vision Transformers and Explainable AI ( http://arxiv.org/abs/2307.16033v2 ) ライセンス: Link先を確認 | Pangoth Santhosh Kumar, Kundrapu Supriya, Mallikharjuna Rao K, Taraka Satya Krishna Teja Malisetti, | (参考訳) 肺疾患は世界中の多くの地域で一般的な健康問題である。
死亡原因のトップ30のうち5つに責任があるため、世界中の人々の健康と生活の質に重大なリスクがある。
その中には、新型コロナウイルス19号、肺炎、結核などが含まれる。
早期に肺疾患を診断することが重要である。
この目的のために、機械学習や画像処理など様々なモデルが開発されている。
早期の症状が診断されるほど、患者の完全な回復と長期生存の可能性が高まる。
深層学習アルゴリズムのおかげで、医療画像に基づく肺疾患の自律的、迅速、正確な同定が期待できる。
肺疾患予測の目標には、畳み込みニューラルネットワーク(CNN)、バニラニューラルネットワーク、視覚幾何学グループベースネットワーク(VGG)、カプセルネットワークなど、さまざまなディープラーニング戦略が使用されている。
標準CNNは、回転、傾いた、その他の異常な画像方向を扱う場合、性能が劣る。
その結果,本研究の範囲内では,肺疾患の診断のための視覚変換器によるアプローチ・ツー・エンドの枠組みが提案されている。
アーキテクチャでは、データ拡張、提案されたモデルのトレーニング、モデルの評価がすべて含まれています。
肺炎,コビッド19などの肺疾患を検出する目的で,コビッド19ラジオグラフィーデータベースなどのデータセットを用いて,CCT(Compact Convolution Transformers)モデルを試験・評価した。
このモデルは、Covid 19 Radiography Databaseのトレーニングと検証の両方の目的のために、より良い精度を達成した。
Lung disease is a common health problem in many parts of the world. It is a significant risk to people health and quality of life all across the globe since it is responsible for five of the top thirty leading causes of death. Among them are COVID 19, pneumonia, and tuberculosis, to name just a few. It is critical to diagnose lung diseases in their early stages. Several different models including machine learning and image processing have been developed for this purpose. The earlier a condition is diagnosed, the better the patient chances of making a full recovery and surviving into the long term. Thanks to deep learning algorithms, there is significant promise for the autonomous, rapid, and accurate identification of lung diseases based on medical imaging. Several different deep learning strategies, including convolutional neural networks (CNN), vanilla neural networks, visual geometry group based networks (VGG), and capsule networks , are used for the goal of making lung disease forecasts. The standard CNN has a poor performance when dealing with rotated, tilted, or other aberrant picture orientations. As a result of this, within the scope of this study, we have suggested a vision transformer based approach end to end framework for the diagnosis of lung disorders. In the architecture, data augmentation, training of the suggested models, and evaluation of the models are all included. For the purpose of detecting lung diseases such as pneumonia, Covid 19, lung opacity, and others, a specialised Compact Convolution Transformers (CCT) model have been tested and evaluated on datasets such as the Covid 19 Radiography Database. The model has achieved a better accuracy for both its training and validation purposes on the Covid 19 Radiography Database. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-06 |
# GPTScan: GPTとプログラム分析を組み合わせたスマートコントラクトにおける論理脆弱性の検出
GPTScan: Detecting Logic Vulnerabilities in Smart Contracts by Combining GPT with Program Analysis ( http://arxiv.org/abs/2308.03314v3 ) ライセンス: Link先を確認 | Yuqiang Sun, Daoyuan Wu, Yue Xue, Han Liu, Haijun Wang, Zhengzi Xu, Xiaofei Xie, Yang Liu, | (参考訳) スマートコントラクトはさまざまな脆弱性を抱える傾向にあり、時間の経過とともに大きな損失をもたらします。
現在の分析ツールは、主に、修正されたコントロールや、再エンタテインメントや整数オーバーフローといったデータフローパターンによる脆弱性をターゲットにしている。
しかし、Web3のセキュリティバグに関する最近の調査では、ドメイン固有のプロパティ記述やチェックの欠如により、これらのバグの約80%が既存のツールで監査できないことが明らかになった。
LLM(Large Language Models)の最近の進歩を考えると、GPT(Generative Pre-training Transformer)がロジックの脆弱性の検出にどのように役立つかを検討する価値がある。
本稿では,GPTと静的解析を組み合わせたGPTScanを提案する。
GPTの事前訓練された知識によって制限される脆弱性を識別するためにのみGPTに頼るのではなく、汎用的なコード理解ツールとしてGPTを利用する。
各ロジックの脆弱性タイプをシナリオとプロパティに分割することで、GPTScanは候補の脆弱性とGPTをマッチさせる。
GPTScanはさらに、GPTにキー変数とステートメントをインテリジェントに認識するよう指示し、静的確認によって検証する。
約400のコントラクトプロジェクトと3K Solidityファイルを持つ多様なデータセットの評価は、GPTScanがトークンコントラクトの高精度(90%以上)と、Web3Bugsのような大規模プロジェクトの許容精度(57.14%)を達成することを示している。
人間の監査官が見逃した9つの新たな脆弱性を含む70%以上のリコールで、地上の真実的ロジックの脆弱性を効果的に検出する。
GPTScanは高速で費用対効果があり、平均14.39秒と0.01 USDで1000行のSolidityコードをスキャンする。
さらに、静的な確認はGPTSが偽陽性の3分の2を減らすのに役立つ。
Smart contracts are prone to various vulnerabilities, leading to substantial financial losses over time. Current analysis tools mainly target vulnerabilities with fixed control or data-flow patterns, such as re-entrancy and integer overflow. However, a recent study on Web3 security bugs revealed that about 80% of these bugs cannot be audited by existing tools due to the lack of domain-specific property description and checking. Given recent advances in Large Language Models (LLMs), it is worth exploring how Generative Pre-training Transformer (GPT) could aid in detecting logicc vulnerabilities. In this paper, we propose GPTScan, the first tool combining GPT with static analysis for smart contract logic vulnerability detection. Instead of relying solely on GPT to identify vulnerabilities, which can lead to high false positives and is limited by GPT's pre-trained knowledge, we utilize GPT as a versatile code understanding tool. By breaking down each logic vulnerability type into scenarios and properties, GPTScan matches candidate vulnerabilities with GPT. To enhance accuracy, GPTScan further instructs GPT to intelligently recognize key variables and statements, which are then validated by static confirmation. Evaluation on diverse datasets with around 400 contract projects and 3K Solidity files shows that GPTScan achieves high precision (over 90%) for token contracts and acceptable precision (57.14%) for large projects like Web3Bugs. It effectively detects ground-truth logic vulnerabilities with a recall of over 70%, including 9 new vulnerabilities missed by human auditors. GPTScan is fast and cost-effective, taking an average of 14.39 seconds and 0.01 USD to scan per thousand lines of Solidity code. Moreover, static confirmation helps GPTScan reduce two-thirds of false positives. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-06 |
# GPLaSDI:Deep Autoencoderによるガウス過程に基づく解釈可能な遅延空間ダイナミクスの同定
GPLaSDI: Gaussian Process-based Interpretable Latent Space Dynamics Identification through Deep Autoencoder ( http://arxiv.org/abs/2308.05882v2 ) ライセンス: Link先を確認 | Christophe Bonneville, Youngsoo Choi, Debojyoti Ghosh, Jonathan L. Belof, | (参考訳) 偏微分方程式(PDE)の数値解法は困難であり、計算コストも高い。
これにより、精度は高いがフルオーダーモデル(FOM)よりも高速な低階モデル(ROM)が開発された。
近年、機械学習の進歩により、LaSDI(Latent Space Dynamics Identification)のような非線形射影法が作成できるようになった。
LaSDIはオートエンコーダを用いて全階PDEソリューションを潜在空間にマッピングし、潜在空間力学を管理するODEのシステムを学ぶ。
縮小潜時空間におけるODEシステムの補間と解法により、予測潜時空間力学をデコーダに供給することにより、高速かつ正確なROM予測を行うことができる。
本稿では,遅延空間ODE補間のためのガウス過程(GP)に依存する新しいLaSDIベースのフレームワークであるGPLaSDIを紹介する。
GPを使うことには2つの大きな利点がある。
まず、ROM予測に対する不確実性の定量化を可能にする。
第二に、この予測の不確実性を活用することで、追加のトレーニングデータポイントの厳選による効率的な適応トレーニングが可能になる。
このアプローチは、基礎となるPDEの事前知識を必要としない。
したがって、GPLaSDI は本質的に非侵入的であり、既知の PDE やその残余のない問題に適用することができる。
本稿では,バーガース方程式,プラズマ物理学におけるブラソフ方程式,熱バブル問題に対する我々のアプローチの有効性を実証する。
提案手法は, 最大7%の相対誤差で200~10万倍の高速化を実現する。
Numerically solving partial differential equations (PDEs) can be challenging and computationally expensive. This has led to the development of reduced-order models (ROMs) that are accurate but faster than full order models (FOMs). Recently, machine learning advances have enabled the creation of non-linear projection methods, such as Latent Space Dynamics Identification (LaSDI). LaSDI maps full-order PDE solutions to a latent space using autoencoders and learns the system of ODEs governing the latent space dynamics. By interpolating and solving the ODE system in the reduced latent space, fast and accurate ROM predictions can be made by feeding the predicted latent space dynamics into the decoder. In this paper, we introduce GPLaSDI, a novel LaSDI-based framework that relies on Gaussian process (GP) for latent space ODE interpolations. Using GPs offers two significant advantages. First, it enables the quantification of uncertainty over the ROM predictions. Second, leveraging this prediction uncertainty allows for efficient adaptive training through a greedy selection of additional training data points. This approach does not require prior knowledge of the underlying PDEs. Consequently, GPLaSDI is inherently non-intrusive and can be applied to problems without a known PDE or its residual. We demonstrate the effectiveness of our approach on the Burgers equation, Vlasov equation for plasma physics, and a rising thermal bubble problem. Our proposed method achieves between 200 and 100,000 times speed-up, with up to 7% relative error. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-06 |
# 時を経るロバスト性:大言語モデルの経時的バージョンに対する敵例の効果を理解する
Robustness Over Time: Understanding Adversarial Examples' Effectiveness on Longitudinal Versions of Large Language Models ( http://arxiv.org/abs/2308.07847v2 ) ライセンス: Link先を確認 | Yugeng Liu, Tianshuo Cong, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang, | (参考訳) 大きな言語モデル(LLM)は、ユーザエクスペリエンスを改善するために継続的に更新される。
しかしながら、LLMのセキュリティと安全性に関する以前の研究は、主にそれらの特定のバージョンに焦点を当てており、連続したLLM更新の影響を見越している。
これにより、これらの異なるバージョンのLLMにおけるリスクの全体的理解の必要性が生じる。
このギャップを埋めるために,本論文では,GPT-3.5,GPT-4,LLaMAの3つの顕著なLCMの敵対的堅牢性(特に誤分類,脱獄,幻覚)について,縦断的研究を行った。
以上の結果から,LSMの更新は予想される敵の強靭性を常に改善しないことが明らかとなった。
例えば、GPT-3.5の後期バージョンでは、脱獄に対するレジリエンスが向上したにもかかわらず、誤分類と幻覚に関する劣化が見られ、GPT-4は全体として(徐々に)高い堅牢性を示している。
さらに、より大きなモデルサイズは必ずしもロバスト性を改善するとは限らない。
特に、より大きなLLaMAモデルは、研究された3つの側面すべてにわたって改善されたロバスト性を均一に示さない。
重要な点として、大幅な堅牢性の改善を欠いたマイナーアップデートは、解決するよりも既存の問題を悪化させる可能性がある。
LLMの堅牢性に関するより微妙な理解を提供することによって、当社の研究が、モデルアップデートをナビゲートする開発者やユーザに対して、LLMベンダのモデル開発と使用に関する情報決定に、貴重な洞察を得られることを願っています。
Large Language Models (LLMs) undergo continuous updates to improve user experience. However, prior research on the security and safety implications of LLMs has primarily focused on their specific versions, overlooking the impact of successive LLM updates. This prompts the need for a holistic understanding of the risks in these different versions of LLMs. To fill this gap, in this paper, we conduct a longitudinal study to examine the adversarial robustness -- specifically misclassification, jailbreak, and hallucination -- of three prominent LLMs: GPT-3.5, GPT-4, and LLaMA. Our study reveals that LLM updates do not consistently improve adversarial robustness as expected. For instance, a later version of GPT-3.5 degrades regarding misclassification and hallucination despite its improved resilience against jailbreaks, and GPT-4 demonstrates (incrementally) higher robustness overall. Moreover, larger model sizes do not necessarily yield improved robustness. Specifically, larger LLaMA models do not uniformly exhibit improved robustness across all three aspects studied. Importantly, minor updates lacking substantial robustness improvements can exacerbate existing issues rather than resolve them. By providing a more nuanced understanding of LLM robustness over time, we hope our study can offer valuable insights for developers and users navigating model updates and informed decisions in model development and usage for LLM vendors. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-06 |
# SCULPT:Pose-dependent Clothed and Textured Human Meshesの形状決定型アンペアラーニング
SCULPT: Shape-Conditioned Unpaired Learning of Pose-dependent Clothed and Textured Human Meshes ( http://arxiv.org/abs/2308.10638v2 ) ライセンス: Link先を確認 | Soubhik Sanyal, Partha Ghosh, Jinlong Yang, Michael J. Black, Justus Thies, Timo Bolkart, | (参考訳) SCULPTは,人間の布とテクスチャを用いた3次元メッシュの新規な3次元生成モデルである。
具体的には, 被服体の形状と外観分布を学習するディープニューラルネットワークを考案する。
このようなモデルのトレーニングは、人間のテクスチャ化された3Dメッシュのデータセットのサイズとアクセシビリティが制限されているため、難しい。
私たちのキーとなる観察は、CAPEのような中規模の3Dスキャンデータセットと、衣服を被った人間の大規模な2D画像データセットがあり、複数の外観を1つの幾何学にマッピングできるということです。
本研究では,2つのデータモダリティから効果的に学習するために,ポーズ依存型布地とテクスチャ付き人的メッシュの学習手順を提案する。
具体的には、3Dスキャンデータからポーズ依存幾何学空間を学習する。
我々はこれをSMPLモデルによる頂点変位として表現する。
次に、2次元画像データを用いて幾何学条件付きテクスチャジェネレータを教師なしで訓練する。
我々は、学習した幾何学モデルの中間活性化を利用してテクスチャジェネレータを条件付けする。
ポーズと衣服タイプの絡み合いを緩和し、ポーズと衣服の外観を緩和するため、テクスチャとジオメトリージェネレータの両方に、テクスチャジェネレータ用の衣服タイプやテクスチャジェネレータ用の衣料色などの属性ラベルを付ける。
視覚的質問応答モデルBLIPとCLIPに基づいて2次元画像の条件ラベルを自動生成する。
本手法をSCULPTデータセット上で検証し,布を被った人体に対する最先端の3D生成モデルと比較した。
私たちのコードとデータはhttps://sculpt.is.tue.mpg.de.comで参照できます。
We present SCULPT, a novel 3D generative model for clothed and textured 3D meshes of humans. Specifically, we devise a deep neural network that learns to represent the geometry and appearance distribution of clothed human bodies. Training such a model is challenging, as datasets of textured 3D meshes for humans are limited in size and accessibility. Our key observation is that there exist medium-sized 3D scan datasets like CAPE, as well as large-scale 2D image datasets of clothed humans and multiple appearances can be mapped to a single geometry. To effectively learn from the two data modalities, we propose an unpaired learning procedure for pose-dependent clothed and textured human meshes. Specifically, we learn a pose-dependent geometry space from 3D scan data. We represent this as per vertex displacements w.r.t. the SMPL model. Next, we train a geometry conditioned texture generator in an unsupervised way using the 2D image data. We use intermediate activations of the learned geometry model to condition our texture generator. To alleviate entanglement between pose and clothing type, and pose and clothing appearance, we condition both the texture and geometry generators with attribute labels such as clothing types for the geometry, and clothing colors for the texture generator. We automatically generated these conditioning labels for the 2D images based on the visual question answering model BLIP and CLIP. We validate our method on the SCULPT dataset, and compare to state-of-the-art 3D generative models for clothed human bodies. Our code and data can be found at https://sculpt.is.tue.mpg.de. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-06 |
# RewardsだけでなくConstraintsも:レッグロボットのロコモーションへの応用
Not Only Rewards But Also Constraints: Applications on Legged Robot Locomotion ( http://arxiv.org/abs/2308.12517v3 ) ライセンス: Link先を確認 | Yunho Kim, Hyunsik Oh, Jeonghyun Lee, Jinhyeok Choi, Gwanghyeon Ji, Moonkyu Jung, Donghoon Youm, Jemin Hwangbo, | (参考訳) ニューラルネットワークを使ってコントローラを設計し、モデルなしの強化学習でそれを訓練することで、複雑なロボットシステムにおいて印象的な制御性能を示している。
しかし、これらの優れた動作スタイルと高いタスク性能を持つコントローラは、多数の報酬項を設計し、適切な報酬係数を決定するのに非常に手間と時間を要する、広範囲な報酬工学によって開発されている。
本研究では,複雑なロボットシステムのためのニューラルネットワークコントローラをトレーニングするための,報酬と制約の両方からなる新しい強化学習フレームワークを提案する。
エンジニアが制約に対する意図を適切に反映し、最小の計算オーバーヘッドで処理できるように、2つの制約タイプと効率的なポリシー最適化アルゴリズムが提案されている。
学習フレームワークは、異なる形態と物理的特性を持つ複数の脚を持つロボットに対して、困難な地形を横断する移動制御器の訓練に応用される。
大規模なシミュレーションと実世界の実験により、単一の報酬係数だけをチューニングすることで、パフォーマンスコントローラをかなり少ない報酬工学で訓練できることが示される。
さらに、制約の解釈可能性と一般化性のおかげで、より単純で直感的なエンジニアリングプロセスが利用できる。
要約ビデオはhttps://youtu.be/KAlm3yskhvM.comで公開されている。
Several earlier studies have shown impressive control performance in complex robotic systems by designing the controller using a neural network and training it with model-free reinforcement learning. However, these outstanding controllers with natural motion style and high task performance are developed through extensive reward engineering, which is a highly laborious and time-consuming process of designing numerous reward terms and determining suitable reward coefficients. In this work, we propose a novel reinforcement learning framework for training neural network controllers for complex robotic systems consisting of both rewards and constraints. To let the engineers appropriately reflect their intent to constraints and handle them with minimal computation overhead, two constraint types and an efficient policy optimization algorithm are suggested. The learning framework is applied to train locomotion controllers for several legged robots with different morphology and physical attributes to traverse challenging terrains. Extensive simulation and real-world experiments demonstrate that performant controllers can be trained with significantly less reward engineering, by tuning only a single reward coefficient. Furthermore, a more straightforward and intuitive engineering process can be utilized, thanks to the interpretability and generalizability of constraints. The summary video is available at https://youtu.be/KAlm3yskhvM. | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-06 |
# マルチコピー強化学習エージェント
Multicopy Reinforcement Learning Agents ( http://arxiv.org/abs/2309.10908v2 ) ライセンス: Link先を確認 | Alicia P. Wolfe, Oliver Diamond, Brigitte Goeler-Slough, Remi Feuerman, Magdalena Kisielinska, Victoria Manfredi, | (参考訳) 本稿では,エージェントが同一のコピーを複数作成して,エージェントのタスクをより効率的に行うという,新しいタイプのマルチエージェント問題について検討する。
この戦略は、環境が騒々しく、タスクが1つのエージェントコピーで達成できない場合、パフォーマンスを向上させる。
本稿では,値関数の構造を活かしたマルチコピー問題の学習アルゴリズムを提案し,コピーを追加する際の利点とコストのバランスを効果的に学習する。
This paper examines a novel type of multi-agent problem, in which an agent makes multiple identical copies of itself in order to achieve a single agent task better or more efficiently. This strategy improves performance if the environment is noisy and the task is sometimes unachievable by a single agent copy. We propose a learning algorithm for this multicopy problem which takes advantage of the structure of the value function to efficiently learn how to balance the advantages and costs of adding additional copies. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-06 |
# 環境変化における対物フェアネス対応ドメインの一般化に向けて
Towards Counterfactual Fairness-aware Domain Generalization in Changing Environments ( http://arxiv.org/abs/2309.13005v2 ) ライセンス: Link先を確認 | Yujie Lin, Chen Zhao, Minglai Shao, Baoluo Meng, Xujiang Zhao, Haifeng Chen, | (参考訳) 機械学習において、ドメインシフトが一般的な課題であると認識され、アウト・オブ・ディストリビューション(OOD)データを扱う際に、機械学習システムの性能を高めるために、さまざまなドメイン一般化(DG)技術が開発されている。
さらに、実世界のシナリオでは、データ分散はシーケンシャルなドメインのシーケンス間で徐々に変化することができる。
現在の方法論は、これらの新しい領域におけるモデルの有効性の改善に重点を置いているが、学習プロセス全体を通して公平性の問題を見落としていることが多い。
そこで本研究では,CDSAE(Sequential Autoencoder)を用いたファクトファクトフェアネス・アウェア領域の一般化手法を提案する。
このアプローチは, 環境情報やセンシティブな属性を, 分類特徴の組込み表現から効果的に分離する。
この同時分離は、多様かつ不慣れな領域におけるモデルの一般化を大幅に改善するだけでなく、不公平な分類に関わる課題に効果的に対処する。
私たちの戦略は、これらの二重問題に取り組むための因果推論の原則に根ざしています。
セマンティック情報, センシティブな属性, 環境要因の複雑な関係を明らかにするため, 外来性不確実性因子を4つの潜伏変数に分類した。
1)敏感な属性に影響された意味情報
2 センシティブな属性による影響を受けない意味情報
3)敏感な属性に影響された環境基準
4) 環境基準は, 感度特性の影響を受けない。
公平な規則化を取り入れることで、分類目的のセマンティック情報のみを活用できる。
合成および実世界のデータセットに対する実証的検証は、我々のアプローチの有効性を裏付け、改善された精度レベルを示しながら、継続的なドメインの進化する景観における公正性の維持を確実にする。
Recognizing the prevalence of domain shift as a common challenge in machine learning, various domain generalization (DG) techniques have been developed to enhance the performance of machine learning systems when dealing with out-of-distribution (OOD) data. Furthermore, in real-world scenarios, data distributions can gradually change across a sequence of sequential domains. While current methodologies primarily focus on improving model effectiveness within these new domains, they often overlook fairness issues throughout the learning process. In response, we introduce an innovative framework called Counterfactual Fairness-Aware Domain Generalization with Sequential Autoencoder (CDSAE). This approach effectively separates environmental information and sensitive attributes from the embedded representation of classification features. This concurrent separation not only greatly improves model generalization across diverse and unfamiliar domains but also effectively addresses challenges related to unfair classification. Our strategy is rooted in the principles of causal inference to tackle these dual issues. To examine the intricate relationship between semantic information, sensitive attributes, and environmental cues, we systematically categorize exogenous uncertainty factors into four latent variables: 1) semantic information influenced by sensitive attributes, 2) semantic information unaffected by sensitive attributes, 3) environmental cues influenced by sensitive attributes, and 4) environmental cues unaffected by sensitive attributes. By incorporating fairness regularization, we exclusively employ semantic information for classification purposes. Empirical validation on synthetic and real-world datasets substantiates the effectiveness of our approach, demonstrating improved accuracy levels while ensuring the preservation of fairness in the evolving landscape of continuous domains. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-06 |
# エンド・ツー・エンド深部強化学習を用いたクアドロタースウォームの衝突回避とナビゲーション
Collision Avoidance and Navigation for a Quadrotor Swarm Using End-to-end Deep Reinforcement Learning ( http://arxiv.org/abs/2309.13285v2 ) ライセンス: Link先を確認 | Zhehui Huang, Zhaojing Yang, Rahul Krupani, Baskın Şenbaşlar, Sumeet Batra, Gaurav S. Sukhatme, | (参考訳) 四重項制御のためのエンドツーエンドの深層強化学習(DRL)は、デプロイの容易さ、タスクの一般化、リアルタイム実行能力など、多くのメリットを約束する。
従来のDRLベースの手法では、学習したコントローラを単一四角形または四角形にデプロイする能力が、シンプルで障害物のない環境で操作できることが示されていた。
しかし、障害が加わったことにより、可能な相互作用の数が指数関数的に増加し、RLポリシーのトレーニングが困難になる。
本研究では,障害物のある環境下での四元子群を制御するために,エンドツーエンドのDRL手法を提案する。
筆者らは, 障害物の多い環境下での性能向上を図るために, 衝突エピソードのカリキュラムと再生バッファを提供する。
我々は、隣接するロボットと障害物の相互作用に対応するための注意機構を実装し、このメカニズムを、厳密な計算制約のあるハードウェア上に展開するスウォーム行動ポリシーに関する最初の成功例を示す。
我々の研究は、ゼロショットを実四重項に転送するエンドツーエンドDRLで訓練された近隣回避および障害物回避制御ポリシーを学習する可能性を示す最初の研究である。
提案手法は,シミュレーションで80%の障害物密度を持つ32のロボットと,物理展開で20%の障害物密度を持つ8のロボットに拡張する。
ビデオデモはプロジェクトのWebサイト(https://sites.google.com/view/obst-avoid-swarm-rl)で公開されている。
End-to-end deep reinforcement learning (DRL) for quadrotor control promises many benefits -- easy deployment, task generalization and real-time execution capability. Prior end-to-end DRL-based methods have showcased the ability to deploy learned controllers onto single quadrotors or quadrotor teams maneuvering in simple, obstacle-free environments. However, the addition of obstacles increases the number of possible interactions exponentially, thereby increasing the difficulty of training RL policies. In this work, we propose an end-to-end DRL approach to control quadrotor swarms in environments with obstacles. We provide our agents a curriculum and a replay buffer of the clipped collision episodes to improve performance in obstacle-rich environments. We implement an attention mechanism to attend to the neighbor robots and obstacle interactions - the first successful demonstration of this mechanism on policies for swarm behavior deployed on severely compute-constrained hardware. Our work is the first work that demonstrates the possibility of learning neighbor-avoiding and obstacle-avoiding control policies trained with end-to-end DRL that transfers zero-shot to real quadrotors. Our approach scales to 32 robots with 80% obstacle density in simulation and 8 robots with 20% obstacle density in physical deployment. Video demonstrations are available on the project website at: https://sites.google.com/view/obst-avoid-swarm-rl. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-06 |
# 因果的基礎モデルに向けて:因果的推論と注意の二重性について
Towards Causal Foundation Model: on Duality between Causal Inference and Attention ( http://arxiv.org/abs/2310.00809v2 ) ライセンス: Link先を確認 | Jiaqi Zhang, Joel Jennings, Agrin Hilmkil, Nick Pawlowski, Cheng Zhang, Chao Ma, | (参考訳) ファンデーションモデルは、機械学習の風景に変化をもたらし、多様なタスクにまたがる人間レベルのインテリジェンスの火花を誇示している。
しかし、因果推論のような複雑なタスクにおいてギャップは持続し、主に複雑な推論ステップと高い数値的精度の要求に関連する課題が原因である。
本研究では,複雑なタスクに対する因果認識基盤モデル構築に向けた第一歩を踏み出す。
提案手法は,複数のラベルのないデータセットを用いて自己教師付き因果学習を行い,その結果,未知のタスクに対するゼロショット因果推論を新しいデータで実現する,Causal Inference with Attention (CInA) と呼ばれる,理論上は健全な手法を提案する。
これは、最適共変量バランスと自己アテンションの原始的双対関係を実証し、訓練されたトランスフォーマー型アーキテクチャの最終層を通したゼロショット因果推論を容易にする理論結果に基づいている。
我々は,我々のアプローチであるCInAが,従来のデータセットごとの因果推論手法をマッチングあるいは超越して,配布外のデータセットやさまざまな実世界のデータセットに効果的に一般化できることを実証的に実証した。
Foundation models have brought changes to the landscape of machine learning, demonstrating sparks of human-level intelligence across a diverse array of tasks. However, a gap persists in complex tasks such as causal inference, primarily due to challenges associated with intricate reasoning steps and high numerical precision requirements. In this work, we take a first step towards building causally-aware foundation models for complex tasks. We propose a novel, theoretically sound method called Causal Inference with Attention (CInA), which utilizes multiple unlabeled datasets to perform self-supervised causal learning, and subsequently enables zero-shot causal inference on unseen tasks with new data. This is based on our theoretical results that demonstrate the primal-dual connection between optimal covariate balancing and self-attention, facilitating zero-shot causal inference through the final layer of a trained transformer-type architecture. We demonstrate empirically that our approach CInA effectively generalizes to out-of-distribution datasets and various real-world datasets, matching or even surpassing traditional per-dataset causal inference methodologies. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-06 |
# RA-DIT:検索機能強化デュアルインストラクションチューニング
RA-DIT: Retrieval-Augmented Dual Instruction Tuning ( http://arxiv.org/abs/2310.01352v4 ) ライセンス: Link先を確認 | Xi Victoria Lin, Xilun Chen, Mingda Chen, Weijia Shi, Maria Lomeli, Rich James, Pedro Rodriguez, Jacob Kahn, Gergely Szilvasy, Mike Lewis, Luke Zettlemoyer, Scott Yih, | (参考訳) Retrieval-augmented Language Model (RALMs)は、外部データストアから長いテールと最新の知識にアクセスすることでパフォーマンスを向上させるが、構築は困難である。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,LLMに検索機能を持たせることで第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning(RA-DIT)を紹介する。
提案手法は,(1)事前学習したLMを更新して,検索した情報をよりよく活用する方法,(2)検索者がより関連性の高い結果を返す方法,の2つのステップで動作する。
知識利用と文脈認識の両方を必要とするタスクを微調整することで、各段階が大きなパフォーマンス向上をもたらし、両者の使用によってさらなる利益がもたらされることを示す。
我々の最良のモデルであるRA-DIT 65Bは、知識集約型のゼロショットと少数ショットの学習ベンチマークで最先端のパフォーマンスを達成し、0ショット設定では最大8.9%、平均5ショット設定では+1.4%という、既存のコンテキスト内RALMアプローチを著しく上回っている。
Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-06 |
# 定常性を超えて:確率的ソフトマックスポリシー勾配法の収束解析
Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods ( http://arxiv.org/abs/2310.02671v2 ) ライセンス: Link先を確認 | Sara Klein, Simon Weissmann, Leif Döring, | (参考訳) Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。
有限時間地平線では、そのような問題は最適停止や特定のサプライチェーン問題だけでなく、大規模言語モデルの訓練にも関係している。
無限地平線 MDP の最適ポリシーは定常的でないのとは対照的に、すべてのエポックに対してポリシーを学ばなければならない。
実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
表型ソフトマックスパラメトリションでは、正規化のない正確な勾配設定とサンプル勾配設定の両方において、グローバル最適への同時および動的政策勾配の収束解析を行う。
動的ポリシー勾配トレーニングを使用することで、改善された収束境界に反映される有限時間問題の構造をよりうまく活用できることが判明した。
Markov Decision Processes (MDPs) are a formal framework for modeling and solving sequential decision-making problems. In finite-time horizons such problems are relevant for instance for optimal stopping or specific supply chain problems, but also in the training of large language models. In contrast to infinite horizon MDPs optimal policies are not stationary, policies must be learned for every single epoch. In practice all parameters are often trained simultaneously, ignoring the inherent structure suggested by dynamic programming. This paper introduces a combination of dynamic programming and policy gradient called dynamic policy gradient, where the parameters are trained backwards in time. For the tabular softmax parametrisation we carry out the convergence analysis for simultaneous and dynamic policy gradient towards global optima, both in the exact and sampled gradient settings without regularisation. It turns out that the use of dynamic policy gradient training much better exploits the structure of finite- time problems which is reflected in improved convergence bounds. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-06 |
# Outlier Weighed Layerwise Sparsity (OWL) : LLMを高スパシティに加工するための秘密の欠如
Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity ( http://arxiv.org/abs/2310.05175v3 ) ライセンス: Link先を確認 | Lu Yin, You Wu, Zhenyu Zhang, Cheng-Yu Hsieh, Yaqing Wang, Yiling Jia, Gen Li, Ajay Jaiswal, Mykola Pechenizkiy, Yi Liang, Michael Bendersky, Zhangyang Wang, Shiwei Liu, | (参考訳) 大きな言語モデル(LLM)は、多種多様なドメインにまたがる優れたパフォーマンスで知られていますが、その巨大なモデルサイズのため、実践的なデプロイメントに関しては課題があります。
この課題に対して、従来のネットワークプルーニング手法をLCMに適用することに向けた取り組みが行われ、パフォーマンスを損なうことなく一発でプルーニングできる膨大なパラメータが明らかになった。
一般的なLLMプルーニング戦略は、全ての層を同等の間隔で均一にプルーニングするプラクティスに一貫して従って、堅牢な性能を実現している。
しかしながら、この観察は、非一様層状空間が典型的により強い結果をもたらす視覚モデルで観測される一般的な傾向とは対照的である。
この相違の原因を理解するため、我々は総合的研究を行い、LSMにおけるアクティベーション・アウトリアの出現と強い相関関係を見出した。
この発見に触発されて,不均一層幅比(OWL, Outlier Weighed Layerwise Sparsity, Outlier Weighed Layerwise Sparsity, Outlier Weighed Layerwise Sparsity, OWL)を調整したLLMプルーニング手法を導入した。
OWLの疎度比は各層で観測される外層比に比例し, 層間重量の疎度と外層比との配向がより効果的である。
LLaMA-V1ファミリーにまたがって実施した経験的評価と,様々なベンチマークにまたがるOPTは,OWLが従来手法よりも優れていることを示す。
例えばOWLは、最先端のWandaとSparseGPTを61.22倍、6.80パープレキシティをそれぞれ70%で上回り、DeepSparse推論エンジンでは2.6倍のエンドツーエンドの推論速度を提供する。
コードはhttps://github.com/luuyin/OWL.comで公開されている。
Large Language Models (LLMs), renowned for their remarkable performance across diverse domains, present a challenge when it comes to practical deployment due to their colossal model size. In response to this challenge, efforts have been directed toward the application of traditional network pruning techniques to LLMs, uncovering a massive number of parameters that can be pruned in one-shot without hurting performance. Prevailing LLM pruning strategies have consistently adhered to the practice of uniformly pruning all layers at equivalent sparsity, resulting in robust performance. However, this observation stands in contrast to the prevailing trends observed in the field of vision models, where non-uniform layerwise sparsity typically yields stronger results. To understand the underlying reasons for this disparity, we conduct a comprehensive study and discover a strong correlation with the emergence of activation outliers in LLMs. Inspired by this finding, we introduce a novel LLM pruning methodology that incorporates a tailored set of non-uniform layerwise sparsity ratios, termed as Outlier Weighed Layerwise sparsity (OWL). The sparsity ratio of OWL is proportional to the outlier ratio observed within each layer, facilitating a more effective alignment between layerwise weight sparsity and outlier ratios. Our empirical evaluation, conducted across the LLaMA-V1 family and OPT, spanning various benchmarks, demonstrates the distinct advantages offered by OWL over previous methods. For instance, OWL exhibits a remarkable performance gain, surpassing the state-of-the-art Wanda and SparseGPT by 61.22 and 6.80 perplexity at a high sparsity level of 70%, respectively, while delivering 2.6x end-to-end inference speed-up in the DeepSparse inference engine. Codes are available at https://github.com/luuyin/OWL. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-06 |
# 対称性強化多体分離性遷移
Symmetry-enforced many-body separability transitions ( http://arxiv.org/abs/2310.07286v2 ) ライセンス: Link先を確認 | Yu-Hsueh Chen, Tarun Grover, | (参考訳) 我々は、分離性の観点から対称性を持つ量子多体混合状態、すなわち、混合状態が短距離エンタングルド(SRE)対称純粋状態のアンサンブルとして表現できるかどうかを研究する。
ある状態において混合状態は対称SRE純状態の凸和として表現され、他方の状態ではそのような表現は実現不可能である。
まず、離散対称性の自発的な破れを示すハミルトニアンのギブス状態について論じ、関連する熱相転移は対称性に強化された分離性遷移と考えることができると論じる。
次に,局所的デコヒーレンスを受ける様々な次元のクラスター状態について検討し,いくつかの異なる混合状態相と関連する分離性相転移を同定する。
また, 脱コヒーレントp+ip超伝導体について検討し, 脱コヒーレンスがフェルミオンパリティを明示的に破壊すると, 非キラル状態の凸和として混合状態が表現され, 脱コヒーレンスを保ったフェルミオンパリティは非ゼロしきい値で相転移し, フェミオンパリティの自発的破壊に対応する。
最後に、最近発見されたLDPC符号のようなNLTS(低エネルギー自明な状態ではない)特性を満たすシステムについて議論し、そのようなシステムのギブス状態は温度調整された分離性遷移を示すと論じる。
We study quantum many-body mixed states with a symmetry from the perspective of separability, i.e., whether a mixed state can be expressed as an ensemble of short-range entangled (SRE) symmetric pure states. We provide evidence for 'symmetry-enforced separability transitions' in a variety of states, where in one regime the mixed state is expressible as a convex sum of symmetric SRE pure states, while in the other regime, such a representation is not feasible. We first discuss Gibbs state of Hamiltonians that exhibit spontaneous breaking of a discrete symmetry, and argue that the associated thermal phase transition can be thought of as a symmetry-enforced separability transition. Next, we study cluster states in various dimensions subjected to local decoherence, and identify several distinct mixed-state phases and associated separability phase transitions, which also provides an alternate perspective on recently discussed 'average SPT order'. We also study decohered p+ip superconductors, and find that if the decoherence breaks the fermion parity explicitly, then the resulting mixed state can be expressed as a convex sum of non-chiral states, while a fermion-parity preserving decoherence results in a phase transition at a non-zero threshold that corresponds to spontaneous breaking of fermion parity. Finally, we briefly discuss systems that satisfy NLTS (no low-energy trivial state) property, such as the recently discovered good LDPC codes, and argue that the Gibbs state of such systems exhibits a temperature-tuned separability transition. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-06 |
# メモリ化を超えて - 大規模な言語モデルによるプライバシ推論に違反する
Beyond Memorization: Violating Privacy Via Inference with Large Language Models ( http://arxiv.org/abs/2310.07298v2 ) ライセンス: Link先を確認 | Robin Staab, Mark Vero, Mislav Balunović, Martin Vechev, | (参考訳) 大規模言語モデル(LLM)に関する現在のプライバシー研究は、主に記憶されたトレーニングデータを抽出する問題に焦点を当てている。
同時に、モデルの推論能力は劇的に向上した。
このことは、現在のLLMが推論時に与えられたテキストから個人属性を推測することで個人のプライバシーに反する可能性があるかどうかという重要な疑問を提起する。
本研究は,テキストから個人属性を推測する事前学習 LLM の能力に関する,最初の総合的研究である。
実際のRedditプロファイルで構成されたデータセットを構築し、現在のLCMが、人間の要求する時間(100ドル)と時間(240ドル)のごく一部で、最大8,5\%$ top-1と9,5\%$ top-3の精度で、幅広い個人属性(例えば、場所、収入、性別)を推測できることを示します。
生活のあらゆる面においてLLMで動くチャットボットと対話する人が増えている中、プライバシーを侵害するチャットボットが、一見見知らぬ質問を通じて個人情報を抽出しようとする、という新たな脅威も探求している。
最後に、テキスト匿名化やモデルアライメントといった一般的な軽減策が、LLM推論に対するユーザのプライバシ保護に効果がないことを示す。
以上の結果から,現在のLCMでは,従来は達成不可能な規模で個人データを推測することが可能であることが示唆された。
ワーキングディフェンスが欠如しているため,我々は,LLMのプライバシに関するより広範な議論を,記憶以上のものにし,より広範なプライバシ保護を目指すことを提唱する。
Current privacy research on large language models (LLMs) primarily focuses on the issue of extracting memorized training data. At the same time, models' inference capabilities have increased drastically. This raises the key question of whether current LLMs could violate individuals' privacy by inferring personal attributes from text given at inference time. In this work, we present the first comprehensive study on the capabilities of pretrained LLMs to infer personal attributes from text. We construct a dataset consisting of real Reddit profiles, and show that current LLMs can infer a wide range of personal attributes (e.g., location, income, sex), achieving up to $85\%$ top-1 and $95\%$ top-3 accuracy at a fraction of the cost ($100\times$) and time ($240\times$) required by humans. As people increasingly interact with LLM-powered chatbots across all aspects of life, we also explore the emerging threat of privacy-invasive chatbots trying to extract personal information through seemingly benign questions. Finally, we show that common mitigations, i.e., text anonymization and model alignment, are currently ineffective at protecting user privacy against LLM inference. Our findings highlight that current LLMs can infer personal data at a previously unattainable scale. In the absence of working defenses, we advocate for a broader discussion around LLM privacy implications beyond memorization, striving for a wider privacy protection. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-06 |
# 多変量衛星観測による海面高度補間の学習
Learning of Sea Surface Height Interpolation from Multi-variate Simulated Satellite Observations ( http://arxiv.org/abs/2310.07626v3 ) ライセンス: Link先を確認 | Theo Archambault, Arthur Filoche, Anastase Charantonis, Dominique Bereziat, Sylvie Thiria, | (参考訳) 衛星によるリモートセンシングミッションは、海洋の状態と力学に対する我々の理解に革命をもたらした。
このうち、宇宙からの高度計は海面高度(SSH)の測定に有用であり、地表の地政学的潮流を推定するために用いられる。
センサー技術が採用されているため、SSH観測において重要なギャップが生じる。
完全なSSHマップは、広く使われているデータ統一と時空結合システム(DUACS)のような線形最適補間(OI)を用いて作成される。
一方、海面温度(SST)製品は、データカバレッジがはるかに高く、SSTは、対流によって地栄養的な電流と物理的に結びついている。
我々は,SSHとSSTの20年間の衛星観測を模擬した多変量観測システムシミュレーション実験(OSSE)を提案する。
私たちは、このデータに基づいて、アテンションベースのエンコーダ-デコーダ深層学習ネットワーク(\textsc{abed})をトレーニングし、2つの設定を比較します。
また,本OSSEでは,SST情報の有無にかかわらず,教師付きあるいは教師なしの損失関数を用いて,AbeD再建を訓練した場合に比較した。
渦検出におけるSSH補間の評価を行った。
また,OSSEにおける教師付き事前学習と衛星データによる教師なし微調整という,シミュレーションから観察への学習の移行方法も導入した。
オーシャンデータチャレンジ2021の実際のSSH観測から、この学習戦略とSSTの併用により、OIと比較してルート平均2乗誤差が24%減少することがわかった。
Satellite-based remote sensing missions have revolutionized our understanding of the Ocean state and dynamics. Among them, space-borne altimetry provides valuable Sea Surface Height (SSH) measurements, used to estimate surface geostrophic currents. Due to the sensor technology employed, important gaps occur in SSH observations. Complete SSH maps are produced using linear Optimal Interpolations (OI) such as the widely-used Data Unification and Altimeter Combination System (DUACS). On the other hand, Sea Surface Temperature (SST) products have much higher data coverage and SST is physically linked to geostrophic currents through advection. We propose a new multi-variate Observing System Simulation Experiment (OSSE) emulating 20 years of SSH and SST satellite observations. We train an Attention-Based Encoder-Decoder deep learning network (\textsc{abed}) on this data, comparing two settings: one with access to ground truth during training and one without. On our OSSE, we compare ABED reconstructions when trained using either supervised or unsupervised loss functions, with or without SST information. We evaluate the SSH interpolations in terms of eddy detection. We also introduce a new way to transfer the learning from simulation to observations: supervised pre-training on our OSSE followed by unsupervised fine-tuning on satellite data. Based on real SSH observations from the Ocean Data Challenge 2021, we find that this learning strategy, combined with the use of SST, decreases the root mean squared error by 24% compared to OI. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-06 |
# 変圧器言語モデルにおけるタスク間の回路部品再利用
Circuit Component Reuse Across Tasks in Transformer Language Models ( http://arxiv.org/abs/2310.08744v3 ) ライセンス: Link先を確認 | Jack Merullo, Carsten Eickhoff, Ellie Pavlick, | (参考訳) 機械論的解釈可能性に関する最近の研究は、回路解析によって言語モデルの振る舞いをリバースエンジニアリングに成功させることができることを示した。
しかし、一般的な批判は、各回路がタスク固有であり、そのような分析はより高いレベルでモデルを理解するのに寄与しないということである。
本研究は、特定の頭部に関する低レベルな発見と一般アルゴリズムに関する高レベルな発見の両方が、タスク全体にわたって実際に一般化できることを示す。
具体的には,Wang et al (2022) で発見された間接物体識別(IOI)タスクの回路について検討する。
1) より大きなGPT2モデルで再生し、
色付けされたオブジェクト(Ippolito & Callison-Burch, 2023)。
両タスクの根底にあるプロセスが機能的に非常によく似ており、回路内注目ヘッドの約78%が重複していることを示す。
さらに,中間層に4つの注目ヘッドを配置して,カラーオブジェクト回路を「修復」し,IOI回路のように動作させる,概念実証介入実験を提案する。
そうすることで、Colored Objectsタスクの精度は49.6%から93.7%に向上し、ほとんどのエラーソースを説明します。
この介入は、IOI回路内の相互作用によって予測される特定の方法で下流の注意に影響を与え、このサブ回路の挙動が異なるタスク入力に不変であることを示す。
本研究の結果から,大規模言語モデルの動作を,相対的に少ない数のタスク一般化型アルゴリズム構築ブロックや計算部品で説明できる可能性が示唆された。
Recent work in mechanistic interpretability has shown that behaviors in language models can be successfully reverse-engineered through circuit analysis. A common criticism, however, is that each circuit is task-specific, and thus such analysis cannot contribute to understanding the models at a higher level. In this work, we present evidence that insights (both low-level findings about specific heads and higher-level findings about general algorithms) can indeed generalize across tasks. Specifically, we study the circuit discovered in Wang et al. (2022) for the Indirect Object Identification (IOI) task and 1.) show that it reproduces on a larger GPT2 model, and 2.) that it is mostly reused to solve a seemingly different task: Colored Objects (Ippolito & Callison-Burch, 2023). We provide evidence that the process underlying both tasks is functionally very similar, and contains about a 78% overlap in in-circuit attention heads. We further present a proof-of-concept intervention experiment, in which we adjust four attention heads in middle layers in order to 'repair' the Colored Objects circuit and make it behave like the IOI circuit. In doing so, we boost accuracy from 49.6% to 93.7% on the Colored Objects task and explain most sources of error. The intervention affects downstream attention heads in specific ways predicted by their interactions in the IOI circuit, indicating that this subcircuit behavior is invariant to the different task inputs. Overall, our results provide evidence that it may yet be possible to explain large language models' behavior in terms of a relatively small number of interpretable task-general algorithmic building blocks and computational components. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-06 |
# 言語モデルにおける凍結変換器は効果的なビジュアルエンコーダ層である
Frozen Transformers in Language Models Are Effective Visual Encoder Layers ( http://arxiv.org/abs/2310.12973v2 ) ライセンス: Link先を確認 | Ziqi Pang, Ziyang Xie, Yunze Man, Yu-Xiong Wang, | (参考訳) 本稿では,大規模言語モデル (LLM) がテキストデータのみに訓練されているにもかかわらず,言語が存在しない場合,純粋に視覚的なタスクに対して驚くほど強力なエンコーダであることを明らかにする。
さらに興味深いことに、これは、これまで見過ごされていた単純な戦略によって実現される - 事前にトレーニングされたLCMから凍結されたトランスフォーマーブロックを構成エンコーダ層として使用して、ビジュアルトークンを直接処理する。
我々の研究は、コンピュータビジョンタスクにLLMを利用することの限界を押し上げ、通常、関連する言語プロンプト、インプット、アウトプットを伴うマルチモーダル視覚言語セットアップを必要とする慣行からかなり離れている。
提案手法は、純粋な2次元および3次元視覚認識タスク(画像と点のクラウド分類)、時間的モデリングタスク(アクション認識)、非意味タスク(例えば、動き予測)、マルチモーダルタスク(例えば、2D/3D視覚質問応答と画像-テキスト検索)を含む、多様なタスクにおけるパフォーマンスを一貫して向上することを示す。
このような改善は、様々な種類のLLM(例えば、LLaMA、OPT)と異なるLLMトランスブロックに適用できる一般的な現象である。
また、情報フィルタリング仮説を提案し、事前学習したLCMが視覚符号化における有効性を説明するとともに、情報化による視覚トークンの識別をブロックし、その効果をさらに増幅する。
この仮説は、LLMトランスフォーマーブロックを用いたトレーニングの後、機能活性化が関連する領域に強く焦点を絞っているという観察によって実証的に支持されている。
LLMの活用と、その基盤となるメカニズムの理解を深める上で、我々の研究が新たな視点を刺激することを期待します。
コードはhttps://github.com/ziqipang/LM4VisualEncoding.comで入手できる。
This paper reveals that large language models (LLMs), despite being trained solely on textual data, are surprisingly strong encoders for purely visual tasks in the absence of language. Even more intriguingly, this can be achieved by a simple yet previously overlooked strategy -- employing a frozen transformer block from pre-trained LLMs as a constituent encoder layer to directly process visual tokens. Our work pushes the boundaries of leveraging LLMs for computer vision tasks, significantly departing from conventional practices that typically necessitate a multi-modal vision-language setup with associated language prompts, inputs, or outputs. We demonstrate that our approach consistently enhances performance across a diverse range of tasks, encompassing pure 2D and 3D visual recognition tasks (e.g., image and point cloud classification), temporal modeling tasks (e.g., action recognition), non-semantic tasks (e.g., motion forecasting), and multi-modal tasks (e.g., 2D/3D visual question answering and image-text retrieval). Such improvements are a general phenomenon, applicable to various types of LLMs (e.g., LLaMA and OPT) and different LLM transformer blocks. We additionally propose the information filtering hypothesis to explain the effectiveness of pre-trained LLMs in visual encoding -- the pre-trained LLM transformer blocks discern informative visual tokens and further amplify their effect. This hypothesis is empirically supported by the observation that the feature activation, after training with LLM transformer blocks, exhibits a stronger focus on relevant regions. We hope that our work inspires new perspectives on utilizing LLMs and deepening our understanding of their underlying mechanisms. Code is available at https://github.com/ziqipang/LM4VisualEncoding. | 翻訳日:2024-05-08 00:35:16 公開日:2024-05-06 |
# KirchhoffNet: スケーラブルな超高速アナログニューラルネットワーク
KirchhoffNet: A Scalable Ultra Fast Analog Neural Network ( http://arxiv.org/abs/2310.15872v3 ) ライセンス: Link先を確認 | Zhengqi Gao, Fan-Keng Sun, Ron Rohrer, Duane S. Boning, | (参考訳) 本稿では,アナログ電子回路の基本原理であるKirchhoffの電流と電圧の法則を活用し,KirchhoffNetと呼ばれるニューラルネットワークモデルの特徴的クラスを導入する。
基本的に、KirchhoffNetは、ニューラルネットワークとして機能し、その初期ノード電圧をニューラルネットワーク入力、特定の時点におけるノード電圧を出力として利用するアナログ回路である。
特定の時間内でのノード電圧の進化は、ノードを接続するエッジ上の学習可能なパラメータによって予測される。
我々は、KirchhoffNetが通常の微分方程式(ODE)の集合で制御されていることを実証し、特に、従来のレイヤ(畳み込み層など)がなくても、多種多様な複雑な機械学習タスクで最先端のパフォーマンスを達成できることを示した。
最も重要なことは、KirchhoffNetは低消費電力アナログ集積回路として実装できる可能性があり、KirchhoffNet内のパラメータの数に関係なく、そのオンチップフォワード計算は短時間で完了する。
この特徴により、KirchhoffNetは大規模ニューラルネットワークを実装するための有望で基本的なパラダイムとなり、AIのためのアナログニューラルネットワークの新しい道を開いた。
In this paper, we leverage a foundational principle of analog electronic circuitry, Kirchhoff's current and voltage laws, to introduce a distinctive class of neural network models termed KirchhoffNet. Essentially, KirchhoffNet is an analog circuit that can function as a neural network, utilizing its initial node voltages as the neural network input and the node voltages at a specific time point as the output. The evolution of node voltages within the specified time is dictated by learnable parameters on the edges connecting nodes. We demonstrate that KirchhoffNet is governed by a set of ordinary differential equations (ODEs), and notably, even in the absence of traditional layers (such as convolution layers), it attains state-of-the-art performances across diverse and complex machine learning tasks. Most importantly, KirchhoffNet can be potentially implemented as a low-power analog integrated circuit, leading to an appealing property -- irrespective of the number of parameters within a KirchhoffNet, its on-chip forward calculation can always be completed within a short time. This characteristic makes KirchhoffNet a promising and fundamental paradigm for implementing large-scale neural networks, opening a new avenue in analog neural networks for AI. | 翻訳日:2024-05-08 00:35:16 公開日:2024-05-06 |
# 分子から物質へ:原子特性予測のための大規模一般化モデルの事前学習
From Molecules to Materials: Pre-training Large Generalizable Models for Atomic Property Prediction ( http://arxiv.org/abs/2310.16802v2 ) ライセンス: Link先を確認 | Nima Shoghi, Adeesh Kolluru, John R. Kitchin, Zachary W. Ulissi, C. Lawrence Zitnick, Brandon M. Wood, | (参考訳) ファンデーションモデルは自然言語処理やコンピュータビジョンといった機械学習分野に変化をもたらした。
原子特性予測における同様の成功は、複数の化学領域にまたがる効果的なモデルを訓練することの難しさによって制限されている。
これを解決するために、JMP(Joint Multi-domain Pre-Training)を導入し、異なる化学領域から複数のデータセットを同時にトレーニングし、各データセットをマルチタスクフレームワーク内のユニークな事前トレーニングタスクとして扱う。
統合トレーニングデータセットは,OC20,OC22,ANI-1x,Transition-1xの$\sim$120Mシステムで構成される。
QM9, rMD17, MatBench, QMOF, SPICE, MD22など,様々な下流タスクやデータセットを微調整して, 性能と一般化を評価する。
JMPは、スクラッチからトレーニングまでの平均59%の改善を示し、40タスク中34タスクで最先端のタスクをマッチまたはセットする。
我々の研究は、多種多様なデータを活用する事前学習戦略が、特に低データタスクにおいて、化学領域全体にわたる特性予測を前進させる可能性を強調している。
詳細はhttps://nima.sh/jmpをご覧ください。
Foundation models have been transformational in machine learning fields such as natural language processing and computer vision. Similar success in atomic property prediction has been limited due to the challenges of training effective models across multiple chemical domains. To address this, we introduce Joint Multi-domain Pre-training (JMP), a supervised pre-training strategy that simultaneously trains on multiple datasets from different chemical domains, treating each dataset as a unique pre-training task within a multi-task framework. Our combined training dataset consists of $\sim$120M systems from OC20, OC22, ANI-1x, and Transition-1x. We evaluate performance and generalization by fine-tuning over a diverse set of downstream tasks and datasets including: QM9, rMD17, MatBench, QMOF, SPICE, and MD22. JMP demonstrates an average improvement of 59% over training from scratch, and matches or sets state-of-the-art on 34 out of 40 tasks. Our work highlights the potential of pre-training strategies that utilize diverse data to advance property prediction across chemical domains, especially for low-data tasks. Please visit https://nima.sh/jmp for further information. | 翻訳日:2024-05-08 00:35:16 公開日:2024-05-06 |
# 言語モデルがコンテキスト内のバインディングエンティティをどのように行うか?
How do Language Models Bind Entities in Context? ( http://arxiv.org/abs/2310.17191v2 ) ライセンス: Link先を確認 | Jiahai Feng, Jacob Steinhardt, | (参考訳) コンテキスト内情報を正しく利用するには、言語モデル(LM)が属性にエンティティをバインドしなければならない。
例えば、「緑色の四角」と「青い円」を記述する文脈が与えられた場合、LMはそれぞれの色に形を結び付けなければならない。
我々はLM表現を解析し、結合ID機構を同定する: 結合問題を解くための一般的なメカニズムであり、ピチアファミリーとLLaMAファミリーから十分に大きなモデルをすべて観察する。
因果的介入を用いて, LMの内部アクティベーションは, 結合IDベクトルを対応するエンティティや属性にアタッチすることで, 結合情報を表すことを示す。
さらに,結合IDベクトルが連続部分空間を形成し,結合IDベクトル間の距離がその識別可能性を反映していることを示す。
全体として,本研究は,大規模LMにおける一般的な文脈内推論の理解に向けてのステップとなる,コンテキスト内の記号的知識を表現するためのLMの解釈可能な戦略を明らかにした。
To correctly use in-context information, language models (LMs) must bind entities to their attributes. For example, given a context describing a "green square" and a "blue circle", LMs must bind the shapes to their respective colors. We analyze LM representations and identify the binding ID mechanism: a general mechanism for solving the binding problem, which we observe in every sufficiently large model from the Pythia and LLaMA families. Using causal interventions, we show that LMs' internal activations represent binding information by attaching binding ID vectors to corresponding entities and attributes. We further show that binding ID vectors form a continuous subspace, in which distances between binding ID vectors reflect their discernability. Overall, our results uncover interpretable strategies in LMs for representing symbolic knowledge in-context, providing a step towards understanding general in-context reasoning in large-scale LMs. | 翻訳日:2024-05-08 00:35:16 公開日:2024-05-06 |
# Sui Lutris: ブロードキャストとコンセンサスを組み合わせたブロックチェーン
Sui Lutris: A Blockchain Combining Broadcast and Consensus ( http://arxiv.org/abs/2310.18042v3 ) ライセンス: Link先を確認 | Same Blackshear, Andrey Chursin, George Danezis, Anastasios Kichidis, Lefteris Kokoris-Kogias, Xun Li, Mark Logan, Ashok Menon, Todd Nowacki, Alberto Sonnino, Brandon Williams, Lu Zhang, | (参考訳) Sui Lutrisは、秒以下のファイナリティを持続的に達成した最初のスマートコントラクトプラットフォームである。
これは、単純な支払いだけでなく、さまざまな取引に対して、合意のない合意を採用することで、この大幅な減少を実現する。
以前の作業とは異なり、Swi Lutrisは表現力もスループットも妥協せず、再起動せずに永久に実行できる。
Sui Lutrisは、クリティカルファイナリティパスから呼び出される高スループットのコンセンサスプロトコルとの合意を安全に統合することで、これを実現するが、トランザクションが一貫性のない同時アクセスのリスクがある場合、その解決は総注文が解決されるまで遅らせる。
このようなハイブリッドアーキテクチャの構築は、リコンフィグレーションイベントにおいて特に微妙であり、システムには、潜在的に構成ミスの可能性のあるクライアントの長期的な生存性を損なうことなく、コンセンサスのないパスの安全性を維持する必要がある。
そこで我々は,コンセンサスのないブロックチェーンの安全かつ効率的な再構成を確実に示すための,新しい再構成プロトコルを開発した。
Sui Lutrisは現在運用中であり、Swiスマートコントラクトプラットフォームを支えている。
アカウントの代わりにObjectsを使用することで、オブジェクトをファーストクラスリソースとして公開するスマートコントラクトの安全な実行が可能になる。
われわれの実験では、Swi Lutrisは、最新の最先端のリアルタイムコンセンサスレイテンシ(3秒)と比較して、秒間最大5,000証明書(トランザクションブロック付き150k ops/s)のスループットで0.5秒未満のレイテンシを実現している。
さらに、バリデータのクラッシュ回復を優雅に処理し、再設定時に目に見えるパフォーマンス劣化を損なわない。
Sui Lutris is the first smart-contract platform to sustainably achieve sub-second finality. It achieves this significant decrease by employing consensusless agreement not only for simple payments but for a large variety of transactions. Unlike prior work, Sui Lutris neither compromises expressiveness nor throughput and can run perpetually without restarts. Sui Lutris achieves this by safely integrating consensuless agreement with a high-throughput consensus protocol that is invoked out of the critical finality path but ensures that when a transaction is at risk of inconsistent concurrent accesses, its settlement is delayed until the total ordering is resolved. Building such a hybrid architecture is especially delicate during reconfiguration events, where the system needs to preserve the safety of the consensusless path without compromising the long-term liveness of potentially misconfigured clients. We thus develop a novel reconfiguration protocol, the first to provably show the safe and efficient reconfiguration of a consensusless blockchain. Sui Lutris is currently running in production and underpins the Sui smart-contract platform. Combined with the use of Objects instead of accounts it enables the safe execution of smart contracts that expose objects as a first-class resource. In our experiments Sui Lutris achieves latency lower than 0.5 seconds for throughput up to 5,000 certificates per second (150k ops/s with transaction blocks), compared to the state-of-the-art real-world consensus latencies of 3 seconds. Furthermore, it gracefully handles validators crash-recovery and does not suffer visible performance degradation during reconfiguration. | 翻訳日:2024-05-08 00:35:16 公開日:2024-05-06 |
# 敵の例は本当の特徴ではない
Adversarial Examples Are Not Real Features ( http://arxiv.org/abs/2310.18936v4 ) ライセンス: Link先を確認 | Ang Li, Yifei Wang, Yiwen Guo, Yisen Wang, | (参考訳) 敵の例の存在は長年の謎であり、多くの関心を集めてきた。
citet{ilyas2019adversarial} のよく知られた理論は、敵対的な例から非破壊的特徴を抽出できることを示し、これらの特徴だけで分類に有用であることを示し、データの観点から敵対的脆弱性を説明する。
しかし、非破壊的な特徴は主に人間にとってのノイズの特徴であるため、この説明はかなり直感的ではない。
本稿では,複数の学習パラダイムを取り入れた理論を,より広い文脈から再検討する。
特に,教師付き学習における有用性とは裏腹に,コントラスト学習やマスク画像モデリング,拡散モデルなど,他の自己教師付き学習パラダイムに移行する際には,非破壊的特徴が有用性に欠けることがわかった。
非破壊的特徴は、これらのパラダイム間で良好な伝達性を持つ堅牢性や自然な特徴ほど有用ではないことが判明した。
一方、ロバスト性については、ロバストな特徴を持つ自然に訓練されたエンコーダがAutoAttackではほとんど損なわれていないことも示している。
我々のパラダイム横断試験は、非破壊機能は実際には有用ではなく、パラダイム的なショートカットに似ており、堅牢な機能だけで信頼性の高いモデルロバスト性を達成するには不十分であることを示している。
コードは \url{https://github.com/PKU-ML/AdvNotRealFeatures} で入手できる。
The existence of adversarial examples has been a mystery for years and attracted much interest. A well-known theory by \citet{ilyas2019adversarial} explains adversarial vulnerability from a data perspective by showing that one can extract non-robust features from adversarial examples and these features alone are useful for classification. However, the explanation remains quite counter-intuitive since non-robust features are mostly noise features to humans. In this paper, we re-examine the theory from a larger context by incorporating multiple learning paradigms. Notably, we find that contrary to their good usefulness under supervised learning, non-robust features attain poor usefulness when transferred to other self-supervised learning paradigms, such as contrastive learning, masked image modeling, and diffusion models. It reveals that non-robust features are not really as useful as robust or natural features that enjoy good transferability between these paradigms. Meanwhile, for robustness, we also show that naturally trained encoders from robust features are largely non-robust under AutoAttack. Our cross-paradigm examination suggests that the non-robust features are not really useful but more like paradigm-wise shortcuts, and robust features alone might be insufficient to attain reliable model robustness. Code is available at \url{https://github.com/PKU-ML/AdvNotRealFeatures}. | 翻訳日:2024-05-08 00:35:15 公開日:2024-05-06 |
# CreoleVal: クリーンのためのマルチ言語マルチタスクベンチマーク
CreoleVal: Multilingual Multitask Benchmarks for Creoles ( http://arxiv.org/abs/2310.19567v3 ) ライセンス: Link先を確認 | Heather Lent, Kushal Tatariya, Raj Dabre, Yiyi Chen, Marcell Fekete, Esther Ploeger, Li Zhou, Ruth-Ann Armstrong, Abee Eijansantos, Catriona Malau, Hans Erik Heje, Ernests Lavrinovics, Diptesh Kanojia, Paul Belony, Marcel Bollmann, Loïc Grobol, Miryam de Lhoneux, Daniel Hershcovich, Michel DeGraff, Anders Søgaard, Johannes Bjerva, | (参考訳) クレオールは、NLP研究のために利用可能な資源がほとんどない未調査の言語群であり、クレオールと多くの高リソース言語との系譜的結びつきは、伝達学習の重要な可能性を示しているが、この注釈付きデータが欠如していることから、このポテンシャルは妨げられている。
この研究では、最大28のCreole言語をカバーする8つの異なるNLPタスクにまたがるベンチマークデータセットのコレクションであるCreoleValを紹介します。
ベンチマーク毎にゼロショット設定でベースライン実験を行い、クレオールの移動学習の能力と限界をさらに確認する。
最終的に、CreoleValは、NLPおよび計算言語学におけるクレオールの研究を強化する機会であり、一般的には、世界中のより公平な言語技術への一歩であると考えています。
Creoles represent an under-explored and marginalized group of languages, with few available resources for NLP research.While the genealogical ties between Creoles and a number of highly-resourced languages imply a significant potential for transfer learning, this potential is hampered due to this lack of annotated data. In this work we present CreoleVal, a collection of benchmark datasets spanning 8 different NLP tasks, covering up to 28 Creole languages; it is an aggregate of novel development datasets for reading comprehension, relation classification, and machine translation for Creoles, in addition to a practical gateway to a handful of preexisting benchmarks. For each benchmark, we conduct baseline experiments in a zero-shot setting in order to further ascertain the capabilities and limitations of transfer learning for Creoles. Ultimately, we see CreoleVal as an opportunity to empower research on Creoles in NLP and computational linguistics, and in general, a step towards more equitable language technology around the globe. | 翻訳日:2024-05-08 00:35:15 公開日:2024-05-06 |
# ベイズニューラルネットワークを用いた材料特性予測のための多変量回帰の不確かさの定量化
Uncertainty Quantification in Multivariable Regression for Material Property Prediction with Bayesian Neural Networks ( http://arxiv.org/abs/2311.02495v3 ) ライセンス: Link先を確認 | Longze Li, Jiang Chang, Aleksandar Vakanski, Yachun Wang, Tiankai Yao, Min Xian, | (参考訳) 物質科学におけるデータ駆動アプローチと機械学習に基づく手法の利用の増加により、情報決定のための予測変数の信頼性のある不確実性定量化(UQ)の重要性は過大評価されない。
材料特性予測におけるUQは、先進的な材料のマルチスケールおよびマルチフィジカルな性質、多数の要因間の複雑な相互作用、モデルトレーニングのための大規模キュレートデータセットの限定的利用など、ユニークな課題を提起する。
近年、ベイジアンニューラルネットワーク(BNN)がUQの有望なアプローチとして登場し、ニューラルネットワーク内の不確実性を捉えるための確率的フレームワークを提供している。
そこで本研究では,物質モデリングにおける規制法則から知識を統合し,モデルを物理的に一貫した予測へと導く,物理インフォームドBNNにおけるUQのアプローチを提案する。
本手法の有効性を評価するために, 鋼のクリープ破断寿命を予測するケーススタディを提案する。
クリープ試験から収集した3つのデータセットによる実験的検証は、従来のガウス過程回帰法の性能を上回り、競争力のある正確な点と不確実性の推定値を生成するBNNの能力を実証している。
同様に、アクティブラーニングアプリケーションにおけるBNNのUQに対する適合性を評価し、競合性能を報告した。
最も有望なクリープ寿命予測フレームワークはマルコフ・チェイン・モンテ・カルロによるネットワークパラメータの後方分布の近似に基づくBNNである。
コードは、https://github.com/avakanski/Creep-uncertainty-quantification.comで入手できる。
With the increased use of data-driven approaches and machine learning-based methods in material science, the importance of reliable uncertainty quantification (UQ) of the predicted variables for informed decision-making cannot be overstated. UQ in material property prediction poses unique challenges, including the multi-scale and multi-physics nature of advanced materials, intricate interactions between numerous factors, limited availability of large curated datasets for model training, etc. Recently, Bayesian Neural Networks (BNNs) have emerged as a promising approach for UQ, offering a probabilistic framework for capturing uncertainties within neural networks. In this work, we introduce an approach for UQ within physics-informed BNNs, which integrates knowledge from governing laws in material modeling to guide the models toward physically consistent predictions. To evaluate the effectiveness of this approach, we present case studies for predicting the creep rupture life of steel alloys. Experimental validation with three datasets of collected measurements from creep tests demonstrates the ability of BNNs to produce accurate point and uncertainty estimates that are competitive or exceed the performance of the conventional method of Gaussian Process Regression. Similarly, we evaluated the suitability of BNNs for UQ in an active learning application and reported competitive performance. The most promising framework for creep life prediction is BNNs based on Markov Chain Monte Carlo approximation of the posterior distribution of network parameters, as it provided more reliable results in comparison to BNNs based on variational inference approximation or related NNs with probabilistic outputs. The codes are available at: https://github.com/avakanski/Creep-uncertainty-quantification. | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-06 |
# Azure Quantum Resource Estimator を用いたフォールトトレラント量子計算の性能評価
Using Azure Quantum Resource Estimator for Assessing Performance of Fault Tolerant Quantum Computation ( http://arxiv.org/abs/2311.05801v2 ) ライセンス: Link先を確認 | Wim van Dam, Mariia Mykhailova, Mathias Soeken, | (参考訳) Azure QuantumとAzure Quantum Development Kitが提供するリソース推定ツールについて説明する。
これらのツールを使うことで、フォールトトレラントな量子コンピュータ上でアルゴリズムを実行するのに必要な論理的および物理的リソースを自動的に評価することができる。
例えば、3つの異なる乗算アルゴリズムの量子フォールトトレラント実装のリソース推定値を得る。
The resource estimation tools provided by Azure Quantum and Azure Quantum Development Kit are described. Using these tools one can automatically evaluate the logical and physical resources required to run algorithms on fault-tolerant quantum computers. An example is given of obtaining resource estimates for quantum fault-tolerant implementations of three different multiplication algorithms. | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-06 |
# リモートセンシング画像分類のための分散型および非共有型アーカイブ間のフェデレーション学習
Federated Learning Across Decentralized and Unshared Archives for Remote Sensing Image Classification ( http://arxiv.org/abs/2311.06141v2 ) ライセンス: Link先を確認 | Barış Büyüktaş, Gencer Sumbul, Begüm Demir, | (参考訳) フェデレートラーニング(Federated Learning, FL)は、複数のディープラーニングモデルのコラボレーションにより、クライアント上のデータにアクセスせずに、分散化されたデータアーカイブ(クライアント)から学習することができる。
FLは、分散画像アーカイブからの知識発見に十分な機会を提供するが、リモートセンシング(RS)ではめったに考えられない。
本稿では、RSにおいてはじめて、RS画像分類問題に対する最先端FLアルゴリズムの比較研究を行う。
この目的のために、コンピュータビジョンと機械学習コミュニティで提示されたFLアルゴリズムの体系的なレビューを行った。
そして,クライアント間での不均一性(非IIDデータとして知られる)を訓練する上で,その有効性に基づいて,最先端のFLアルゴリズムを複数選択する。
選択したアルゴリズムの広範な概要を提示した後、これらのアルゴリズムの理論的比較を行う。
1) 局所訓練の複雑さ
2) 集約複雑性
3) 学習効率
4)通信コスト,及び
5) クライアント数の面でのスケーラビリティ。
理論的比較の後、異なる分散化シナリオ下で比較するために実験的な分析結果が提示される。
実験分析では,RSの多ラベル画像分類問題に注目する。
総合的な分析に基づいて、我々は最終的にRSで適切なFLアルゴリズムを選択するためのガイドラインを導出する。
この作業のコードはhttps://git.tu-berlin.de/rsim/FL-RSで公開される。
Federated learning (FL) enables the collaboration of multiple deep learning models to learn from decentralized data archives (i.e., clients) without accessing data on clients. Although FL offers ample opportunities in knowledge discovery from distributed image archives, it is seldom considered in remote sensing (RS). In this paper, as a first time in RS, we present a comparative study of state-of-the-art FL algorithms for RS image classification problems. To this end, we initially provide a systematic review of the FL algorithms presented in the computer vision and machine learning communities. Then, we select several state-of-the-art FL algorithms based on their effectiveness with respect to training data heterogeneity across clients (known as non-IID data). After presenting an extensive overview of the selected algorithms, a theoretical comparison of the algorithms is conducted based on their: 1) local training complexity; 2) aggregation complexity; 3) learning efficiency; 4) communication cost; and 5) scalability in terms of number of clients. After the theoretical comparison, experimental analyses are presented to compare them under different decentralization scenarios. For the experimental analyses, we focus our attention on multi-label image classification problems in RS. Based on our comprehensive analyses, we finally derive a guideline for selecting suitable FL algorithms in RS. The code of this work will be publicly available at https://git.tu-berlin.de/rsim/FL-RS. | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-06 |
# 大規模言語モデルのオンザフライ融合と機械翻訳
On-the-Fly Fusion of Large Language Models and Machine Translation ( http://arxiv.org/abs/2311.08306v2 ) ライセンス: Link先を確認 | Hieu Hoang, Huda Khayrallah, Marcin Junczys-Dowmunt, | (参考訳) LLMを用いた機械翻訳モデルのオンザフライアンサンブルを提案する。
異なるデータ量で4つの言語対(どちらの方向も)で実験を行う。
LLMはNMTモデルの翻訳を改善することができ、LLMとのアンサンブルは2つのより強いMTモデルをアンサンブルするよりも優れた翻訳を生成することができる。
我々は、文脈学習や翻訳コンテキストなど、LLMプロンプトの様々な手法と組み合わせる。
We propose the on-the-fly ensembling of a machine translation model with an LLM, prompted on the same task and input. We perform experiments on 4 language pairs (both directions) with varying data amounts. We find that a slightly weaker-at-translation LLM can improve translations of a NMT model, and ensembling with an LLM can produce better translations than ensembling two stronger MT models. We combine our method with various techniques from LLM prompting, such as in context learning and translation context. | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-06 |
# 長川一:テキスト・画像拡散モデルにおける一貫した文字
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2311.10093v3 ) ライセンス: Link先を確認 | Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski, | (参考訳) テキスト・ツー・イメージ生成モデルの最近の進歩は、視覚的創造性に対する大きな可能性を解き放っている。
しかし、これらのモデルは、ストーリービジュアライゼーション、ゲーム開発アセットデザイン、広告など、多くの現実世界のアプリケーションにとって重要な側面である一貫性のあるキャラクターの生成に苦慮している。
現在の手法は、通常、ターゲットキャラクターの複数の既存のイメージに依存するか、労働集約的な手作業を伴う。
そこで本研究では,テキストプロンプトを唯一の入力とする,一貫した文字生成のための完全自動解を提案する。
それぞれの段階において、類似した同一性を共有する画像の一貫性の集合を識別し、この集合からより一貫したアイデンティティを抽出する反復手順を導入する。
定量的解析により,本手法はベースライン法と比較して,迅速なアライメントとアイデンティティの整合性のバランスが良好であることを示し,これらの知見はユーザ研究によって裏付けられている。
結論として,本手法の実用化例をいくつか紹介する。
プロジェクトページはhttps://omriavrahami.com/the-chosen-oneで公開されている。
Recent advances in text-to-image generation models have unlocked vast potential for visual creativity. However, these models struggle with generation of consistent characters, a crucial aspect for numerous real-world applications such as story visualization, game development asset design, advertising, and more. Current methods typically rely on multiple pre-existing images of the target character or involve labor-intensive manual processes. In this work, we propose a fully automated solution for consistent character generation, with the sole input being a text prompt. We introduce an iterative procedure that, at each stage, identifies a coherent set of images sharing a similar identity and extracts a more consistent identity from this set. Our quantitative analysis demonstrates that our method strikes a better balance between prompt alignment and identity consistency compared to the baseline methods, and these findings are reinforced by a user study. To conclude, we showcase several practical applications of our approach. Project page is available at https://omriavrahami.com/the-chosen-one | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-06 |
# 言語モデルモデレーターはオンライン談話の健康を改善するか?
Can Language Model Moderators Improve the Health of Online Discourse? ( http://arxiv.org/abs/2311.10781v2 ) ライセンス: Link先を確認 | Hyundong Cho, Shuai Liu, Taiwei Shi, Darpan Jain, Basem Rizk, Yuyang Huang, Zixun Lu, Nuan Wen, Jonathan Gratch, Emilio Ferrara, Jonathan May, | (参考訳) オンラインコミュニティの会話のモデレーションは,建設環境における市民性の維持に不可欠であるが,モデレーターのスケールと有害性は困難である。
人間のモデレーターを支援する力乗算器として高度な自然言語生成モジュールを組み込むことは、具体的展望である。
本稿では,モデレーション文献に基づく会話モデレーションの有効性の体系的定義を確立し,現実的かつ安全な評価を行うための設計基準を確立する。
次に、人間の介入とは無関係にモデルのモデレーション能力を評価するための総合的な評価フレームワークを提案する。
社会科学からの洞察を取り入れたモデルが、有害な行動に関する具体的な、公平なフィードバックを提供することができるが、ユーザーの尊敬と協力のレベルを上げるのに苦戦していることを発見した。
Conversational moderation of online communities is crucial to maintaining civility for a constructive environment, but it is challenging to scale and harmful to moderators. The inclusion of sophisticated natural language generation modules as a force multiplier to aid human moderators is a tantalizing prospect, but adequate evaluation approaches have so far been elusive. In this paper, we establish a systematic definition of conversational moderation effectiveness grounded on moderation literature and establish design criteria for conducting realistic yet safe evaluation. We then propose a comprehensive evaluation framework to assess models' moderation capabilities independently of human intervention. With our framework, we conduct the first known study of language models as conversational moderators, finding that appropriately prompted models that incorporate insights from social science can provide specific and fair feedback on toxic behavior but struggle to influence users to increase their levels of respect and cooperation. | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-06 |
# ロボットのためのGPT-4V:人間によるマルチモーダルタスク計画
GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration ( http://arxiv.org/abs/2311.12015v2 ) ライセンス: Link先を確認 | Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi, | (参考訳) 本稿では,汎用視覚言語モデル(GPT-4V(ision))を強化し,ロボット操作のためのワンショット視覚教育を容易にするパイプラインを提案する。
このシステムは、人間がタスクを実行する様子を解析し、アベイランスに対する洞察を取り入れた実行可能なロボットプログラムを出力する。
このプロセスは、GPT-4Vでビデオを分析し、環境や行動の詳細についてテキストで説明することから始まる。
GPT-4ベースのタスクプランナーは、これらの詳細をシンボリックタスクプランにエンコードする。
その後、視覚システムは映像中のタスクプランを空間的・時間的に根拠づける。
オープンボキャブラリオブジェクト検出器を用いてオブジェクトを識別し、手動物体の相互作用を分析して、把握と解放のピンポイントモーメントを解析する。
この時空間的接地により、ロボットの実行に不可欠な余裕情報(例えば、把握タイプ、ウェイポイント、体姿勢)を収集することができる。
様々なシナリオで実験を行い、実際のロボットの動作を1ショットで行う方法の有効性を実証した。
一方、定量検査ではGPT-4Vの幻覚の事例が明らかにされており、パイプラインに人間の監督を組み込むことの重要性が強調されている。
GPT-4V/GPT-4のプロンプトはこのプロジェクトページで見ることができる。
We introduce a pipeline that enhances a general-purpose Vision Language Model, GPT-4V(ision), to facilitate one-shot visual teaching for robotic manipulation. This system analyzes videos of humans performing tasks and outputs executable robot programs that incorporate insights into affordances. The process begins with GPT-4V analyzing the videos to obtain textual explanations of environmental and action details. A GPT-4-based task planner then encodes these details into a symbolic task plan. Subsequently, vision systems spatially and temporally ground the task plan in the videos. Object are identified using an open-vocabulary object detector, and hand-object interactions are analyzed to pinpoint moments of grasping and releasing. This spatiotemporal grounding allows for the gathering of affordance information (e.g., grasp types, waypoints, and body postures) critical for robot execution. Experiments across various scenarios demonstrate the method's efficacy in achieving real robots' operations from human demonstrations in a one-shot manner. Meanwhile, quantitative tests have revealed instances of hallucination in GPT-4V, highlighting the importance of incorporating human supervision within the pipeline. The prompts of GPT-4V/GPT-4 are available at this project page: | 翻訳日:2024-05-08 00:25:31 公開日:2024-05-06 |
# ランダム組合せ探索による量子回路合成
Quantum circuit synthesis via a random combinatorial search ( http://arxiv.org/abs/2311.17298v2 ) ライセンス: Link先を確認 | Sahel Ashhab, Fumiki Yoshihara, Miwako Tsuji, Mitsuhisa Sato, Kouichi Semba, | (参考訳) 我々はランダムな探索手法を用いて、完全な量子状態準備や任意のターゲットを持つユニタリ演算子合成を実装した量子ゲート列を求める。
このアプローチは、単位忠実性を達成するのに必要な単一量子ビットゲートと2量子ビットゲートの最小数であっても、与えられた目標演算を行う際に単位忠実性を達成する量子回路が多数存在するという最近の発見に基づいている。
完全忠実度量子回路の分数は、回路サイズが単位忠実度を達成するために必要な最小回路サイズを超えると、急速に増加することを示す。
この結果から、様々な量子情報処理タスクに対する準最適量子回路は、ランダムに選択された数個の量子回路だけを試して、パラメータを最適化することで、比較的容易に特定できることが示唆された。
CNOTゲートが基本2キュービットゲートである場合の解析に加えて、代替2キュービットゲートの使用の可能性を検討する。
特に、2量子ゲートがBゲートである場合を解析し、2量子演算の最小量子回路サイズを小さくすることが知られている。
ランダム探索法を4ビットトフォリゲートの分解問題に適用し、15個のCNOTゲートの分解を求める。
We use a random search technique to find quantum gate sequences that implement perfect quantum state preparation or unitary operator synthesis with arbitrary targets. This approach is based on the recent discovery that there is a large multiplicity of quantum circuits that achieve unit fidelity in performing a given target operation, even at the minimum number of single-qubit and two-qubit gates needed to achieve unit fidelity. We show that the fraction of perfect-fidelity quantum circuits increases rapidly as soon as the circuit size exceeds the minimum circuit size required for achieving unit fidelity. This result implies that near-optimal quantum circuits for a variety of quantum information processing tasks can be identified relatively easily by trying only a few randomly chosen quantum circuits and optimizing their parameters. In addition to analyzing the case where the CNOT gate is the elementary two-qubit gate, we consider the possibility of using alternative two-qubit gates. In particular, we analyze the case where the two-qubit gate is the B gate, which is known to reduce the minimum quantum circuit size for two-qubit operations. We apply the random search method to the problem of decomposing the 4-qubit Toffoli gate and find a 15 CNOT-gate decomposition. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-06 |
# Spice-E : クロスエンティティアテンションを用いた3次元拡散における構造的優先事項
Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention ( http://arxiv.org/abs/2311.17834v3 ) ライセンス: Link先を確認 | Etai Sella, Gal Fiebelman, Noam Atia, Hadar Averbuch-Elor, | (参考訳) 我々は、事前訓練されたテキストイメージ拡散モデルが利用可能であることから、3Dアセットの自動生成と操作の急速な進歩を目の当たりにしている。
しかし、各サンプルの合成には時間を要する最適化手順が必要であり、3Dコンテンツ作成の民主化の可能性を妨げている。
逆に、3D拡散モデルでは、数百万スケールの3Dデータセットをトレーニングし、高品質なテキスト条件の3Dサンプルを数秒で生成する。
本研究では,3次元拡散モデルに構造的ガイダンスを加えたニューラルネットワークであるSpice-Eについて述べる。
このフレームワークの中核となるのは、複数のエンティティ(特にペア入力と誘導3D形状)が、認知ネットワーク内の内部表現を介して対話できる、クロスエンタリティアテンション機構の導入である。
本機構は,3次元拡散モデルにおけるタスク固有の構造的先行点の学習に有効である。
提案手法は, 3次元スタイリング, 意味的形状の編集, テキスト条件の抽象化-to-3Dなど, プリミティブな抽象化を高度に表現可能な形状に変換する様々なアプリケーションをサポートする。
大規模な実験により、Spice-Eはこれらのタスクに対してSOTA性能を達成する一方で、代替手法よりもかなり高速であることが示された。
重要なことは、これは特定のタスクにアプローチを合わせることなく達成されます。
We are witnessing rapid progress in automatically generating and manipulating 3D assets due to the availability of pretrained text-image diffusion models. However, time-consuming optimization procedures are required for synthesizing each sample, hindering their potential for democratizing 3D content creation. Conversely, 3D diffusion models now train on million-scale 3D datasets, yielding high-quality text-conditional 3D samples within seconds. In this work, we present Spice-E - a neural network that adds structural guidance to 3D diffusion models, extending their usage beyond text-conditional generation. At its core, our framework introduces a cross-entity attention mechanism that allows for multiple entities (in particular, paired input and guidance 3D shapes) to interact via their internal representations within the denoising network. We utilize this mechanism for learning task-specific structural priors in 3D diffusion models from auxiliary guidance shapes. We show that our approach supports a variety of applications, including 3D stylization, semantic shape editing and text-conditional abstraction-to-3D, which transforms primitive-based abstractions into highly-expressive shapes. Extensive experiments demonstrate that Spice-E achieves SOTA performance over these tasks while often being considerably faster than alternative methods. Importantly, this is accomplished without tailoring our approach for any specific task. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-06 |
# 法医学的ツールマーク比較のためのアルゴリズム
An algorithm for forensic toolmark comparisons ( http://arxiv.org/abs/2312.00032v2 ) ライセンス: Link先を確認 | Maria Cuellar, Sheng Gao, Heike Hofmann, | (参考訳) 法医学的ツールマーク分析は、伝統的に主観的人間の判断に依存しており、矛盾と不正確な結果をもたらす。
マーク生成の角度や方向を含む変数の多さは、比較をさらに複雑にする。
そこで本研究では,様々な角度と方向から3次元データキャプチャー・ツールマークを利用する新しい手法を提案する。
アルゴリズムの学習を通じて,ツールマーク信号の客観的な比較を行い,ツールによるクラスタリングを,角度や方向ではなく明らかにする。
本手法は,類似度行列と密度プロットを用いて分類のしきい値を確立し,新しいマークペアの確率比の導出を可能にする。
クロスバリデード感度98%,特異性96%により,ツールマーク解析の信頼性が向上した。
多様なツールや要因の適用性は、さらなる調査を保証しますが、このオープンソースのソリューションは、実証的に訓練された、科学的な検査者に対して、ツールマークを客観的に比較するための標準化された手段を提供し、法体系における正義の流産を抑えることができます。
Forensic toolmark analysis traditionally relies on subjective human judgment, leading to inconsistencies and inaccuracies. The multitude of variables, including angles and directions of mark generation, further complicates comparisons. To address this, we introduce a novel approach leveraging 3D data capturing toolmarks from various angles and directions. Through algorithmic training, we objectively compare toolmark signals, revealing clustering by tool rather than angle or direction. Our method utilizes similarity matrices and density plots to establish thresholds for classification, enabling the derivation of likelihood ratios for new mark pairs. With a cross-validated sensitivity of 98% and specificity of 96%, our approach enhances the reliability of toolmark analysis. While its applicability to diverse tools and factors warrants further exploration, this empirically trained, open-source solution offers forensic examiners a standardized means to objectively compare toolmarks, potentially curbing miscarriages of justice in the legal system. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-06 |
# ヘアピン溶接における深部学習による溶接深さと孔容積予測能力の検討
Investigating the ability of deep learning to predict Welding Depth and Pore Volume in Hairpin Welding ( http://arxiv.org/abs/2312.01606v3 ) ライセンス: Link先を確認 | Amena Darwish, Stefan Ericson, Rohollah Ghasemi, Tobias Andersson, Dan Lönn, Andreas Andersson Lassila, Kent Salomonsson, | (参考訳) 本研究は, 溶接工程における品質保証を向上するため, 溶接深さと平均孔容積の2つの重要な溶接性能特性(KPC)の予測を可能にする頑健な深層学習モデルを提案する。
提案手法では, レーザ溶接キー入力特性 (KIC) の包括的範囲を利用して, 溶接梁ジオメトリー, 溶接供給速度, 溶接梁ジオメトリーの経路繰り返し, およびヘアピン溶接実験から得られた全経路に対する明るい光溶接率について検討した。
2つのディープラーニングネットワークには、複数の隠れた層と線形活性化機能があり、溶接KPCやKICに固有の複雑な非線形接続を捕捉するディープニューラルネットワークの機能を示す。
深層学習ネットワークを小さな数値実験ヘアピン溶接データセットに適用すると,平均細孔体積は0.0641,溶接深度は0.1079となる平均絶対誤差(MAE)値が得られるという有望な結果が得られた。
さらに,提案手法の信頼性を検証した。
このことは、溶接結果の制御において大きな利点を約束し、欠陥分類の監視にのみ依存する現在の傾向を越えている。
To advance quality assurance in the welding process, this study presents a robust deep learning model that enables the prediction of two critical welds Key Performance Characteristics (KPCs): welding depth and average pore volume. In the proposed approach, a comprehensive range of laser welding Key Input Characteristics (KICs) is utilized, including welding beam geometries, welding feed rates, path repetitions for weld beam geometries, and bright light weld ratios for all paths, all of which were obtained from hairpin welding experiments. Two deep learning networks are employed with multiple hidden dense layers and linear activation functions to showcase the capabilities of deep neural networks in capturing the intricate nonlinear connections inherent within welding KPCs and KICs. Applying deep learning networks to the small numerical experimental hairpin welding dataset has shown promising results, achieving Mean Absolute Error (MAE) values as low as 0.1079 for predicting welding depth and 0.0641 for average pore volume. Additionally, the validity verification demonstrates the reliability of the proposed method. This, in turn, promises significant advantages in controlling welding outcomes, moving beyond the current trend of relying merely on monitoring for defect classification. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-06 |
# DUCK:Centroid Kinematicsによる遠隔学習
DUCK: Distance-based Unlearning via Centroid Kinematics ( http://arxiv.org/abs/2312.02052v2 ) ライセンス: Link先を確認 | Marco Cotogni, Jacopo Bonato, Luigi Sabetta, Francesco Pelosin, Alessandro Nicolosi, | (参考訳) 機械学習は新しい分野として成長しており、現代の人工知能モデルでプライバシーを確保する必要性が高まっている。
この技術は主に、トレーニング中にニューラルネットワークが取得した知識から、特定のデータサブセットの残余の影響を根絶することを目的としている。
本研究は,Centroid Kinematics (DUCK) による距離に基づくアンラーニングアルゴリズムを導入した。
アルゴリズムの性能評価は、クラス除去と均質なサンプリング除去という2つの異なるシナリオで、様々なベンチマークデータセット間で行われ、最先端のパフォーマンスが得られる。
また,適応学習スコア (Adaptive Unlearning Score, AUS) と呼ばれる新しい指標を導入し, 対象データに対する未学習プロセスの有効性だけでなく, 元のモデルに対する性能損失の定量化も行った。
さらに、DUCKの未学習メカニズムを徹底的に調査し、機能空間の組織化への影響を調査し、より深い洞察を得るために説明可能なAI技術を採用した。
Machine Unlearning is rising as a new field, driven by the pressing necessity of ensuring privacy in modern artificial intelligence models. This technique primarily aims to eradicate any residual influence of a specific subset of data from the knowledge acquired by a neural model during its training. This work introduces a novel unlearning algorithm, denoted as Distance-based Unlearning via Centroid Kinematics (DUCK), which employs metric learning to guide the removal of samples matching the nearest incorrect centroid in the embedding space. Evaluation of the algorithm's performance is conducted across various benchmark datasets in two distinct scenarios, class removal, and homogeneous sampling removal, obtaining state-of-the-art performance. We also introduce a novel metric, called Adaptive Unlearning Score (AUS), encompassing not only the efficacy of the unlearning process in forgetting target data but also quantifying the performance loss relative to the original model. Additionally, we conducted a thorough investigation of the unlearning mechanism in DUCK, examining its impact on the organization of the feature space and employing explainable AI techniques for deeper insights. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-06 |
# 非マルコフ量子チャネルにおけるデバイス独立量子保護直接通信
Device-Independent Quantum Secure Direct Communication Under Non-Markovian Quantum Channels ( http://arxiv.org/abs/2312.03040v2 ) ライセンス: Link先を確認 | Pritam Roy, Subhankar Bera, Shashank Gupta, A. S. Majumdar, | (参考訳) デバイス非依存型量子セキュアダイレクト通信(DI-QSDC)は、デバイス不完全性やキー管理の問題に対処することを目的とした量子暗号における有望なプリミティブである。
しかし、量子チャネルのデコヒーリング効果による距離制限のような現実的な課題に取り組むためには、多大な努力が必要である。
本稿では,非マルコフ雑音によるDI-QSDCの性能向上効果について検討する。
振幅減衰と減音チャネルによってモデル化された2つの異なる環境力学を考えると、どちらの場合も非マルコフ性はDI-QSDCタスクの3つのベンチマーク性能基準でマルコフ力学よりも大幅に改善される。
具体的には、非マルコフ雑音は、
i)ベル違反によって測定されたプロトコルセキュリティを強化する。
(ii)量子ビット誤り率を低くし、
(iii)秘密通信の容量を増大させることにより、より大きな通信距離を可能にする。
Device-independent quantum secure direct communication (DI-QSDC) is a promising primitive in quantum cryptography aimed towards addressing the problems of device imperfections and key management. However, significant effort is required to tackle practical challenges such as the distance limitation due to the decohering effects of quantum channels. Here, we explore the constructive effect of non-Markovian noise to improve the performance of DI-QSDC. Considering two different environmental dynamics modelled by the amplitude damping and the dephasing channels, we show that for both cases non-Markovianty leads to a considerable improvement over Markovian dynamics in terms of three benchmark performance criteria of the DI-QSDC task. Specifically, we find that non-Markovian noise (i) enhances the protocol security measured by Bell violation, (ii) leads to a lower quantum bit error rate, and (iii) enables larger communication distances by increasing the capacity of secret communication. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-06 |
# 一般化影響関数によるブラックボックス予測のより深い理解
Deeper Understanding of Black-box Predictions via Generalized Influence Functions ( http://arxiv.org/abs/2312.05586v2 ) ライセンス: Link先を確認 | Hyeonsu Lyu, Jonggyu Jang, Sehyun Ryu, Hyun Jong Yang, | (参考訳) 影響関数(IF)は、トレーニングデータがどのようにモデルの振る舞いを変えるかを解明する。
しかし、大規模モデルにおける大きさと非凸性の増加はIFを不正確なものにしている。
この不安定性は、検査データに関係のないパラメータのニュアンス変化を引き起こす可能性のある1次近似から生じるものと考えられる。
しかし、単に選択されたパラメータからの影響を計算すれば、分析されたデータに対する未選択パラメータの隠れた影響を無効化できないため、誤解を招く可能性がある。
そこで本研究では,固定パラメータに対するニュアンス勾配変化を無効化しながら,対象パラメータの影響を正確に推定する一般化IFを導入する。
出力および勾配に基づくパラメータ選択法により、入力データと密接に関連するターゲット更新パラメータを同定する。
クラス削除およびラベル変更タスクにおけるIFの代替として,一般化されたIFを検証した。
実験は、モデルの5倍の更新しかすべてのタスクにまたがる他の影響関数よりも正確な結果が得られないことを示しながら、"less is more"の哲学と一致している。
我々の提案は、モデル最適化、データ分析の実行、IFの制限を超えてAIの解釈可能性の向上のための基礎的なツールとして機能すると考えている。
コードはhttps://github.com/hslyu/GIFで入手できる。
Influence functions (IFs) elucidate how training data changes model behavior. However, the increasing size and non-convexity in large-scale models make IFs inaccurate. We suspect that the fragility comes from the first-order approximation which may cause nuisance changes in parameters irrelevant to the examined data. However, simply computing influence from the chosen parameters can be misleading, as it fails to nullify the hidden effects of unselected parameters on the analyzed data. Thus, our approach introduces generalized IFs, precisely estimating target parameters' influence while nullifying nuisance gradient changes on fixed parameters. We identify target update parameters closely associated with the input data by the output- and gradient-based parameter selection methods. We verify the generalized IFs with various alternatives of IFs on the class removal and label change tasks. The experiments align with the "less is more" philosophy, demonstrating that updating only 5\% of the model produces more accurate results than other influence functions across all tasks. We believe our proposal works as a foundational tool for optimizing models, conducting data analysis, and enhancing AI interpretability beyond the limitation of IFs. Codes are available at https://github.com/hslyu/GIF. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-06 |
# ピアラーニング:アクションレコメンデーションを通じてスクラッチからグループ内の複雑な政策を学ぶ
Peer Learning: Learning Complex Policies in Groups from Scratch via Action Recommendations ( http://arxiv.org/abs/2312.09950v2 ) ライセンス: Link先を確認 | Cedric Derstroff, Mattia Cerrato, Jannis Brugger, Jan Peters, Stefan Kramer, | (参考訳) ピアラーニングは、グループで学ぶエージェントのための新しい高度な強化学習フレームワークである。
標準的な強化学習は、個々のエージェントを試行錯誤方式で訓練するが、ピアラーニングは、それぞれが、エージェントのグループ、すなわちピアが、スクラッチから同時にタスクをマスターすることを学ぶ、関連する設定に対処する。
貴族は、自分の国家と他人が推奨する行動についてのみコミュニケーションを許される:「私の状況では、あなたは何をするのか?
私たちのモチベーションは、これらのエージェントの学習行動を研究することです。
マルチアームバンディット問題として,アクションアドバイス設定における教師選択プロセスを形式化し,探索の必要性を強調した。
最終的に、我々は、仲間の学習行動を分析し、研究グループ内のエージェントのパフォーマンスをランク付けし、どのエージェントが信頼できるアドバイスをするかを理解する能力を観察する。
さらに,ピアラーニングとシングルエージェントラーニング,最先端のアクションアドバイスベースラインを比較した。
離散的かつ連続的なOpenAI Gymドメインにおいて、ピアラーニングがシングルエージェント学習とベースラインを上回っていることを示す。
また、このようなフレームワーク内では、離散的なアクション空間を超えたアクションレコメンデーションからの複雑なポリシーが進化することを示す。
Peer learning is a novel high-level reinforcement learning framework for agents learning in groups. While standard reinforcement learning trains an individual agent in trial-and-error fashion, all on its own, peer learning addresses a related setting in which a group of agents, i.e., peers, learns to master a task simultaneously together from scratch. Peers are allowed to communicate only about their own states and actions recommended by others: "What would you do in my situation?". Our motivation is to study the learning behavior of these agents. We formalize the teacher selection process in the action advice setting as a multi-armed bandit problem and therefore highlight the need for exploration. Eventually, we analyze the learning behavior of the peers and observe their ability to rank the agents' performance within the study group and understand which agents give reliable advice. Further, we compare peer learning with single agent learning and a state-of-the-art action advice baseline. We show that peer learning is able to outperform single-agent learning and the baseline in several challenging discrete and continuous OpenAI Gym domains. Doing so, we also show that within such a framework complex policies from action recommendations beyond discrete action spaces can evolve. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-06 |
# Aharonov-Casher と He-McKellar-Wilkens 相を用いたベル-CHSH不等式試験
Testing Bell-CHSH Inequalities Using topological Aharonov-Casher and He-McKellar-Wilkens Phases ( http://arxiv.org/abs/2312.10837v3 ) ライセンス: Link先を確認 | H. O. Cildiroglu, | (参考訳) Aharonov-Casher (AC) とHe-McKellar-Wilkens (HMW) 相が絡み合ったスピン-1/2量子系に与える影響を調べた。
我々は、位相遅延器で修正したマッハ・ゼンダー型干渉計を用いて、結果として生じる閉軌道の中心に位置する線形電荷分布を用いて位相効果を明らかにする。
我々は,AC-HMW相がベルアングルやベル-CHSH不等式(BI)の最大違反にどのように影響するかを古典的相互作用なしで解析する。
干渉計における粒子のスピンと経路を観測変数として組み込んで、AC-HMW効果の非局所的特徴を利用して、非コンテキスト隠れ変数理論を量子力学に対してテストする。
さらに,本手法の物理系における実装の可能性についても論じる。
The effects of Aharonov-Casher (AC) and He-McKellar-Wilkens (HMW) phases on entangled spin-1/2 quantum systems are investigated. We use linear charge distributions positioned at the center of resulting closed orbits, capitalizing on Mach Zender-type interferometers modified with phase retarders to unveil the topological effects. We analyze how AC-HMW phases influence the Bell angles and maximal violation of Bell-CHSH inequalities (BI) without any classical interaction. We incorporate the spin and path of particles in the interferometers as observables to test noncontextual hidden variable theories against quantum mechanics, leveraging the non-local features of AC-HMW effects. Furthermore, we discuss potential implementations of our scheme in physical systems. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-06 |
# 局所最小確率的説明法
Locally-Minimal Probabilistic Explanations ( http://arxiv.org/abs/2312.11831v3 ) ライセンス: Link先を確認 | Yacine Izza, Kuldeep S. Meel, Joao Marques-Silva, | (参考訳) 説明可能な人工知能(XAI)は、信頼できるAIの基礎として広く研究されている。
残念ながら、ほとんどのXAIの作業は厳密な保証を提供していません。
高度な領域では、例えば人間に影響を与えるAIの使用、説明の厳密さの欠如は破滅的な結果をもたらす可能性がある。
形式的帰納的説明は厳密性の重要な保証を提供するので、機械学習(ML)の高用法に関心がある。
誘惑的な説明の欠点の1つは、人間の意思決定者の認知的限界によって正当化される説明のサイズである。
確率的帰納的説明(PAXps)は、この制限に対処するが、その理論的かつ実践的な複雑さは、その正確な計算をしばしば非現実的にする。
本稿では,PXApsの高精度な近似を行うローカル最小PXApsの計算アルゴリズムを提案する。
実験の結果,提案アルゴリズムの有効性が示された。
Explainable Artificial Intelligence (XAI) is widely regarding as a cornerstone of trustworthy AI. Unfortunately, most work on XAI offers no guarantees of rigor. In high-stakes domains, e.g. uses of AI that impact humans, the lack of rigor of explanations can have disastrous consequences. Formal abductive explanations offer crucial guarantees of rigor and so are of interest in high-stakes uses of machine learning (ML). One drawback of abductive explanations is explanation size, justified by the cognitive limits of human decision-makers. Probabilistic abductive explanations (PAXps) address this limitation, but their theoretical and practical complexity makes their exact computation most often unrealistic. This paper proposes novel efficient algorithms for the computation of locally-minimal PXAps, which offer high-quality approximations of PXAps in practice. The experimental results demonstrate the practical efficiency of the proposed algorithms. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-06 |
# LLMを超えたジェネレーティブAI:マルチモーダルジェネレーションのシステム意味
Generative AI Beyond LLMs: System Implications of Multi-Modal Generation ( http://arxiv.org/abs/2312.14385v2 ) ライセンス: Link先を確認 | Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu, | (参考訳) 大規模な生成AIモデルの開発がテキスト(1D)生成を超えて進化し、画像(2D)とビデオ(3D)生成を含むようになると、空間的および時間的情報の処理は品質、パフォーマンス、効率に固有の課題をもたらす。
本稿では,マルチモーダルテキスト・ツー・イメージ(TTI)とテキスト・ツー・ビデオ(TTV)生成モデルに対する新しいシステム設計空間の理解に向けた最初の研究について述べる。
現在のモデルアーキテクチャ設計は、拡散モデルとトランスフォーマーモデルという2つのカテゴリに分けられる。
8種類のTTI/TTVモデルの系統的性能評価では,Flash Attentionのような最先端の最適化手法を適用した後,ConvolutionはDiffusionベースのTTIモデルの実行時間の最大44%を占め,Linear層はTransformerベースのモデルの実行時間の最大49%を消費している。
また,Diffusion ベースの TTI モデルは LLM 推論の Prefill 段階に似ており,Decode フェーズに類似した Transformer ベースの TTI モデルよりも Flash Attention の 1.1-2.5 倍の高速化が期待できる。
LLM向けに設計された最適化は、直接TTI/TTVモデルにマッピングされないため、新たな最適化機会の洞察を得るために、これらのワークロードを徹底的に評価する必要がある。
このようにして、TTI/TTVモデルの文脈でシーケンス長を定義し、拡散モデル推論において、シーケンス長は最大4倍まで変化する。
さらに、TTVワークロードの時間的側面がユニークなシステムのボトルネックを生じさせ、時間的注意が全注意時間の60%以上を占めていることを観察する。
全体として、当社のシステムパフォーマンス評価は、新たなTTI/TTVワークロードのために、効率的でデプロイ可能なシステムを設計するための重要な第一歩です。
As the development of large-scale Generative AI models evolve beyond text (1D) generation to include image (2D) and video (3D) generation, processing spatial and temporal information presents unique challenges to quality, performance, and efficiency. We present the first work towards understanding this new system design space for multi-modal text-to-image (TTI) and text-to-video (TTV) generation models. Current model architecture designs are bifurcated into 2 categories: Diffusion- and Transformer-based models. Our systematic performance characterization on a suite of eight representative TTI/TTV models shows that after state-of-the-art optimization techniques such as Flash Attention are applied, Convolution accounts for up to 44% of execution time for Diffusion-based TTI models, while Linear layers consume up to 49% of execution time for Transformer-based models. We additionally observe that Diffusion-based TTI models resemble the Prefill stage of LLM inference, and benefit from 1.1-2.5x greater speedup from Flash Attention than Transformer-based TTI models that resemble the Decode phase. Since optimizations designed for LLMs do not map directly onto TTI/TTV models, we must conduct a thorough characterization of these workloads to gain insights for new optimization opportunities. In doing so, we define sequence length in the context of TTI/TTV models and observe sequence length can vary up to 4x in Diffusion model inference. We additionally observe temporal aspects of TTV workloads pose unique system bottlenecks, with Temporal Attention accounting for over 60% of total Attention time. Overall, our in-depth system performance characterization is a critical first step towards designing efficient and deployable systems for emerging TTI/TTV workloads. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-06 |
# 2単位行列の量子畳み込みチャネルと多パラメータ族
Quantum convolutional channels and multiparameter families of 2-unitary matrices ( http://arxiv.org/abs/2312.17719v3 ) ライセンス: Link先を確認 | Rafał Bistroń, Jakub Czartowski, Karol Życzkowski, | (参考訳) 過去10年間に、大きなエンタングリング容量を持つ量子チャネルを構築するための多くの代替手法が提案され、複数の孤立ゲートが作られた。
本研究では,非局所的パラメータの自由度を増大させる畳み込みに触発された新しいものを提案する。
畳み込みの量子対向は純粋な状態には存在しないが、混合状態に対して様々な厳密性を持ついくつかの試みが提案されている。
本研究では,マルチ確率演算のコヒーレント化に基づくアプローチを踏襲し,高いエンタングリング力を持つゲートとの驚くべき接続を実証する。
特に,本手法を用いて構築した畳み込みチャネルにおいて,最大エンタングル力を有するために必要となる条件を同定する。
さらに、二部行列の次元 $d^2$ for $d = 7$ および $d = 9$ の連続クラスを新たに確立し、行列要素の単純なファスティングを超える2ドルと4ドル自由非局所パラメータを、階数 4$ または 4-partite の完全テンソルに対応付ける。
Many alternative approaches to construct quantum channels with large entangling capacities were proposed in the past decade, resulting in multiple isolated gates. In this work, we put forward a novel one, inspired by convolution, which provides greater freedom of nonlocal parameters. Although quantum counterparts of convolution have been shown not to exist for pure states, several attempts with various degrees of rigorousness have been proposed for mixed states. In this work, we follow the approach based on coherifications of multi-stochastic operations and demonstrate a surprising connection to gates with high entangling power. In particular, we identify conditions necessary for the convolutional channels constructed using our method to possess maximal entangling power. Furthermore, we establish new, continuous classes of bipartite 2-unitary matrices of dimension $d^2$ for $d = 7$ and $d = 9$, with $2$ and $4$ free nonlocal parameters beyond simple phasing of matrix elements, corresponding to perfect tensors of rank $4$ or 4-partite absolutely maximally entangled states. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-06 |
# アートの現状 : マルチプロンプトLCM評価のためのコール
State of What Art? A Call for Multi-Prompt LLM Evaluation ( http://arxiv.org/abs/2401.00595v3 ) ライセンス: Link先を確認 | Moran Mizrahi, Guy Kaplan, Dan Malkin, Rotem Dror, Dafna Shahaf, Gabriel Stanovsky, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な評価ベンチマークの開発につながっている。
これらのベンチマークは、通常、特定のタスクで全てのLCMを評価するための単一の命令テンプレートに依存している。
本稿では,3つのベンチマークから20の異なるLLMと39のタスクを含む6.5Mインスタンスを対象とした単発評価により得られた結果の脆さを包括的に解析する。
解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
特定のユースケース(例えば、LLM開発者と、特定の下流タスクに関心のある開発者)に対する調整された評価基準について議論し、より信頼性が高く有意義なLLM機能の評価を確実にする。
次に、これらの基準を実装し、複数のモデルの評価を行い、現在のLLMの真の強みと限界についての洞察を提供する。
Recent advances in large language models (LLMs) have led to the development of various evaluation benchmarks. These benchmarks typically rely on a single instruction template for evaluating all LLMs on a specific task. In this paper, we comprehensively analyze the brittleness of results obtained via single-prompt evaluations across 6.5M instances, involving 20 different LLMs and 39 tasks from 3 benchmarks. To improve robustness of the analysis, we propose to evaluate LLMs with a set of diverse prompts instead. We discuss tailored evaluation metrics for specific use cases (e.g., LLM developers vs. developers interested in a specific downstream task), ensuring a more reliable and meaningful assessment of LLM capabilities. We then implement these criteria and conduct evaluations of multiple models, providing insights into the true strengths and limitations of current LLMs. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-06 |
# スマートウォッチとヘッドマウントカメラ搭載の軽量モーションキャプチャー「Mocap Every Everywhere」
Mocap Everyone Everywhere: Lightweight Motion Capture With Smartwatches and a Head-Mounted Camera ( http://arxiv.org/abs/2401.00847v2 ) ライセンス: Link先を確認 | Jiye Lee, Hanbyul Joo, | (参考訳) 本稿では2つのスマートウォッチとヘッドマウントカメラを用いた軽量で安価なモーションキャプチャー手法を提案する。
6つ以上の専門家レベルのIMUデバイスを使用する既存のアプローチとは対照的に、我々のアプローチはコスト効率が高く便利です。
われわれの方法は、あらゆる場所でウェアラブルのモーションキャプチャーを利用できるようにし、多様な環境で3Dのフルボディモーションキャプチャーを可能にする。
センサ入力の極端な間隔とあいまいさを異なるモードで克服する鍵となるアイデアとして,頭部搭載カメラから得られた6Dヘッドポーズを統合して動作推定を行う。
屋内および屋外のシーンの撮影を可能にするため,多段トランスフォーマーベース回帰モジュールと組み合わせた頭部ポーズ定義のためのフロアレベルの変化の追跡と更新を行うアルゴリズムを提案する。
また、エゴ中心画像の視覚的手がかりを活用して、あいまいさを低減しつつ、モーションキャプチャーの品質をさらに向上させる新しい戦略も導入する。
本研究では,複雑な屋外環境や,オブジェクトのインタラクションや複数の個人間の社会的相互作用を含む日常的な動きなど,様々な難易度シナリオにおいて,本手法の有効性を実証する。
We present a lightweight and affordable motion capture method based on two smartwatches and a head-mounted camera. In contrast to the existing approaches that use six or more expert-level IMU devices, our approach is much more cost-effective and convenient. Our method can make wearable motion capture accessible to everyone everywhere, enabling 3D full-body motion capture in diverse environments. As a key idea to overcome the extreme sparsity and ambiguities of sensor inputs with different modalities, we integrate 6D head poses obtained from the head-mounted cameras for motion estimation. To enable capture in expansive indoor and outdoor scenes, we propose an algorithm to track and update floor level changes to define head poses, coupled with a multi-stage Transformer-based regression module. We also introduce novel strategies leveraging visual cues of egocentric images to further enhance the motion capture quality while reducing ambiguities. We demonstrate the performance of our method on various challenging scenarios, including complex outdoor environments and everyday motions including object interactions and social interactions among multiple individuals. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-06 |
# 重力波による量子バレエ--量子系におけるリバイバル崩壊と記憶の絡み合いのダンスの生成
Quantum ballet by gravitational waves: Generating entanglement's dance of revival-collapse and memory within the quantum system ( http://arxiv.org/abs/2401.02778v2 ) ライセンス: Link先を確認 | Partha Nandi, Bibhas Ranjan Majhi, Nandita Debnath, Subhajit Kala, | (参考訳) 近年、古典的な重力によって媒介される絡み合いを実験的に検出する手法が提案されている。
実際、LIGOにおける重力波(GW)の検出は、様々な重力関連特性をテストするための代替実験室を提供する。
LIGOの腕を重力波(GW)と相互作用する振動子として利用することにより、単純な高調波振動子の2つの直交モード間の量子絡みを発生させる可能性を実証した。
本研究は,GW発振による周期的「崩壊と回復」や,異なる「量子記憶効果」を含む,ユニークな絡み合いのダイナミクスを明らかにする。
実効的には、各高調波発振器は温度を感じる。
これらの予測は、古典的な重力波の様々な特性を理論的に探索し、実験的に検証することの両方に重要であると我々は信じている。
Recent proposals are emerging for the experimental detection of entanglement mediated by classical gravity, carrying significant theoretical and observational implications. In fact, the detection of gravitational waves (GWs) in LIGO provides an alternative laboratory for testing various gravity-related properties. By employing LIGO's arms as oscillators interacting with gravitational waves (GWs), our study demonstrates the potential for generating quantum entanglement between two mutually orthogonal modes of simple harmonic oscillators. Our findings reveal unique entanglement dynamics, including periodic "collapse and revival" influenced by GW oscillations, alongside a distinct "quantum memory effect." Effectively, each harmonic oscillator feels a temperature. We believe that these forecasts may hold significance towards both theoretically probing and experimentally verifying various properties of classical gravitational waves. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-06 |
# FurniScene:複雑なシーンを備えた大規模3Dルームデータセット
FurniScene: A Large-scale 3D Room Dataset with Intricate Furnishing Scenes ( http://arxiv.org/abs/2401.03470v2 ) ライセンス: Link先を確認 | Genghao Zhang, Yuxi Wang, Chuanchen Luo, Shibiao Xu, Zhaoxiang Zhang, Man Zhang, Junran Peng, | (参考訳) 近年、ゲーム、バーチャルリアリティ、インテリアデザインの応用に欠かせないため、屋内シーン生成が注目されている。
現在の屋内シーン生成手法は、合理的な部屋レイアウトを生成することができるが、しばしば多様性とリアリズムを欠いている。
これは主に、日々の生活で小さな家具を使わずに大きな家具だけを含む、既存のデータセットの限られた範囲が原因である。
これらの課題に対処するため、我々は、インテリアデザインの専門家による複雑な家具シーンを備えた大規模な3DルームデータセットであるFurniSceneを提案する。
具体的には、FurniSceneは11,698の部屋と39,691のユニークな家具CADモデルで構成され、89種類の異なるタイプがあり、大きなベッドからコーヒーテーブルの小さなティーカップまでカバーしている。
室内環境の微粒化を図り,新しい2段階拡散シーンモデル(TSDSM)を導入し,FurniSceneに基づく室内環境評価ベンチマークを実施した。
定量的,質的な評価により,室内のリアルなシーンを再現する手法の有効性が示された。
データセットとコードは近く公開されます。
Indoor scene generation has attracted significant attention recently as it is crucial for applications of gaming, virtual reality, and interior design. Current indoor scene generation methods can produce reasonable room layouts but often lack diversity and realism. This is primarily due to the limited coverage of existing datasets, including only large furniture without tiny furnishings in daily life. To address these challenges, we propose FurniScene, a large-scale 3D room dataset with intricate furnishing scenes from interior design professionals. Specifically, the FurniScene consists of 11,698 rooms and 39,691 unique furniture CAD models with 89 different types, covering things from large beds to small teacups on the coffee table. To better suit fine-grained indoor scene layout generation, we introduce a novel Two-Stage Diffusion Scene Model (TSDSM) and conduct an evaluation benchmark for various indoor scene generation based on FurniScene. Quantitative and qualitative evaluations demonstrate the capability of our method to generate highly realistic indoor scenes. Our dataset and code will be publicly available soon. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-06 |
# 生成人工知能が社会経済的不平等と政策形成に及ぼす影響
The impact of generative artificial intelligence on socioeconomic inequalities and policy making ( http://arxiv.org/abs/2401.05377v2 ) ライセンス: Link先を確認 | Valerio Capraro, Austin Lentsch, Daron Acemoglu, Selin Akgun, Aisel Akhmedova, Ennio Bilancini, Jean-François Bonnefon, Pablo Brañas-Garza, Luigi Butera, Karen M. Douglas, Jim A. C. Everett, Gerd Gigerenzer, Christine Greenhow, Daniel A. Hashimoto, Julianne Holt-Lunstad, Jolanda Jetten, Simon Johnson, Chiara Longoni, Pete Lunn, Simone Natale, Iyad Rahwan, Neil Selwyn, Vivek Singh, Siddharth Suri, Jennifer Sutcliffe, Joe Tomlinson, Sander van der Linden, Paul A. M. Van Lange, Friederike Wall, Jay J. Van Bavel, Riccardo Viale, | (参考訳) 生成的人工知能は、既存の社会経済的不平等を悪化させ、改善する可能性がある。
本稿では、生成AIが情報(ミス)と、仕事、教育、医療の3つの情報集約領域に与える影響について、最先端の学際的概要を述べる。
私たちのゴールは、AIが普及する社会問題の緩和にどのように役立つかを明らかにしながら、生成的AIが既存の不平等をいかに悪化させるかを強調することです。
情報領域では、生成AIはコンテンツの創造とアクセスを民主化することができるが、誤情報の生成と拡散を劇的に拡大する可能性がある。
職場では生産性を向上し、新しい仕事を生み出すことができるが、その利点は不均一に分配される可能性が高い。
教育ではパーソナライズされた学習を提供するが、デジタルディビジョンを広げる可能性がある。
医療分野では、診断とアクセシビリティを改善するが、既存の不平等をより深める可能性がある。
各セクションでは、特定のトピックをカバーし、既存の研究を評価し、重要なギャップを特定し、事前仮説の導出を複雑にする明示的なトレードオフを含む研究の方向性を推奨する。
我々は、有害な効果を軽減しつつ、不平等を減らしうる生成的AIの可能性を最大化するための政策決定の役割を強調した節で締めくくります。
我々は、欧州連合、米国、英国における既存の政策枠組みの強みと弱みについて議論し、それぞれの政策が、我々が特定した社会経済的課題に完全に直面することに失敗していることを観察する。
我々は、生成AIの進歩を通じて共有繁栄を促進する具体的政策をいくつか提案する。
この記事では、生成AIの複雑な課題を理解し、解決するために、学際的なコラボレーションの必要性を強調します。
Generative artificial intelligence has the potential to both exacerbate and ameliorate existing socioeconomic inequalities. In this article, we provide a state-of-the-art interdisciplinary overview of the potential impacts of generative AI on (mis)information and three information-intensive domains: work, education, and healthcare. Our goal is to highlight how generative AI could worsen existing inequalities while illuminating how AI may help mitigate pervasive social problems. In the information domain, generative AI can democratize content creation and access, but may dramatically expand the production and proliferation of misinformation. In the workplace, it can boost productivity and create new jobs, but the benefits will likely be distributed unevenly. In education, it offers personalized learning, but may widen the digital divide. In healthcare, it might improve diagnostics and accessibility, but could deepen pre-existing inequalities. In each section we cover a specific topic, evaluate existing research, identify critical gaps, and recommend research directions, including explicit trade-offs that complicate the derivation of a priori hypotheses. We conclude with a section highlighting the role of policymaking to maximize generative AI's potential to reduce inequalities while mitigating its harmful effects. We discuss strengths and weaknesses of existing policy frameworks in the European Union, the United States, and the United Kingdom, observing that each fails to fully confront the socioeconomic challenges we have identified. We propose several concrete policies that could promote shared prosperity through the advancement of generative AI. This article emphasizes the need for interdisciplinary collaborations to understand and address the complex challenges of generative AI. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-06 |
# RandOhm:ランダム化回路構成を用いたインピーダンスサイドチャネル攻撃の軽減
RandOhm: Mitigating Impedance Side-channel Attacks using Randomized Circuit Configurations ( http://arxiv.org/abs/2401.08925v2 ) ライセンス: Link先を確認 | Saleh Khalaj Monfared, Domenic Forte, Shahin Tajik, | (参考訳) 物理的サイドチャネル攻撃は集積回路のセキュリティを損なう可能性がある。
ほとんどの物理的サイドチャネル攻撃(例えば、電力や電磁)は、通常、現在の消費の変化や、マスキングのようなアルゴリズムによる対策がそれらを効果的に軽減できる電圧変動として、チップの動的挙動を利用する。
しかし、最近示されたように、これらの緩和技術はインピーダンス解析のような後方散乱したサイドチャネル攻撃に対して完全には効果がない。
インピーダンス攻撃の場合、敵はチップ電源ネットワーク(PDN)のデータ依存インピーダンス変動を利用して秘密情報を抽出する。
本研究では、メインストリームFPGAの部分再構成(PR)機能に基づいて移動目標防御(MTD)戦略を利用するRandOhmを導入する。
PDNインピーダンスによる情報漏洩は、回路の秘密に敏感な部分の実行時再構成によって大幅に低減できることを示す。
これにより、回路の配置とルーティングを常にランダムにすることで、インピーダンス値からデータ依存の計算を非相関化することができる。
さらに、既存のPRベースの対策とは対照的に、RandOhmはプログラマブルSoCにオープンソースのビットストリーム操作ツールをデプロイし、ランダム化を高速化し、リアルタイム保護を提供する。
本研究では,28nmFPGA上で実現されたAES暗号に対してRandOhmを適用した。
我々は,非目立たずかつプロファイル化されたインピーダンス解析攻撃を行うことで,我々のアプローチのレジリエンスを分析し,遅延や性能の観点から緩和のオーバーヘッドを調査する。
Physical side-channel attacks can compromise the security of integrated circuits. Most physical side-channel attacks (e.g., power or electromagnetic) exploit the dynamic behavior of a chip, typically manifesting as changes in current consumption or voltage fluctuations where algorithmic countermeasures, such as masking, can effectively mitigate them. However, as demonstrated recently, these mitigation techniques are not entirely effective against backscattered side-channel attacks such as impedance analysis. In the case of an impedance attack, an adversary exploits the data-dependent impedance variations of the chip power delivery network (PDN) to extract secret information. In this work, we introduce RandOhm, which exploits a moving target defense (MTD) strategy based on the partial reconfiguration (PR) feature of mainstream FPGAs and programmable SoCs to defend against impedance side-channel attacks. We demonstrate that the information leakage through the PDN impedance could be significantly reduced via runtime reconfiguration of the secret-sensitive parts of the circuitry. Hence, by constantly randomizing the placement and routing of the circuit, one can decorrelate the data-dependent computation from the impedance value. Moreover, in contrast to existing PR-based countermeasures, RandOhm deploys open-source bitstream manipulation tools on programmable SoCs to speed up the randomization and provide real-time protection. To validate our claims, we apply RandOhm to AES ciphers realized on 28-nm FPGAs. We analyze the resiliency of our approach by performing non-profiled and profiled impedance analysis attacks and investigate the overhead of our mitigation in terms of delay and performance. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-06 |
# DiffClone: 拡散駆動型ポリシー学習によるロボットの行動クローンの強化
DiffClone: Enhanced Behaviour Cloning in Robotics with Diffusion-Driven Policy Learning ( http://arxiv.org/abs/2401.09243v2 ) ライセンス: Link先を確認 | Sabariswaran Mani, Abhranil Chandra, Sreyas Venkataraman, Adyan Rizvi, Yash Sirvi, Soumojit Bhattacharya, Aritra Hazra, | (参考訳) ロボット学習タスクは計算集約的でハードウェア固有のものだ。
このように、ロボット操作エージェントのトレーニングに使用できるオフラインデモの多様なデータセットを使用して、これらの課題に対処する道のりは、非常に魅力的である。
Train-Offline-Test-Online (TOTO) Benchmarkは、専門家データと、一般的なオフラインRLと行動クローンエージェントのベンチマークスコアで構成される、オフライントレーニングのための、よく訓練されたオープンソースデータセットを提供する。
本稿では,拡散型ポリシー学習を用いた拡張行動クローニングエージェントのオフラインアルゴリズムであるDiffCloneを紹介し,本手法の有効性を実時間で測定する。
これは、NeurIPS 2023で組織されたTrain-Offline-Test-Online (TOTO) Benchmark Challengeへの公式提出です。
事前学習した視覚表現とエージェントポリシーを実験した。
実験の結果,MOCOファインチューニングされたResNet50は,他のファインチューニングされた表現と比較して最高であることがわかった。
ゴール状態の条件付けとトランジションへのマッピングは、成功率と平均回帰をわずかに増加させた。
DiffCloneは, 条件付き拡散法により改良された行動クローニング剤である。
Robot learning tasks are extremely compute-intensive and hardware-specific. Thus the avenues of tackling these challenges, using a diverse dataset of offline demonstrations that can be used to train robot manipulation agents, is very appealing. The Train-Offline-Test-Online (TOTO) Benchmark provides a well-curated open-source dataset for offline training comprised mostly of expert data and also benchmark scores of the common offline-RL and behaviour cloning agents. In this paper, we introduce DiffClone, an offline algorithm of enhanced behaviour cloning agent with diffusion-based policy learning, and measured the efficacy of our method on real online physical robots at test time. This is also our official submission to the Train-Offline-Test-Online (TOTO) Benchmark Challenge organized at NeurIPS 2023. We experimented with both pre-trained visual representation and agent policies. In our experiments, we find that MOCO finetuned ResNet50 performs the best in comparison to other finetuned representations. Goal state conditioning and mapping to transitions resulted in a minute increase in the success rate and mean-reward. As for the agent policy, we developed DiffClone, a behaviour cloning agent improved using conditional diffusion. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-06 |
# ロバスト多モード密度推定
Robust Multi-Modal Density Estimation ( http://arxiv.org/abs/2401.10566v2 ) ライセンス: Link先を確認 | Anna Mészáros, Julian F. Schumann, Javier Alonso-Mora, Arkady Zgonnikov, Jens Kober, | (参考訳) 確率密度関数の推定は、科学と工学の基本的な問題である。
しかし、カーネル密度推定(KDE)のような一般的な手法はロバスト性を欠いていることが証明されている一方、より複雑な手法はマルチモーダル推定では評価されていない。
本稿では,ROME(RObust Multi-modal Estimator,RObust Multi-modal Estimator,RObust Multi-modal Estimator)を提案する。
ROMEはクラスタリングを利用して、サンプルのマルチモーダルな集合を複数のユニモーダルな集合に分割し、単一のマルチモーダルな推定で個々のクラスタに対して得られた単純なKDE推定を結合する。
提案手法を,密度推定法やROMEの短縮法と比較したところ,確立した手法に勝るだけでなく,様々な分布に対してより堅牢であることがわかった。
以上の結果から,ROMEは,他の推定者による過度な適合性や過度なスムース化の問題を克服できることが示唆された。
The estimation of probability density functions is a fundamental problem in science and engineering. However, common methods such as kernel density estimation (KDE) have been demonstrated to lack robustness, while more complex methods have not been evaluated in multi-modal estimation problems. In this paper, we present ROME (RObust Multi-modal Estimator), a non-parametric approach for density estimation which addresses the challenge of estimating multi-modal, non-normal, and highly correlated distributions. ROME utilizes clustering to segment a multi-modal set of samples into multiple uni-modal ones and then combines simple KDE estimates obtained for individual clusters in a single multi-modal estimate. We compared our approach to state-of-the-art methods for density estimation as well as ablations of ROME, showing that it not only outperforms established methods but is also more robust to a variety of distributions. Our results demonstrate that ROME can overcome the issues of over-fitting and over-smoothing exhibited by other estimators. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-06 |
# リニアアライメント: 調整やフィードバックを伴わない人間の選好調整のためのクローズドフォームソリューション
Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback ( http://arxiv.org/abs/2401.11458v2 ) ライセンス: Link先を確認 | Songyang Gao, Qiming Ge, Wei Shen, Shihan Dou, Junjie Ye, Xiao Wang, Rui Zheng, Yicheng Zou, Zhi Chen, Hang Yan, Qi Zhang, Dahua Lin, | (参考訳) 言語モデル(LLM)に基づくAIアシスタントの成功は、人間のフィードバックからの強化学習(RLHF)に基づいて、ユーザの意図を理解し、一致させる。
しかしながら、PPOのような従来のアライメントアルゴリズムは、複雑なアノテーションとトレーニング要件によって妨げられている。
この依存はRLHFの適用性を制限し、多様な人間の好みに合わせて調整されたプロフェッショナルアシスタントの開発を妨げる。
本研究では,1つの推論ステップで言語モデルと人間の嗜好を一致させる新しいアルゴリズムである「textit{Linear Alignment}」を導入し,データアノテーションやモデルトレーニングへの依存を排除した。
線形アライメントは、分岐制約の下でのポリシー最適化のための新しいパラメータ化を取り入れ、最適ポリシーのクローズドな方法での抽出を可能にし、アライメントされた応答の直接推定を容易にする。
汎用的およびパーソナライズされた嗜好データセットの広範な実験により、線形アライメントは様々なシナリオにおけるLLMアライメントの性能と効率を大幅に向上させることが示された。
我々のコードとデータセットは \url{https://github.com/Wizardcoast/Linear_Alignment.git} で公開されています。
The success of AI assistants based on Language Models (LLMs) hinges on Reinforcement Learning from Human Feedback (RLHF) to comprehend and align with user intentions. However, traditional alignment algorithms, such as PPO, are hampered by complex annotation and training requirements. This reliance limits the applicability of RLHF and hinders the development of professional assistants tailored to diverse human preferences. In this work, we introduce \textit{Linear Alignment}, a novel algorithm that aligns language models with human preferences in one single inference step, eliminating the reliance on data annotation and model training. Linear alignment incorporates a new parameterization for policy optimization under divergence constraints, which enables the extraction of optimal policy in a closed-form manner and facilitates the direct estimation of the aligned response. Extensive experiments on both general and personalized preference datasets demonstrate that linear alignment significantly enhances the performance and efficiency of LLM alignment across diverse scenarios. Our code and dataset is published on \url{https://github.com/Wizardcoast/Linear_Alignment.git}. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-06 |
# サイバー物理システムにおける動的リスクマネジメント
Dynamic Risk Management in Cyber Physical Systems ( http://arxiv.org/abs/2401.13539v2 ) ライセンス: Link先を確認 | Daniel Schneider, Jan Reich, Rasmus Adler, Peter Liggesmeyer, | (参考訳) サイバー物理システム(CPS)は、新しい種類のアプリケーションと、多数の異なるアプリケーションドメインにおける既存のアプリケーションを大幅に改善することを可能にする。
今後のCPSの大きな特徴は、経済の成功や生態学的、社会的な改善の可能性を秘めているため、自律的な点まで自動化の度合いが高まることである。
しかし、このような(協力的かつ自動化された)CPSの可能性を最大限に活用するには、安全保証が特に重要であるいくつかの重要なエンジニアリング課題を克服する必要がある。
残念ながら、確立された安全保証手法や標準は、閉じたより複雑なシステムを念頭に置いて設計されているため、このタスクには達していない。
本稿では,協調型自動CPSの安全性保証課題の構築,動的リスク管理の展望の概要,既存のビルディングブロックについて述べる。
Cyber Physical Systems (CPS) enable new kinds of applications as well as significant improvements of existing ones in numerous different application domains. A major trait of upcoming CPS is an increasing degree of automation up to the point of autonomy, as there is a huge potential for economic success as well as for ecologic and societal improvements. However, to unlock the full potential of such (cooperative and automated) CPS, we first need to overcome several significant engineering challenges, where safety assurance is a particularly important one. Unfortunately, established safety assurance methods and standards do not live up to this task, as they have been designed with closed and less complex systems in mind. This paper structures safety assurance challenges of cooperative automated CPS, provides an overview on our vision of dynamic risk management and describes already existing building blocks. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-06 |
# AIに基づく遠隔生体認証の規制 : 禁止,監査,および公開データベース登録の公衆需要調査
Regulating AI-Based Remote Biometric Identification. Investigating the Public Demand for Bans, Audits, and Public Database Registrations ( http://arxiv.org/abs/2401.13605v3 ) ライセンス: Link先を確認 | Kimon Kieslich, Marco Lünich, | (参考訳) AIは、公共のセキュリティを含む公共部門でますます使われている。
この文脈では、AIによる遠隔生体認証(RBI)システムの使用は、非常に議論の的になっている技術である。
RBIシステムは公共空間における犯罪行為を特定するために使用されるが、偏見を継承し、基本的人権を侵害しているとして批判されている。
したがって、そのようなシステムが公益に開発されることを保証することが重要であり、公益に展開される技術は精査する必要がある。
ビジネスリーダー、政策立案者、科学者の間では、AIは倫理的で信頼できる方法で開発されなければならないという意見が一致しているが、学者らは倫理的ガイドラインは倫理的AIを保証せず、むしろAIのより強力な規制を防ぐものだと主張している。
カウンターウェイトの可能性として、世論は政策立案者に決定的な影響を及ぼし、もしもAIシステムが使われるべき境界と条件を確立することができる。
しかし、AIシステムの規制要求につながる条件についてはほとんど分かっていない。
本研究では,AI技術規制の要求につながる可能性のある潜在的な要因として,AIにおける信頼の役割と,法執行機関に対する信頼に焦点を当てる。
また, RBIに関する識別認知の媒介効果についても検討した。
ドイツ国民を対象にした調査において, RBIの時間的側面(リアルタイム対ポストホック分析)と使用目的(犯罪者の迫害対公共イベントの保護)の異なる4つのユースケースに対する効果を検証した。
ドイツの市民は、RBI規制の要求の観点から異なる申請形態を区別しないことがわかった。
さらに、差別に対する認識がより強い規制の要求につながる一方で、AIへの信頼と法執行機関への信頼は、RBIシステムに対する規制の要求に関して反対の効果をもたらすことを示す。
AI is increasingly being used in the public sector, including public security. In this context, the use of AI-powered remote biometric identification (RBI) systems is a much-discussed technology. RBI systems are used to identify criminal activity in public spaces, but are criticised for inheriting biases and violating fundamental human rights. It is therefore important to ensure that such systems are developed in the public interest, which means that any technology that is deployed for public use needs to be scrutinised. While there is a consensus among business leaders, policymakers and scientists that AI must be developed in an ethical and trustworthy manner, scholars have argued that ethical guidelines do not guarantee ethical AI, but rather prevent stronger regulation of AI. As a possible counterweight, public opinion can have a decisive influence on policymakers to establish boundaries and conditions under which AI systems should be used -- if at all. However, we know little about the conditions that lead to regulatory demand for AI systems. In this study, we focus on the role of trust in AI as well as trust in law enforcement as potential factors that may lead to demands for regulation of AI technology. In addition, we explore the mediating effects of discrimination perceptions regarding RBI. We test the effects on four different use cases of RBI varying the temporal aspect (real-time vs. post hoc analysis) and purpose of use (persecution of criminals vs. safeguarding public events) in a survey among German citizens. We found that German citizens do not differentiate between the different modes of application in terms of their demand for RBI regulation. Furthermore, we show that perceptions of discrimination lead to a demand for stronger regulation, while trust in AI and trust in law enforcement lead to opposite effects in terms of demand for a ban on RBI systems. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-06 |
# ベクトル値波動関数(質量および質量を持たない)に対するポアンカレ群のユニタリ表現の明示的形式と光子局所化および位置作用素への応用
The explicit form of the unitary representation of the Poincaré group for vector-valued wave functions (massive and massless), with applications to photon's localization and position operators ( http://arxiv.org/abs/2401.14217v3 ) ライセンス: Link先を確認 | Arkadiusz Jadczyk, | (参考訳) 我々は、ポアンケア群のユニタリ表現の明示的な形式を幾何学的に導出し、それを単純な偏光基底にスピード・オブ・ライト・ブースターを適用して、可換成分を持つホートン・ベイリス光子位置演算子で終わる。
我々は、他の光子ブースト固有モジュラーに対して明示的な公式を与える。
運動量空間における光円錐上の下層のアフィン接続を調査し、プライス接続が計量半対称であるのに対して、平坦なホートン・ベイリス接続は半対称ではないことを示す。
最後に、閉ループ上に局在した光子状態のローカライズ可能性について議論し、非正規化された不適切な状態とワッシャー状領域上にスミアリングされた有限ノルム波パケットの両方が、可換成分を持つホートン・ベイリス作用素および非可換ジャウチ・ピロン・アムレインPOV測度に関して厳密に局所化されていることを示す。
We geometrically derive the explicit form of the Unitary representation of the Poincare group and use it to apply speed-of-light boosts to simple polarization basis to end up with Hawton-Baylis photon position operator with commuting components. We give explicit formulas for other photon boost eigenmodes. We investigate the underlying affine connections on the light cone in momentum space and find that while Pryce connection is metric semi-symmetric, the flat Hawton-Baylis connection is not semi-symmetric. Finally we discuss localizability of photon states localized on closed loops and show that photon states on the circle, both unnormalized improper states and finite norm wave packet smeared over washer-like regions are strictly localized with respect to Hawton-Baylis operators with commuting components and also with respect to the noncommutative Jauch-Piron-Amrein POV measure. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-06 |
# プラケット鎖上の$\boldsymbol{(2+1)}$D SU(2)格子ゲージ理論の絡み合いエントロピー
Entanglement Entropy of $\boldsymbol{(2+1)}$D SU(2) Lattice Gauge Theory on Plaquette Chains ( http://arxiv.org/abs/2401.15184v2 ) ライセンス: Link先を確認 | Lukas Ebner, Andreas Schäfer, Clemens Seidl, Berndt Müller, Xiaojun Yao, | (参考訳) 線形ラケット鎖上のハミルトンSU(2)格子ゲージ理論のエンタングルエントロピーを2+1$次元で研究し、基底および励起状態のエンタングルエントロピーがページ曲線に従うことを示す。
基底状態の領域法則から高励起状態の体積法則への絡み合いエントロピーのサブシステムサイズ依存性の遷移は、普遍的クロスオーバー関数によって説明できる。
スペクトルの中央にある量子多体傷は、ゲージ理論がイジングモデルに写像できるヒルベルト空間に存在し、高次の電場表現がヒルベルト空間基底に含まれると消滅する。
これは連続体 $(2+1)$-次元 SU(2) ゲージ理論がそのような不足状態を持たないことを示唆している。
We study the entanglement entropy of Hamiltonian SU(2) lattice gauge theory in $2+1$ dimensions on linear plaquette chains and show that the entanglement entropies of both ground and excited states follow Page curves. The transition of the subsystem size dependence of the entanglement entropy from the area law for the ground state to the volume law for highly excited states is found to be described by a universal crossover function. Quantum many-body scars in the middle of the spectrum, which are present in the electric flux truncated Hilbert space, where the gauge theory can be mapped onto an Ising model, disappear when higher electric field representations are included in the Hilbert space basis. This suggests the continuum $(2+1)$-dimensional SU(2) gauge theory does not have such scarred states. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-06 |
# UP-CrackNet: 逆画像復元による教師なしPixel-Wise道路亀裂検出
UP-CrackNet: Unsupervised Pixel-Wise Road Crack Detection via Adversarial Image Restoration ( http://arxiv.org/abs/2401.15647v2 ) ライセンス: Link先を確認 | Nachuan Ma, Rui Fan, Lihua Xie, | (参考訳) 過去10年間で、従来の手動視覚検査技術を置き換えることを目的として、クラックをより効率的に、正確に、客観的に検出する自動化手法が開発されてきた。
これらの手法のうち、セマンティックセグメンテーションアルゴリズムは画素ワイドなき裂検出タスクにおいて有望な結果を示した。
しかし、そのようなネットワークをトレーニングするには、非常に労働集約的で時間を要する、ピクセルレベルのアノテーションを備えた大量の人間アノテーション付きデータセットが必要である。
さらに、教師付き学習ベースの手法は、目に見えないデータセットの一般化性に苦慮することが多い。
そこで本研究では,UP-CrackNetと呼ばれる非教師付き画素単位の道路亀裂検出ネットワークを提案する。
提案手法はまずマルチスケールの正方形マスクを生成し,特定領域を除去して無害道路画像をランダムに選別する。
その後、生成的敵ネットワークを訓練し、周辺未破壊領域から学習した意味的文脈を活用することにより、腐敗した領域を復元する。
テストフェーズでは、入力画像と復元画像との差を計算してエラーマップを生成し、画素ワイドなクラック検出を可能にする。
総合実験の結果,UP-CrackNetは他の汎用的非教師付き異常検出アルゴリズムよりも優れており,最先端の教師付きクラックセグメンテーションアルゴリズムと比較して良好な性能と優れた一般化性を示すことがわかった。
私たちのソースコードは mias.group/UP-CrackNet で公開されています。
Over the past decade, automated methods have been developed to detect cracks more efficiently, accurately, and objectively, with the ultimate goal of replacing conventional manual visual inspection techniques. Among these methods, semantic segmentation algorithms have demonstrated promising results in pixel-wise crack detection tasks. However, training such networks requires a large amount of human-annotated datasets with pixel-level annotations, which is a highly labor-intensive and time-consuming process. Moreover, supervised learning-based methods often struggle with poor generalizability in unseen datasets. Therefore, we propose an unsupervised pixel-wise road crack detection network, known as UP-CrackNet. Our approach first generates multi-scale square masks and randomly selects them to corrupt undamaged road images by removing certain regions. Subsequently, a generative adversarial network is trained to restore the corrupted regions by leveraging the semantic context learned from surrounding uncorrupted regions. During the testing phase, an error map is generated by calculating the difference between the input and restored images, which allows for pixel-wise crack detection. Our comprehensive experimental results demonstrate that UP-CrackNet outperforms other general-purpose unsupervised anomaly detection algorithms, and exhibits satisfactory performance and superior generalizability when compared with state-of-the-art supervised crack segmentation algorithms. Our source code is publicly available at mias.group/UP-CrackNet. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-06 |
# パウリ部分分解法と後処理による行列の量子期待推定の高度化に向けて
Towards enhancing quantum expectation estimation of matrices through partial Pauli decomposition techniques and post-processing ( http://arxiv.org/abs/2401.17640v2 ) ライセンス: Link先を確認 | Dingjie Lu, Yangfan Li, Dax Enshan Koh, Zhao Wang, Jun Liu, Zhuangjian Liu, | (参考訳) 量子コンピュータ上での任意の$n$-qubit行列の期待値を$M \in \mathbb{C}^{2^n\times 2^n}$で推定する手法を提案する。
この処理に4^n$の異なる量子回路を用いたパウリ分解のような従来の手法とは対照的に、我々の手法は最低でも2^n$のユニークな回路を採用しており、帯域幅が限られている行列にはさらに少ない。
この方法では、単量子パウリ作用素のクロネッカー積として形成された可観測関数と、計算基底への直交射影が関係する。
このような可観測性の測定により、測定数の後処理により、$M$の2^n$の異なるエントリに関する情報を同時に収集することができる。
この量子資源の減少は、変分量子固有解法や量子近似最適化アルゴリズムのような予測推定に大きく依存する量子アルゴリズムを加速する能力を提供する、現在のノイズの多い中間量子時代において特に重要である。
We introduce an approach for estimating the expectation values of arbitrary $n$-qubit matrices $M \in \mathbb{C}^{2^n\times 2^n}$ on a quantum computer. In contrast to conventional methods like the Pauli decomposition that utilize $4^n$ distinct quantum circuits for this task, our technique employs at most $2^n$ unique circuits, with even fewer required for matrices with limited bandwidth. Termed the \textit{partial Pauli decomposition}, our method involves observables formed as the Kronecker product of a single-qubit Pauli operator and orthogonal projections onto the computational basis. By measuring each such observable, one can simultaneously glean information about $2^n$ distinct entries of $M$ through post-processing of the measurement counts. This reduction in quantum resources is especially crucial in the current noisy intermediate-scale quantum era, offering the potential to accelerate quantum algorithms that rely heavily on expectation estimation, such as the variational quantum eigensolver and the quantum approximate optimization algorithm. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-06 |
# 位置符号化のないグラフ変換器
Graph Transformers without Positional Encodings ( http://arxiv.org/abs/2401.17791v3 ) ライセンス: Link先を確認 | Ayush Garg, | (参考訳) 近年,グラフ表現学習用トランスフォーマーが普及し,メッセージパッシンググラフニューラルネットワーク(MP-GNN)と組み合わせて,多種多様なグラフデータセット上で最先端のパフォーマンスを実現している。
構造的あるいは位置的エンコーディング(PE)の形で、自然に構造に依存しないトランスフォーマーアーキテクチャにグラフインダクティブビアーゼを注入することが、これらの印象的な結果を達成する鍵となる。
しかし、そのようなエンコーディングの設計は難易度が高く、ラプラシア固有ベクトル、相対ランダムウォーク確率(RRWP)、空間エンコーディング、集中エンコーディング、エッジエンコーディングなど、様々な試みがなされている。
この研究において、注意機構自体がグラフ構造に関する情報を包含している場合、そのような符号化は必要とされないかもしれないと論じる。
グラフのラプラシアンスペクトルを認識する新しいスペクトル対応アテンション機構を採用したグラフ変換器であるEigenformerを導入し、多数の標準GNNベンチマークでSOTAグラフ変換器と競合する性能を実証的に示す。
さらに、Eigenformerがグラフ構造接続行列を表現できることを理論的に証明する。
Recently, Transformers for graph representation learning have become increasingly popular, achieving state-of-the-art performance on a wide-variety of graph datasets, either alone or in combination with message-passing graph neural networks (MP-GNNs). Infusing graph inductive-biases in the innately structure-agnostic transformer architecture in the form of structural or positional encodings (PEs) is key to achieving these impressive results. However, designing such encodings is tricky and disparate attempts have been made to engineer such encodings including Laplacian eigenvectors, relative random-walk probabilities (RRWP), spatial encodings, centrality encodings, edge encodings etc. In this work, we argue that such encodings may not be required at all, provided the attention mechanism itself incorporates information about the graph structure. We introduce Eigenformer, a Graph Transformer employing a novel spectrum-aware attention mechanism cognizant of the Laplacian spectrum of the graph, and empirically show that it achieves performance competetive with SOTA Graph Transformers on a number of standard GNN benchmarks. Additionally, we theoretically prove that Eigenformer can express various graph structural connectivity matrices, which is particularly essential when learning over smaller graphs. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-06 |
# 視覚・言語モデルにおける幻覚に関する調査
A Survey on Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2402.00253v2 ) ライセンス: Link先を確認 | Hanchao Liu, Wenyuan Xue, Yifei Chen, Dapeng Chen, Xiutian Zhao, Ke Wang, Liping Hou, Rongjun Li, Wei Peng, | (参考訳) 近年,LVLM (Large Vision-Language Models) の開発が注目されている。
しかし、実際の視覚コンテンツとそれに対応するテキスト生成との相違は、LVLMを利用する上で重要な課題である。
本研究は,LVLM関連幻覚を解明し,今後の緩和を促進するための総合的な調査である。
我々の調査は、LVLMにおける幻覚の概念の解明から始まり、様々な幻覚症状を示し、LVLMの幻覚に固有のユニークな課題を強調します。
次に,LVLM特有の幻覚評価のためのベンチマークと方法論について概説する。
さらに、これらの幻覚の根本原因を調査し、トレーニングデータやモデルコンポーネントからの洞察を包含する。
また,幻覚を緩和するための既存の方法についても批判的に検討した。
LVLM内の幻覚に関するオープンな質問と今後の方向性について論じ,本調査を結論づける。
Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-06 |
# Direct-a-Video: ユーザ指向カメラモーションとオブジェクトモーションによるカスタマイズビデオ生成
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion ( http://arxiv.org/abs/2402.03162v2 ) ライセンス: Link先を確認 | Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao, | (参考訳) 最近のテキスト・ビデオ拡散モデルは驚くべき進歩を遂げた。
実際には、ユーザーは、カスタマイズされたビデオ作成のために、オブジェクトの動きとカメラの動きを独立して制御する能力を望むことが多い。
しかし、現在の手法では、オブジェクトの動きとカメラの動きを分離的に制御することに集中していないため、テキスト・ビデオモデルの制御性と柔軟性が制限されている。
本稿では,カメラのパンやズームの動きだけでなく,複数のオブジェクトに対する動きを独立して指定するシステムであるDirect-a-Videoを紹介する。
本稿では,物体の動きとカメラの動きの分離制御のための簡易かつ効果的な戦略を提案する。
オブジェクトの動きは、モデル固有の事前値を使用して空間的相互アテンション変調によって制御され、追加の最適化は不要である。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
さらに、これらのレイヤを小さなデータセット上で自己教師型でトレーニングするために拡張ベースのアプローチを採用し、明示的な動作アノテーションの必要性を排除した。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
大規模な実験により,本手法の優位性と有効性を示した。
プロジェクトページとコードはhttps://direct-a-video.github.io/.com/で公開されている。
Recent text-to-video diffusion models have achieved impressive progress. In practice, users often desire the ability to control object motion and camera movement independently for customized video creation. However, current methods lack the focus on separately controlling object motion and camera movement in a decoupled manner, which limits the controllability and flexibility of text-to-video models. In this paper, we introduce Direct-a-Video, a system that allows users to independently specify motions for multiple objects as well as camera's pan and zoom movements, as if directing a video. We propose a simple yet effective strategy for the decoupled control of object motion and camera movement. Object motion is controlled through spatial cross-attention modulation using the model's inherent priors, requiring no additional optimization. For camera movement, we introduce new temporal cross-attention layers to interpret quantitative camera movement parameters. We further employ an augmentation-based approach to train these layers in a self-supervised manner on a small-scale dataset, eliminating the need for explicit motion annotation. Both components operate independently, allowing individual or combined control, and can generalize to open-domain scenarios. Extensive experiments demonstrate the superiority and effectiveness of our method. Project page and code are available at https://direct-a-video.github.io/. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-06 |
# CEHR-GPT: 患者時系列による電子健康記録の作成
CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines ( http://arxiv.org/abs/2402.04400v2 ) ライセンス: Link先を確認 | Chao Pang, Xinzhuo Jiang, Nishanth Parameshwar Pavinkurve, Krishna S. Kalluri, Elise L. Minto, Jason Patterson, Linying Zhang, George Hripcsak, Gamze Gürsoy, Noémie Elhadad, Karthik Natarajan, | (参考訳) シンセティック・エレクトロニック・ヘルス・レコーズ(Synthetic Electronic Health Records, EHR)は、医療アプリケーションや機械学習モデル、特に医療データに直接アクセスしない研究者にとって、重要なツールとして登場した。
ルールベースのアプローチやGAN(Generative Adversarial Network)のような既存の手法は、現実のEHRデータに似た合成データを生成するが、これらの手法はしばしば表形式を使用し、患者の履歴の時間的依存関係を無視し、データの複製を制限する。
近年、EHRデータにGPT(Generative Pre-trained Transformer)を活用することへの関心が高まっている。
これにより、病気の進行分析、人口推定、反事実推論、合成データ生成などの応用が可能になる。
本研究では, CEHR-BERTから派生した患者表現を用いてGPTモデルを学習し, 患者シーケンスを生成し, シームレスに観察医療成果パートナーシップ(OMOP)データフォーマットに変換できることを実証する。
Synthetic Electronic Health Records (EHR) have emerged as a pivotal tool in advancing healthcare applications and machine learning models, particularly for researchers without direct access to healthcare data. Although existing methods, like rule-based approaches and generative adversarial networks (GANs), generate synthetic data that resembles real-world EHR data, these methods often use a tabular format, disregarding temporal dependencies in patient histories and limiting data replication. Recently, there has been a growing interest in leveraging Generative Pre-trained Transformers (GPT) for EHR data. This enables applications like disease progression analysis, population estimation, counterfactual reasoning, and synthetic data generation. In this work, we focus on synthetic data generation and demonstrate the capability of training a GPT model using a particular patient representation derived from CEHR-BERT, enabling us to generate patient sequences that can be seamlessly converted to the Observational Medical Outcomes Partnership (OMOP) data format. | 翻訳日:2024-05-07 23:35:59 公開日:2024-05-06 |
# 解空間における微分演算子作用によるPDEデータ生成の高速化
Accelerating PDE Data Generation via Differential Operator Action in Solution Space ( http://arxiv.org/abs/2402.05957v2 ) ライセンス: Link先を確認 | Huanshuo Dong, Hong Wang, Haoyang Liu, Jian Luo, Jie Wang, | (参考訳) ニューラル演算子 (NO) のようなデータ駆動手法の最近の進歩は、部分微分方程式 (PDE) の解法時間を短縮する効果を実証している。
しかし、これらのアプローチが直面している大きな課題は、生成プロセス中にかなりの計算コストを必要とする大量の高精度なトレーニングデータを必要とすることである。
そこで本研究では,PDEデータセット生成アルゴリズム,すなわち解空間における微分演算子アクション(DiffOAS)を提案し,データ生成プロセスを高速化し,生成したデータの精度を同時に向上する。
具体的には、DiffOASはいくつかの基本的なPDEソリューションを取得し、それらを組み合わせてソリューションを得る。
これらの解に対して微分演算子、すなわち「演算アクション」と呼ばれるプロセスを適用して、正確なPDEデータポイントを効率的に生成する。
理論的解析により、DiffOAS法の時間複雑性は、既存の生成法よりも1次低いことが示されている。
実験の結果,DiffOASは1万インスタンスの大規模データセットの生成を300倍加速することがわかった。
生成時間の5%に過ぎず、DiffOASが生成したデータに基づいてトレーニングされたNOは、既存の生成方法と同等のパフォーマンスを示し、DiffOASの効率を強調している。
Recent advancements in data-driven approaches, such as Neural Operator (NO), have demonstrated their effectiveness in reducing the solving time of Partial Differential Equations (PDEs). However, one major challenge faced by these approaches is the requirement for a large amount of high-precision training data, which needs significant computational costs during the generation process. To address this challenge, we propose a novel PDE dataset generation algorithm, namely Differential Operator Action in Solution space (DiffOAS), which speeds up the data generation process and enhances the precision of the generated data simultaneously. Specifically, DiffOAS obtains a few basic PDE solutions and then combines them to get solutions. It applies differential operators on these solutions, a process we call 'operator action', to efficiently generate precise PDE data points. Theoretical analysis shows that the time complexity of DiffOAS method is one order lower than the existing generation method. Experimental results show that DiffOAS accelerates the generation of large-scale datasets with 10,000 instances by 300 times. Even with just 5% of the generation time, NO trained on the data generated by DiffOAS exhibits comparable performance to that using the existing generation method, which highlights the efficiency of DiffOAS. | 翻訳日:2024-05-07 23:35:59 公開日:2024-05-06 |
# マルチタスク政策学習における視覚特徴のタスク条件適応
Task-conditioned adaptation of visual features in multi-task policy learning ( http://arxiv.org/abs/2402.07739v4 ) ライセンス: Link先を確認 | Pierre Marza, Laetitia Matignon, Olivier Simonin, Christian Wolf, | (参考訳) さまざまなタスクにうまく対処することは、自律エージェントの中核的な能力であり、根底にある意思決定戦略に柔軟に適応する必要がある。
類似した議論は人間の視覚システムであり、それは現在のタスクによって決定される注意に焦点を合わせるためにトップダウン信号を使用する。
同様に、マルチタスク政策学習の文脈において、特定の下流タスクに条件付けされた事前学習された大規模視覚モデルを適用する。
予め訓練した重みを微調整する必要のないタスク条件付きアダプタと、動作のクローンを訓練した単一ポリシーを組み合わせて、複数のタスクに対処可能なタスク条件付きアダプタを提案する。
タスクの埋め込みに対して視覚的アダプタを条件とし、タスクが分かっている場合や、例示の集合から推測された場合、推論時に選択できる。
そこで本研究では,最適化に基づく新しい推定手法を提案する。
我々は,CortexBenchベンチマークから多種多様なタスクに対する手法の評価を行い,既存の作業と比べ,一つのポリシーで対処できることを示した。
特に,視覚的特徴を適応させることが重要な設計選択であり,いくつかの実演を行うと,その手法が目に見えないタスクに一般化されることを実証する。
Successfully addressing a wide variety of tasks is a core ability of autonomous agents, requiring flexibly adapting the underlying decision-making strategies and, as we argue in this work, also adapting the perception modules. An analogical argument would be the human visual system, which uses top-down signals to focus attention determined by the current task. Similarly, we adapt pre-trained large vision models conditioned on specific downstream tasks in the context of multi-task policy learning. We introduce task-conditioned adapters that do not require finetuning any pre-trained weights, combined with a single policy trained with behavior cloning and capable of addressing multiple tasks. We condition the visual adapters on task embeddings, which can be selected at inference if the task is known, or alternatively inferred from a set of example demonstrations. To this end, we propose a new optimization-based estimator. We evaluate the method on a wide variety of tasks from the CortexBench benchmark and show that, compared to existing work, it can be addressed with a single policy. In particular, we demonstrate that adapting visual features is a key design choice and that the method generalizes to unseen tasks given a few demonstrations. | 翻訳日:2024-05-07 23:35:59 公開日:2024-05-06 |
# 高次元システムにおける効率的な推論のためのガウスアンサンブル信念伝播
Gaussian Ensemble Belief Propagation for Efficient Inference in High-Dimensional Systems ( http://arxiv.org/abs/2402.08193v3 ) ライセンス: Link先を確認 | Dan MacKinlay, Russell Tsuchida, Dan Pagendam, Petra Kuhnert, | (参考訳) 高次元モデルにおける効率的な推論は、マシンラーニングにおいて依然として中心的な課題である。
本稿では,Gaussian Ensemble Belief Propagation (GEnBP)アルゴリズム,Ensemble KalmanフィルタとGaBP法の融合について述べる。
GEnBPは、グラフィックモデル上で低ランクのローカルメッセージを渡すことでアンサンブルを更新する。
この組み合わせはそれぞれの方法から好ましい品質を継承する。
アンサンブル技術により、GEnBPは高次元状態、パラメータ、複雑なノイズ、ブラックボックス生成プロセスを扱うことができる。
グラフィカルモデル構造におけるローカルメッセージの使用により、アプローチが複雑な依存構造を効率的に扱うことができる。
アンサンブルサイズが推論次元よりもかなり小さい場合、GEnBPは有利である。
このシナリオは時空間モデリング、画像処理、物理モデル反転といった分野にしばしば現れる。
GEnBPは、データ同化、システム識別、階層モデルなどの一般的な問題構造に適用できる。
サポートコードはhttps://github.com/danmackinlay/GEnBPで入手できる。
Efficient inference in high-dimensional models remains a central challenge in machine learning. This paper introduces the Gaussian Ensemble Belief Propagation (GEnBP) algorithm, a fusion of the Ensemble Kalman filter and Gaussian Belief Propagation (GaBP) methods. GEnBP updates ensembles by passing low-rank local messages over a graphical model. This combination inherits favourable qualities from each method. Ensemble techniques allow GEnBP to handle high-dimensional states, parameters and intricate, noisy, black-box generation processes. The use of local messages in a graphical model structure ensures that the approach can efficiently handle complex dependence structures. GEnBP is advantageous when the ensemble size may be considerably smaller than the inference dimension. This scenario often arises in fields such as spatiotemporal modelling, image processing and physical model inversion. GEnBP can be applied to general problem structures, including data assimilation, system identification and hierarchical models. Supporting code is available at https://github.com/danmackinlay/GEnBP | 翻訳日:2024-05-07 23:35:59 公開日:2024-05-06 |
# 妖精の物語に比例する価値--ドイツ、イタリア、ポルトガルの伝承を例に
Values That Are Explicitly Present in Fairy Tales: Comparing Samples from German, Italian and Portuguese Traditions ( http://arxiv.org/abs/2402.08318v3 ) ライセンス: Link先を確認 | Alba Morollon Diaz-Faes, Carla Sofia Ribeiro Murteira, Martin Ruskov, | (参考訳) 妖精の物語で社会的価値がどのように表現されるかを見てみると、文化間の価値の伝達のバリエーションについての洞察が得られる。
本研究では,ポルトガル,イタリア,ドイツの妖精話において,語彙の違いと共通点を定量化するために,コンパスに単語を埋め込む手法を用いて,どのように価値が伝達されるかを検討する。
我々はこれらの3つの国家伝統が、価値への明確な参照においてどのように異なるかを研究する。
これを実現するために、値チャージされたトークンのリストを指定し、それらの単語の幹を考慮し、これら間の距離を事前学習されたWord2Vecモデルで分析する。
この定量的モデルから生じる仮説の有効性を三角測量し、批判的に議論する。
我々の主張では、これは歴史的コーパスで明示的に参照された値の研究において、再利用可能な再現可能な方法である。
最後に,我々の予備的な知見は,パンヨーロッパ文化記憶の潜在的な存在を示唆し,文化的理解の共有と,研究文化全体にわたるベネヴァレンス,コンフォーマル性,普遍主義といった価値観の表現を示唆するものである。
Looking at how social values are represented in fairy tales can give insights about the variations in communication of values across cultures. We study how values are communicated in fairy tales from Portugal, Italy and Germany using a technique called word embedding with a compass to quantify vocabulary differences and commonalities. We study how these three national traditions differ in their explicit references to values. To do this, we specify a list of value-charged tokens, consider their word stems and analyse the distance between these in a bespoke pre-trained Word2Vec model. We triangulate and critically discuss the validity of the resulting hypotheses emerging from this quantitative model. Our claim is that this is a reusable and reproducible method for the study of the values explicitly referenced in historical corpora. Finally, our preliminary findings hint at a shared cultural understanding and the expression of values such as Benevolence, Conformity, and Universalism across the studied cultures, suggesting the potential existence of a pan-European cultural memory. | 翻訳日:2024-05-07 23:35:58 公開日:2024-05-06 |
# エンタングルメント顕微鏡:量子モンテカルロによるトモグラフィーとエンタングルメント対策
Entanglement Microscopy: Tomography and Entanglement Measures via Quantum Monte Carlo ( http://arxiv.org/abs/2402.14916v3 ) ライセンス: Link先を確認 | Ting-Tung Wang, Menghan Song, Liuke Lyu, William Witczak-Krempa, Zi Yang Meng, | (参考訳) 我々は, 量子モンテカルロシミュレーションにおいて, エンタングルメント顕微鏡と呼ばれるプロトコルを開発し, 量子モンテカルロシミュレーションにおいて, 量子領域に付随する全密度行列を求める。
我々の顕微鏡は量子状態トモグラフィーを可能にし、対数ネガティビティ(LN)のような真の絡み合い対策にアクセスできる。
本研究では,2次元の量子臨界点(QCP)近傍の位相図(横場イジングモデル)とディラックフェルミオンのグロス・ネヴェウ・ユーカ転移(Gross-Neveu-Yukawa transition)について検討した。
私たちの主な成果は次のとおりです。
一 イシングQCPは、空間及び温度の両方において、LNの有限の急死を伴う短距離絡みを呈する。
二 グロス・ネヴェウ QCP は、共形場理論(CFT)指数と整合するパワー-ルー崩壊フェルミオン LN を有する。
iii) 2dのIsing QCP近傍の大きなパラメータウィンドウでは,検出可能な3方向の絡み合いが見つからない。
また、一般的な相互作用系に対するフェルミオンLNの大規模温度法則スケーリングを解析的に取得する。
我々のアプローチでは、走査型トンネル顕微鏡による原子スケールイメージングと類似した方法で量子状態トモグラフィーを局所的に行うことができる。
制御された絡み合い顕微鏡は、新しい窓を量子物質に開き、無数のシステムが探索されるのを待つ。
We develop a protocol, dubbed entanglement microscopy, to obtain the full reduced density matrix associated with subregions in quantum Monte Carlo simulations for bosonic and fermionic manybody systems. Our microscopy allows to perform quantum state tomography, and thus gives access to true entanglement measures, such as the logarithmic negativity (LN). We exemplify our method by studying the phase diagram near quantum critical points (QCP) in 2 spatial dimensions: the transverse field Ising model and a Gross-Neveu-Yukawa transition of Dirac fermions. Our main results are: i) the Ising QCP exhibits short-range entanglement with a finite sudden death of the LN both in space and temperature; ii) the Gross-Neveu QCP has a power-law decaying fermionic LN consistent with conformal field theory (CFT) exponents; iii) going beyond bipartite entanglement, we find no detectable 3-party entanglement in a large parameter window near the Ising QCP in 2d, in contrast to 1d. We also analytically obtain the large-temperature power law scaling of the fermionic LN for general interacting systems. Our approach allows one to perform quantum state tomography locally in a way that is analogous to atomic-scale imaging with a scanning tunneling microscope. Controlled entanglement microscopy opens a new window into quantum matter, with countless systems waiting to be explored. | 翻訳日:2024-05-07 23:35:58 公開日:2024-05-06 |
# RePLAY: スパース軌道上の位置予測のための人体移動の時間変化時間規則性をモデル化する
REPLAY: Modeling Time-Varying Temporal Regularities of Human Mobility for Location Prediction over Sparse Trajectories ( http://arxiv.org/abs/2402.16310v2 ) ライセンス: Link先を確認 | Bangchao Deng, Bingqing Qu, Pengyang Wang, Dingqi Yang, Benjamin Fankhauser, Philippe Cudre-Mauroux, | (参考訳) 位置情報予測は、過去のユーザモビリティトレースに基づいて、ユーザの位置情報を予測する。
現実のユーザモビリティトレースの本質的なスパーシリティ問題に対処するために、時空間的コンテキストは極めて有用であることが示されている。
既存のソリューションでは、リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)に追加入力として入力するか、あるいは予測のために情報を隠した状態を探すことで、モビリティトレース内の位置間の時空間距離を多く含んでいる。
しかし、このような距離に基づく手法は、例えば、時間的距離以外の実際のタイムスタンプの有用性が示唆されるような、朝の移動がより規則的であるような、時間的移動の時間的規則性を捉えることができない。
そこで本研究では,位置予測のための時間変化時間規則を抽出する一般RNNアーキテクチャであるREPLAYを提案する。
特に、RePLAYはスパース軌跡における時空間距離を利用して情報的過去の隠蔽状態を探索するだけでなく、異なるタイムスタンプの異なる強度の時間規則性に柔軟に適応できるガウス重み付き平均学習帯域を用いたスムーズなタイムスタンプ埋め込みを組み込むことにより、時間変化の時空間正規性に対応する。
我々の広範囲な評価は、REPLAYと2つの実世界のデータセット上の最先端技術の膨大なコレクションを比較している。
その結果、REPLAYは、位置予測タスクにおいて、7.7\%-10.9\%の最先端手法を一貫して大幅に上回り、帯域幅は時間変化の時間的規則性の興味深いパターンを示すことがわかった。
Location prediction forecasts a user's location based on historical user mobility traces. To tackle the intrinsic sparsity issue of real-world user mobility traces, spatiotemporal contexts have been shown as significantly useful. Existing solutions mostly incorporate spatiotemporal distances between locations in mobility traces, either by feeding them as additional inputs to Recurrent Neural Networks (RNNs) or by using them to search for informative past hidden states for prediction. However, such distance-based methods fail to capture the time-varying temporal regularities of human mobility, where human mobility is often more regular in the morning than in other periods, for example; this suggests the usefulness of the actual timestamps besides the temporal distances. Against this background, we propose REPLAY, a general RNN architecture learning to capture the time-varying temporal regularities for location prediction. Specifically, REPLAY not only resorts to the spatiotemporal distances in sparse trajectories to search for the informative past hidden states, but also accommodates the time-varying temporal regularities by incorporating smoothed timestamp embeddings using Gaussian weighted averaging with timestamp-specific learnable bandwidths, which can flexibly adapt to the temporal regularities of different strengths across different timestamps. Our extensive evaluation compares REPLAY against a sizable collection of state-of-the-art techniques on two real-world datasets. Results show that REPLAY consistently and significantly outperforms state-of-the-art methods by 7.7\%-10.9\% in the location prediction task, and the bandwidths reveal interesting patterns of the time-varying temporal regularities. | 翻訳日:2024-05-07 23:35:58 公開日:2024-05-06 |
# 単語よりも話者に耳を傾ける行動:生成レコメンデーションのためのトリリオンパラメータシークエンシャルトランスデューサ
Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations ( http://arxiv.org/abs/2402.17152v3 ) ライセンス: Link先を確認 | Jiaqi Zhai, Lucy Liao, Xing Liu, Yueming Wang, Rui Li, Xuan Cao, Leon Gao, Zhaojie Gong, Fangda Gu, Michael He, Yinghai Lu, Yu Shi, | (参考訳) 大規模レコメンデーションシステムは、高濃度、不均一な特徴に頼り、毎日数千億のユーザーアクションを扱う必要があることが特徴である。
何千もの機能を備えた大量のデータでトレーニングされているにも関わらず、業界におけるほとんどのDeep Learning Recommendation Model(DLRM)は、計算処理ではスケールできない。
言語および視覚領域におけるトランスフォーマーの成功に触発され、推奨システムの基本設計選択を再考する。
生成型モデリングフレームワーク(Generative Recommenders)内の逐次的変換タスクとしてレコメンデーション問題を再構成し,高濃度非定常ストリーミングレコメンデーションデータ用に設計された新しいアーキテクチャHSTUを提案する。
HSTUは、合成データセットと公開データセットのベースラインを65.8% NDCGで上回り、FlashAttention2ベースの8192のトランスフォーマーよりも5.3倍から15.2倍高速である。
HSTUベースのGenerative Recommendersは1.5兆のパラメータを持ち、オンラインA/Bテストのメトリクスを12.4%改善し、数十億のユーザがいる大規模なインターネットプラットフォームの複数の面にデプロイされている。
さらに重要なのは、ジェネレーティブ・リコメンダのモデル品質は、GPT-3/LLaMa-2スケールまでの3桁のトレーニング計算の強力な法則として実証的にスケールし、将来のモデル開発に必要な炭素フットプリントを減らすとともに、推奨の最初の基礎モデルへの道を開くことである。
Large-scale recommendation systems are characterized by their reliance on high cardinality, heterogeneous features and the need to handle tens of billions of user actions on a daily basis. Despite being trained on huge volume of data with thousands of features, most Deep Learning Recommendation Models (DLRMs) in industry fail to scale with compute. Inspired by success achieved by Transformers in language and vision domains, we revisit fundamental design choices in recommendation systems. We reformulate recommendation problems as sequential transduction tasks within a generative modeling framework ("Generative Recommenders"), and propose a new architecture, HSTU, designed for high cardinality, non-stationary streaming recommendation data. HSTU outperforms baselines over synthetic and public datasets by up to 65.8% in NDCG, and is 5.3x to 15.2x faster than FlashAttention2-based Transformers on 8192 length sequences. HSTU-based Generative Recommenders, with 1.5 trillion parameters, improve metrics in online A/B tests by 12.4% and have been deployed on multiple surfaces of a large internet platform with billions of users. More importantly, the model quality of Generative Recommenders empirically scales as a power-law of training compute across three orders of magnitude, up to GPT-3/LLaMa-2 scale, which reduces carbon footprint needed for future model developments, and further paves the way for the first foundational models in recommendations. | 翻訳日:2024-05-07 23:35:58 公開日:2024-05-06 |
# 修正フィードバックを用いたニューラル自動筆記評価
Neural Automated Writing Evaluation with Corrective Feedback ( http://arxiv.org/abs/2402.17613v2 ) ライセンス: Link先を確認 | Izia Xiaoxiao Wang, Xihan Wu, Edith Coates, Min Zeng, Jiexin Kuang, Siliang Liu, Mengyang Qiu, Jungyeul Park, | (参考訳) 第二言語学習と教育におけるテクノロジーの利用は、ますます広まりつつある。
書字能力の向上と学習者への即時的かつ個別的なフィードバックの提供において,AWE と文法的誤り訂正 (GEC) が極めて普及し,有効な手法となっている。
自然言語処理(NLP)と機械学習アルゴリズムの力を活用して、AWEとGECシステムは別々に開発され、言語学習者に自動修正フィードバックと、検査対象となるより正確で偏りのないスコアを提供する。
本稿では,第2言語学習者を対象としたAWEとGECのギャップを埋める手段として,修正フィードバックを用いた自動筆記評価システムを提案する。
このシステムにより、言語学習者はエッセイを書くためのエッセイをシミュレートすることができる: 学生はエッセイを書いて提出し、システムは提案された文法的誤り訂正と共に文章の評価を返却する。
自動採点と文法的補正が人間の採点よりも効率的で費用対効果が高いことを考えると、この統合システムは無数のエッセイを手作業で修正する負担を軽減する。
The utilization of technology in second language learning and teaching has become ubiquitous. For the assessment of writing specifically, automated writing evaluation (AWE) and grammatical error correction (GEC) have become immensely popular and effective methods for enhancing writing proficiency and delivering instant and individualized feedback to learners. By leveraging the power of natural language processing (NLP) and machine learning algorithms, AWE and GEC systems have been developed separately to provide language learners with automated corrective feedback and more accurate and unbiased scoring that would otherwise be subject to examiners. In this paper, we propose an integrated system for automated writing evaluation with corrective feedback as a means of bridging the gap between AWE and GEC results for second language learners. This system enables language learners to simulate the essay writing tests: a student writes and submits an essay, and the system returns the assessment of the writing along with suggested grammatical error corrections. Given that automated scoring and grammatical correction are more efficient and cost-effective than human grading, this integrated system would also alleviate the burden of manually correcting innumerable essays. | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-06 |
# ステップ・バイ・ステップ:チェーン・オブ・ソート推論の力学的理解
How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning ( http://arxiv.org/abs/2402.18312v2 ) ライセンス: Link先を確認 | Subhabrata Dutta, Joykirat Singh, Soumen Chakrabarti, Tanmoy Chakraborty, | (参考訳) CoT(Chain-of-Thought)を刺激するLarge Language Models(LLMs)による優れた推論技術にもかかわらず、CoT生成を促進するモデルの内部メカニズムに関する理解の欠如が一般的である。
本研究では、機械的観点からCoT推論を示すLLM内の神経サブ構造について検討する。
Llama-2 7Bを架空のオントロジー上の多段階推論に適用した解析から,LLMがステップバイステップ推論のために複数のパラレルな応答生成経路を展開できることを実証した。
これらの並列経路は、入力された質問コンテキストと生成されたCoTからの逐次応答を提供する。
LLMの中層における機能的亀裂を観察する。
前半のトークン表現は、後段のコンテクストが後段のコンテクストに取って代わる前段に強く偏ったままである。
この内部位相シフトは異なる機能成分で表される: 応答トークンを書く注意頭は後半に現れ、情報をオントロジ的関係に沿って移動する注意頭は前半に現れる。
我々の知る限りでは、LLMにおけるCoT推論の機械論的研究への最初の試みである。
Despite superior reasoning prowess demonstrated by Large Language Models (LLMs) with Chain-of-Thought (CoT) prompting, a lack of understanding prevails around the internal mechanisms of the models that facilitate CoT generation. This work investigates the neural sub-structures within LLMs that manifest CoT reasoning from a mechanistic point of view. From an analysis of Llama-2 7B applied to multistep reasoning over fictional ontologies, we demonstrate that LLMs deploy multiple parallel pathways of answer generation for step-by-step reasoning. These parallel pathways provide sequential answers from the input question context as well as the generated CoT. We observe a functional rift in the middle layers of the LLM. Token representations in the initial half remain strongly biased towards the pretraining prior, with the in-context prior taking over in the later half. This internal phase shift manifests in different functional components: attention heads that write the answer token appear in the later half, attention heads that move information along ontological relationships appear in the initial half, and so on. To the best of our knowledge, this is the first attempt towards mechanistic investigation of CoT reasoning in LLMs. | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-06 |
# EAMA : エンティティ対応マルチモーダルアライメントに基づくニューズ画像キャプションのためのアプローチ
EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning ( http://arxiv.org/abs/2402.19404v4 ) ライセンス: Link先を確認 | Junzhe Zhang, Huixuan Zhang, Xunjian Yin, Xiaojun Wan, | (参考訳) ニュース画像キャプションは、ニュース画像と関連するニュース記事とともに、エンティティに富んだ情報キャプションを生成するモデルを必要とする。
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクに対処する際、目覚ましい機能を示したが、現在のMLLMは、ニュース画像キャプションタスクのエンティティ情報に制限がある。
また、MLLMは長い入力を処理できるが、高品質なニュース画像キャプションを生成するには、テキスト入力情報の十分性と簡潔さのトレードオフが必要である。
MLLMの可能性を探求し,我々が発見した問題に対処するために,ニュース画像キャプションのためのEntity-Aware Multimodal Alignmentに基づくアプローチを提案する。
我々はまず,バランストレーニング戦略を通じてMLLMを2つの追加アライメントタスク – エンティティ・アウェア・センテンス選択タスクとエンティティ選択タスク,およびNews Image Captioningタスク – に整合させ,マルチモーダルなエンティティ情報を扱う能力を高める。
整列MLLMは、明示的に抽出するエンティティ関連情報を利用して、ニュース画像キャプションを生成しながらテキスト入力を補完する。
提案手法は,GoodNewsデータセット(72.33 -> 88.39)とNYTimes800kデータセット(70.83 -> 85.61)のCIDErスコアよりも優れた結果が得られる。
News image captioning requires model to generate an informative caption rich in entities, with the news image and the associated news article. Though Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in addressing various vision-language tasks, our research finds that current MLLMs still bear limitations in handling entity information on news image captioning task. Besides, while MLLMs have the ability to process long inputs, generating high-quality news image captions still requires a trade-off between sufficiency and conciseness of textual input information. To explore the potential of MLLMs and address problems we discovered, we propose : an Entity-Aware Multimodal Alignment based approach for news image captioning. Our approach first aligns the MLLM through Balance Training Strategy with two extra alignment tasks: Entity-Aware Sentence Selection task and Entity Selection task, together with News Image Captioning task, to enhance its capability in handling multimodal entity information. The aligned MLLM will utilizes the additional entity-related information it explicitly extracts to supplement its textual input while generating news image captions. Our approach achieves better results than all previous models in CIDEr score on GoodNews dataset (72.33 -> 88.39) and NYTimes800k dataset (70.83 -> 85.61). | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-06 |
# PEM:画像セグメンテーションのためのプロトタイプベース効率的なマスクフォーマ
PEM: Prototype-based Efficient MaskFormer for Image Segmentation ( http://arxiv.org/abs/2402.19422v3 ) ライセンス: Link先を確認 | Niccolò Cavagnero, Gabriele Rosi, Claudia Cuttano, Francesca Pistilli, Marco Ciccone, Giuseppe Averta, Fabio Cermelli, | (参考訳) 最近のトランスベースのアーキテクチャは、画像セグメンテーションの分野で印象的な成果を上げている。
柔軟性により、単一の統一フレームワークの下で、セグメンテーションタスク(セグメンテーションタスク、セグメンテーションタスク、セグメンテーションタスク)において優れたパフォーマンスを得る。
このような印象的な性能を達成するために、これらのアーキテクチャは集中的な演算を採用し、特にエッジデバイスでは利用できないような計算資源を必要とする。
このギャップを埋めるために、複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
PEMは、視覚的特徴の冗長性を利用して計算を制限し、性能を損なうことなく効率を向上する、新しいプロトタイプベースのクロスアテンションを提案する。
さらに、PEMは、変形可能な畳み込みとコンテキストベースの自己変調の組み合わせにより、高い意味的内容を持つ特徴を効率的に抽出できる効率的なマルチスケール特徴ピラミッドネットワークを導入している。
提案したPEMアーキテクチャをセマンティックとパン光学セグメンテーションの2つのタスクでベンチマークし、CityscapesとADE20Kの2つの異なるデータセットで評価した。
PEMは、すべてのタスクとデータセットで優れたパフォーマンスを示し、タスク固有のアーキテクチャよりも優れ、計算に精通するベースラインよりも同等で、さらに優れている。
Recent transformer-based architectures have shown impressive results in the field of image segmentation. Thanks to their flexibility, they obtain outstanding performance in multiple segmentation tasks, such as semantic and panoptic, under a single unified framework. To achieve such impressive performance, these architectures employ intensive operations and require substantial computational resources, which are often not available, especially on edge devices. To fill this gap, we propose Prototype-based Efficient MaskFormer (PEM), an efficient transformer-based architecture that can operate in multiple segmentation tasks. PEM proposes a novel prototype-based cross-attention which leverages the redundancy of visual features to restrict the computation and improve the efficiency without harming the performance. In addition, PEM introduces an efficient multi-scale feature pyramid network, capable of extracting features that have high semantic content in an efficient way, thanks to the combination of deformable convolutions and context-based self-modulation. We benchmark the proposed PEM architecture on two tasks, semantic and panoptic segmentation, evaluated on two different datasets, Cityscapes and ADE20K. PEM demonstrates outstanding performance on every task and dataset, outperforming task-specific architectures while being comparable and even better than computationally-expensive baselines. | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-06 |
# 多ビット格子手術のための空間並列復号法
Spatially parallel decoding for multi-qubit lattice surgery ( http://arxiv.org/abs/2403.01353v2 ) ライセンス: Link先を確認 | Sophia Fuhui Lin, Eric C. Peterson, Krishanu Sankar, Prasahnt Sivarajah, | (参考訳) 量子エラー訂正によって保護される量子アルゴリズムの実行には、リアルタイム、古典的なデコーダが必要である。
バックログの蓄積を防止するために、このデコーダは、生成されたものよりも速い速度で、量子デバイスからシンドロームを処理しなければならない。
リアルタイム復号化に関するこれまでのほとんどの研究は、表面コードに符号化された孤立論理量子ビットに焦点を当ててきた。
しかし、表面コードでは、実用性のある量子プログラムは格子手術によって実行されるマルチキュービットの相互作用を必要とする。
格子手術中に大規模なマージパッチが発生する可能性がある。
これにより、このマージされたパッチのエラーをデコードし、分離された論理量子ビット上で達成されるフォールトトレランスのレベルを維持する必要がある。
これらの要件は、デバイス上の物理量子ビットを複数の重なり合うグループに分割し、デコーダモジュールを各グループに割り当てることで達成できる空間並列復号を用いて緩和される。
このアプローチを空間的に平行なウィンドウと呼ぶ。
これまでも同様のアイデアを探求してきたが、タスクやハードウェアアクセラレーションの使用による制約に関連するシステム固有の考慮事項には対処していない。
本研究では,(1)がハードウェアアクセラレータと互換性を持ち,(2)一般的な格子手術操作をサポートし,(3)論理量子ビットの忠実性を維持し,(4)リアルタイムデコーディングのスループット要件を満たすように,空間並列ウィンドウの設定方法を示す。
さらに, バッファ幅を最適に選択して, 精度とスループットのバランスをとることの重要性も明らかにした。
Running quantum algorithms protected by quantum error correction requires a real time, classical decoder. To prevent the accumulation of a backlog, this decoder must process syndromes from the quantum device at a faster rate than they are generated. Most prior work on real time decoding has focused on an isolated logical qubit encoded in the surface code. However, for surface code, quantum programs of utility will require multi-qubit interactions performed via lattice surgery. A large merged patch can arise during lattice surgery -- possibly as large as the entire device. This puts a significant strain on a real time decoder, which must decode errors on this merged patch and maintain the level of fault-tolerance that it achieves on isolated logical qubits. These requirements are relaxed by using spatially parallel decoding, which can be accomplished by dividing the physical qubits on the device into multiple overlapping groups and assigning a decoder module to each. We refer to this approach as spatially parallel windows. While previous work has explored similar ideas, none have addressed system-specific considerations pertinent to the task or the constraints from using hardware accelerators. In this work, we demonstrate how to configure spatially parallel windows, so that the scheme (1) is compatible with hardware accelerators, (2) supports general lattice surgery operations, (3) maintains the fidelity of the logical qubits, and (4) meets the throughput requirement for real time decoding. Furthermore, our results reveal the importance of optimally choosing the buffer width to achieve a balance between accuracy and throughput -- a decision that should be influenced by the device's physical noise. | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-06 |
# 量的問題:大規模視覚・言語モデルにおける数的幻覚の評価と緩和に向けて
Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2403.01373v4 ) ライセンス: Link先を確認 | Huixuan Zhang, Junzhe Zhang, Xiaojun Wan, | (参考訳) 大規模視覚言語モデルは、両方の領域を含むタスクを扱うのに素晴らしいスキルを誇示している。
それでもこれらのモデルは、幻覚である不正確な情報を生成することで、しばしば重大な問題を経験する。
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点をあてる。
数幻覚に関する定量的評価を行い、主要なオープンソース大規模視覚言語モデルにおいて重要であることを示す。
さらに,2つの関連するタスクを用いて数幻覚の詳細な解析を行い,全てのタスクの内外矛盾を明らかにした。
本研究は,直視法よりも8%の性能向上につながる幻覚数を減らすために,整合性向上を目的としたトレーニング手法を考案した。
私たちのコードとデータセットはコミュニティにリリースされます。
Large-scale vision-language models have demonstrated impressive skill in handling tasks that involve both areas. Nevertheless, these models frequently experience significant issues with generating inaccurate information, which is hallucination. In this study, we concentrate on a specific type of hallucination-number hallucination, referring to models incorrectly identifying the number of certain objects in pictures. We perform quantitative evaluations regarding number hallucination, showing it to be critical in major open-source large vision-language models. Furthermore, we utilizes two related tasks to conduct an in-depth analysis of number hallucination, revealing the severe inner and outer inconsistency among all tasks. Based on this examination, we devise a training approach aimed at improving consistency to reduce number hallucinations, which leads to an 8% enhancement in performance over direct finetuning methods. Our code and dataset will be released to the community. | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-06 |
# 量子化大言語モデルの圧縮性について
On the Compressibility of Quantized Large Language Models ( http://arxiv.org/abs/2403.01384v2 ) ライセンス: Link先を確認 | Yu Mao, Weilan Wang, Hongchao Du, Nan Guan, Chun Jason Xue, | (参考訳) エッジやモバイルデバイスにLLM(Large Language Models)をデプロイすることは、データプライバシの強化やリアルタイム処理機能など、大きなメリットを提供する。
しかし、LLMのメモリ要求がかなり大きいため、重大な問題に直面している。
量子化は、優れたパフォーマンスを維持しながら、モデルのサイズを減らす効果的な方法である。
しかし、量子化後も、LLMはエッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるため、推論を完了させるためには、部分的にストレージからロードする必要がある。
この場合、モデルローディングのI/OレイテンシはLLM推論遅延のボトルネックとなる。
本研究では,データ圧縮技術を適用してデータ移動を減らし,メモリに制約のあるデバイス上での量子化LDMの推論を高速化する。
特に、量子化LDMの圧縮性、量子化LDMの圧縮性と性能のトレードオフ、両者を共同で最適化する機会について論じる。
Deploying Large Language Models (LLMs) on edge or mobile devices offers significant benefits, such as enhanced data privacy and real-time processing capabilities. However, it also faces critical challenges due to the substantial memory requirement of LLMs. Quantization is an effective way of reducing the model size while maintaining good performance. However, even after quantization, LLMs may still be too big to fit entirely into the limited memory of edge or mobile devices and have to be partially loaded from the storage to complete the inference. In this case, the I/O latency of model loading becomes the bottleneck of the LLM inference latency. In this work, we take a preliminary step of studying applying data compression techniques to reduce data movement and thus speed up the inference of quantized LLM on memory-constrained devices. In particular, we discussed the compressibility of quantized LLMs, the trade-off between the compressibility and performance of quantized LLMs, and opportunities to optimize both of them jointly. | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-06 |
# 自動運転のための世界モデル:最初の調査
World Models for Autonomous Driving: An Initial Survey ( http://arxiv.org/abs/2403.02622v2 ) ライセンス: Link先を確認 | Yanchen Guan, Haicheng Liao, Zhenning Li, Guohui Zhang, Chengzhong Xu, | (参考訳) 自律運転の急速な発展の中で、将来の出来事を正確に予測し、その影響を評価する能力は、安全と効率の両方にとって最重要であり、意思決定プロセスの批判的支援である。
世界モデルは変革的なアプローチとして現れており、自律運転システムは大量のセンサーデータを合成し、解釈し、将来のシナリオを予測し、情報ギャップを補うことができる。
本稿では,自律運転における世界モデルの現状と今後の発展について,その理論的基盤,実践的応用,および既存の限界を克服するための継続的な研究成果を概説する。
この調査は、自律運転技術の進歩における世界モデルの役割を高く評価し、研究コミュニティの基盤となることを目的としており、この急成長する分野への迅速なアクセスと理解を促進し、継続的なイノベーションと探索を刺激している。
In the rapidly evolving landscape of autonomous driving, the capability to accurately predict future events and assess their implications is paramount for both safety and efficiency, critically aiding the decision-making process. World models have emerged as a transformative approach, enabling autonomous driving systems to synthesize and interpret vast amounts of sensor data, thereby predicting potential future scenarios and compensating for information gaps. This paper provides an initial review of the current state and prospective advancements of world models in autonomous driving, spanning their theoretical underpinnings, practical applications, and the ongoing research efforts aimed at overcoming existing limitations. Highlighting the significant role of world models in advancing autonomous driving technologies, this survey aspires to serve as a foundational reference for the research community, facilitating swift access to and comprehension of this burgeoning field, and inspiring continued innovation and exploration. | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-06 |
# 大規模言語モデルによる教育内容の評価と最適化
Evaluating and Optimizing Educational Content with Large Language Model Judgments ( http://arxiv.org/abs/2403.02795v2 ) ライセンス: Link先を確認 | Joy He-Yueya, Noah D. Goodman, Emma Brunskill, | (参考訳) 効果的な教育資料を作成するには、学生の学習成果の高価で時間を要する。
この障壁を克服するために、学生学習の計算モデルを構築し、それを教材の最適化に使用するというアイデアがある。
しかし、学習力学の認知過程をモデル化することは困難である。
本稿では,言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の効果を評価する方法を提案する。
具体的には、GPT-3.5を用いて、異なる学生グループに対する教材の全体的な効果を評価し、専門家リバーサル効果や変数効果といった、確立した教育成果を再現できることを見出した。
このことは、教育コンテンツの信頼性評価者としてのLMの可能性を示している。
この知見に基づいて、1つのLMがもう1つのLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
本稿では,学生の学習成果の最大化を目的とした数学語問題ワークシートの作成に,本手法を適用した。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
我々は、人間とLMの意見の潜在的な相違と、教育設計の自動化の落とし穴について論じる。
Creating effective educational materials generally requires expensive and time-consuming studies of student learning outcomes. To overcome this barrier, one idea is to build computational models of student learning and use them to optimize instructional materials. However, it is difficult to model the cognitive processes of learning dynamics. We propose an alternative approach that uses Language Models (LMs) as educational experts to assess the impact of various instructions on learning outcomes. Specifically, we use GPT-3.5 to evaluate the overall effect of instructional materials on different student groups and find that it can replicate well-established educational findings such as the Expertise Reversal Effect and the Variability Effect. This demonstrates the potential of LMs as reliable evaluators of educational content. Building on this insight, we introduce an instruction optimization approach in which one LM generates instructional materials using the judgments of another LM as a reward function. We apply this approach to create math word problem worksheets aimed at maximizing student learning gains. Human teachers' evaluations of these LM-generated worksheets show a significant alignment between the LM judgments and human teacher preferences. We conclude by discussing potential divergences between human and LM opinions and the resulting pitfalls of automating instructional design. | 翻訳日:2024-05-07 23:26:12 公開日:2024-05-06 |
# Kronos: 最適化オーバーヘッドによるセキュアで汎用的なブロックチェーン合意
Kronos: A Secure and Generic Sharding Blockchain Consensus with Optimized Overhead ( http://arxiv.org/abs/2403.03655v2 ) ライセンス: Link先を確認 | Yizhong Liu, Andi Liu, Yuan Lu, Zhuocheng Pan, Yinuo Li, Jianwei Liu, Song Bian, Mauro Conti, | (参考訳) シャーディングは、ネットワークをシャードに分割することで、ブロックチェーンのスケーラビリティを向上させる。
新しいトランザクションタイプとして、ブロックチェーンのシャーディングのセキュリティと効率性には、クロスシャーディングトランザクションが重要な課題となっている。
現在、セキュリティと低オーバーヘッドの両方を達成する汎用的なシャーディングコンセンサスパターンが欠如しています。
本稿では、最適化オーバーヘッドを実現するセキュアなシャーディングブロックチェーンコンセンサスであるKronosを紹介する。
特に,セキュアなシャーディングコンセンサスパターンを提案し,シャーディングメンバが共同で管理するバッファをベースとした。
無効なトランザクションはバッファを介してペイエに転送され、無効なトランザクションは幸せまたは不幸なパスによって拒否される。
Kronosは、悪質なクライアントの下で、最適なシャード内オーバーヘッド$kB$(k$)、関連するシャード番号$B$(BFT)コストでセキュリティを実現することが証明されている。
さらに,バッチ認証と信頼性の高いクロスシャード転送に基づくセキュアなクロスシャード認証手法を提案する。
前者はハイブリッドツリーやベクトルコミットメントを組み合わせ、後者は消去コーディングを統合する。
トランザクションを$b$で処理すると、Kronosはクロスシャードオーバーヘッドの低い$O(n b \lambda)$$(n$)のシャードサイズとセキュリティパラメータの$\lambda$の信頼性が証明される。
特に、クロノスは BFT に制限を課さず、時間的仮定に依存せず、様々な加群で任意の構成を提供する。
非同期高速化ダンボと部分同期Hotstuffの2つのBFTプロトコルを用いてKronosを実装した。
大規模な実験では、Kronosがコンセンサスノードを数千にスケールアップし、2.0秒のレイテンシで320ktx/secのスループットを実現している。
これまでのソリューションと比較して、Kronosはパフォーマンスが優れ、スループットが最大12*向上し、レイテンシが50%削減された。
Sharding enhances blockchain scalability by dividing the network into shards, each managing specific unspent transaction outputs or accounts. As an introduced new transaction type, cross-shard transactions pose a critical challenge to the security and efficiency of sharding blockchains. Currently, there is a lack of a generic sharding consensus pattern that achieves both security and low overhead. In this paper, we present Kronos, a secure sharding blockchain consensus achieving optimized overhead. In particular, we propose a new secure sharding consensus pattern, based on a buffer managed jointly by shard members. Valid transactions are transferred to the payee via the buffer, while invalid ones are rejected through happy or unhappy paths. Kronos is proved to achieve security with atomicity under malicious clients with optimal intra-shard overhead $kB$ ($k$ for involved shard number and $B$ for a Byzantine fault tolerance (BFT) cost). Besides, we propose secure cross-shard certification methods based on batch certification and reliable cross-shard transfer. The former combines hybrid trees or vector commitments, while the latter integrates erasure coding. Handling $b$ transactions, Kronos is proved to achieve reliability with low cross-shard overhead $O(n b \lambda)$ ($n$ for shard size and $\lambda$ for the security parameter). Notably, Kronos imposes no restrictions on BFT and does not rely on time assumptions, offering optional constructions in various modules. We implement Kronos using two prominent BFT protocols: asynchronous Speeding Dumbo and partial synchronous Hotstuff. Extensive experiments demonstrate Kronos scales the consensus nodes to thousands, achieving a substantial throughput of 320 ktx/sec with 2.0 sec latency. Compared with the past solutions, Kronos outperforms, achieving up to a 12* improvement in throughput and a 50% reduction in latency. | 翻訳日:2024-05-07 23:16:28 公開日:2024-05-06 |
# HaluEval-Wild:野生の言語モデルの幻覚を評価する
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild ( http://arxiv.org/abs/2403.04307v2 ) ライセンス: Link先を確認 | Zhiying Zhu, Yiming Yang, Zhiqing Sun, | (参考訳) 幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。
近年、知識集約型質問応答(QA)や要約のような従来のNLPタスクにおけるLLM幻覚を評価するために設計されたベンチマークは、動的な実世界の環境でのユーザ-LLMインタラクションの複雑さを捉えるには不十分である。
このギャップに対処するために、野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
既存の実世界のユーザ-LLMインタラクションデータセット(ShareGPTなど)から,難解な(Alpacaによって逆フィルタリングされた)ユーザクエリを慎重に収集し,種々のLSMの幻覚率を評価する。
収集したクエリを解析すると、5つの異なるタイプに分類し、LLMが示す幻覚の種類を詳細に分析し、強力なGPT-4モデルと検索拡張生成(RAG)を用いて参照回答を合成する。
実世界の相互作用を反映したシナリオにおけるLCMの理解と信頼性向上に向けた新しいアプローチを提案する。
私たちのベンチマークはhttps://github.com/Dianezzy/HaluEval-Wild.orgで公開されています。
Hallucinations pose a significant challenge to the reliability of large language models (LLMs) in critical domains. Recent benchmarks designed to assess LLM hallucinations within conventional NLP tasks, such as knowledge-intensive question answering (QA) and summarization, are insufficient for capturing the complexities of user-LLM interactions in dynamic, real-world settings. To address this gap, we introduce HaluEval-Wild, the first benchmark specifically designed to evaluate LLM hallucinations in the wild. We meticulously collect challenging (adversarially filtered by Alpaca) user queries from existing real-world user-LLM interaction datasets, including ShareGPT, to evaluate the hallucination rates of various LLMs. Upon analyzing the collected queries, we categorize them into five distinct types, which enables a fine-grained analysis of the types of hallucinations LLMs exhibit, and synthesize the reference answers with the powerful GPT-4 model and retrieval-augmented generation (RAG). Our benchmark offers a novel approach towards enhancing our comprehension and improvement of LLM reliability in scenarios reflective of real-world interactions. Our benchmark is available at https://github.com/Dianezzy/HaluEval-Wild. | 翻訳日:2024-05-07 23:16:28 公開日:2024-05-06 |
# フェデレーション・インクリメンタル・ラーニングにおける効果的なリプレイに向けて
Towards Efficient Replay in Federated Incremental Learning ( http://arxiv.org/abs/2403.05890v2 ) ライセンス: Link先を確認 | Yichen Li, Qunwei Li, Haozhao Wang, Ruixuan Li, Wenliang Zhong, Guannan Zhang, | (参考訳) フェデレートラーニング(FL)では、各クライアントのデータは通常、固定または静的であると仮定される。
しかし、データドメインが動的に増大する可能性がある現実世界のアプリケーションでは、データが漸進的に現れることが多い。
本研究では,フェデレーション付きインクリメンタルラーニング(FIL)シナリオにおけるデータ不均一性による破滅的忘れについて検討する。
本稿では,FIL 用のシンプルな汎用フレームワーク Re-Fed を提案する。
より具体的には、新しいタスクが到着すると、各クライアントはまず、グローバルとローカルの重要度に基づいて、選択したサンプルをキャッシュする。
そして、クライアントは新しいタスクからキャッシュされたサンプルとサンプルの両方でローカルモデルをトレーニングします。
理論的には、リプレイのための重要なサンプルを見つけるためのRe-Fedの能力を分析し、破滅的な忘れの問題を軽減する。
さらに,Re-Fedは最先端の手法に比べて競争性能が高いことを示す。
In Federated Learning (FL), the data in each client is typically assumed fixed or static. However, data often comes in an incremental manner in real-world applications, where the data domain may increase dynamically. In this work, we study catastrophic forgetting with data heterogeneity in Federated Incremental Learning (FIL) scenarios where edge clients may lack enough storage space to retain full data. We propose to employ a simple, generic framework for FIL named Re-Fed, which can coordinate each client to cache important samples for replay. More specifically, when a new task arrives, each client first caches selected previous samples based on their global and local importance. Then, the client trains the local model with both the cached samples and the samples from the new task. Theoretically, we analyze the ability of Re-Fed to discover important samples for replay thus alleviating the catastrophic forgetting problem. Moreover, we empirically show that Re-Fed achieves competitive performance compared to state-of-the-art methods. | 翻訳日:2024-05-07 23:16:28 公開日:2024-05-06 |
# マルチモーダル学習とテストタイム臨床知識強化によるゼロショット心電図分類
Zero-Shot ECG Classification with Multimodal Learning and Test-time Clinical Knowledge Enhancement ( http://arxiv.org/abs/2403.06659v2 ) ライセンス: Link先を確認 | Che Liu, Zhongwei Wan, Cheng Ouyang, Anand Shah, Wenjia Bai, Rossella Arcucci, | (参考訳) 心電図(Electrocardiograms:ECGs)は、心臓不整脈疾患の臨床的診断に不可欠な非侵襲的診断ツールである。
ECG Self-supervised Learning (eSSL) 法は、注釈のないECGデータからの表現学習において有望であるが、レポートに見られる臨床知識を見落としていることが多い。
この監視とダウンストリームタスクのアノテーション付きサンプルの要求は、eSSLの汎用性を制限する。
本稿では,これらの課題をMERL(Multimodal ECG Representation Learning)フレームワークを用いて解決する。
マルチモーダルなECGレコードと関連するレポートの学習を通じて、MERLはテキストプロンプトでゼロショットECG分類を実行でき、下流のタスクでデータをトレーニングする必要がなくなる。
臨床知識向上技術 (CKEPE) アプローチは,外部の専門知識データベースを利用した大規模言語モデル (LLM) を用いて,より記述的なプロンプトを生成し,LCM生成したコンテンツの幻覚を低減し,ゼロショット分類を促進する。
MERLに基づいて、6つのパブリックECGデータセットにまたがる最初のベンチマークを行い、eSSL法と比較してMERLの優れた性能を示す。
特に、MERLは、ゼロショット分類における平均75.2%のAUCスコアを(トレーニングデータなしで)達成し、10\%の注釈付きトレーニングデータを持つ線形プローブeSSLメソッドよりも3.2%高い。
Electrocardiograms (ECGs) are non-invasive diagnostic tools crucial for detecting cardiac arrhythmic diseases in clinical practice. While ECG Self-supervised Learning (eSSL) methods show promise in representation learning from unannotated ECG data, they often overlook the clinical knowledge that can be found in reports. This oversight and the requirement for annotated samples for downstream tasks limit eSSL's versatility. In this work, we address these issues with the Multimodal ECG Representation Learning (MERL}) framework. Through multimodal learning on ECG records and associated reports, MERL is capable of performing zero-shot ECG classification with text prompts, eliminating the need for training data in downstream tasks. At test time, we propose the Clinical Knowledge Enhanced Prompt Engineering (CKEPE) approach, which uses Large Language Models (LLMs) to exploit external expert-verified clinical knowledge databases, generating more descriptive prompts and reducing hallucinations in LLM-generated content to boost zero-shot classification. Based on MERL, we perform the first benchmark across six public ECG datasets, showing the superior performance of MERL compared against eSSL methods. Notably, MERL achieves an average AUC score of 75.2% in zero-shot classification (without training data), 3.2% higher than linear probed eSSL methods with 10\% annotated training data, averaged across all six datasets. | 翻訳日:2024-05-07 23:16:28 公開日:2024-05-06 |
# AADNet: 注意深いデモアリングネットワーク
AADNet: Attention aware Demoiréing Network ( http://arxiv.org/abs/2403.08384v2 ) ライセンス: Link先を確認 | M Rakesh Reddy, Shubham Mandloi, Aman Kumar, | (参考訳) モアレパターンは、モバイルデバイスやデジタルカメラで撮影された写真にしばしば現れ、画質が劣化する可能性がある。
近年のコンピュータビジョンの進歩にもかかわらず、カラー、形状、モアレパターンの周波数の動的なテクスチャやバリエーションのため、画像のデシエリングは依然として難しい課題である。
既存のほとんどのメソッドは、目に見えないデータセットへの一般化に苦労し、現実世界のシナリオからモアレパターンを削除する効果を制限している。
本稿では,AADNet(Attention Aware Demoireing Network)という新しい軽量アーキテクチャを提案する。
UHDMデータセットを用いた大規模な実験により,本手法の有効性が検証され,高忠実度画像が得られた。
Moire pattern frequently appears in photographs captured with mobile devices and digital cameras, potentially degrading image quality. Despite recent advancements in computer vision, image demoire'ing remains a challenging task due to the dynamic textures and variations in colour, shape, and frequency of moire patterns. Most existing methods struggle to generalize to unseen datasets, limiting their effectiveness in removing moire patterns from real-world scenarios. In this paper, we propose a novel lightweight architecture, AADNet (Attention Aware Demoireing Network), for high-resolution image demoire'ing that effectively works across different frequency bands and generalizes well to unseen datasets. Extensive experiments conducted on the UHDM dataset validate the effectiveness of our approach, resulting in high-fidelity images. | 翻訳日:2024-05-07 23:16:28 公開日:2024-05-06 |
# タブラルデータを用いたニューラルアーキテクチャ検索
Anytime Neural Architecture Search on Tabular Data ( http://arxiv.org/abs/2403.10318v2 ) ライセンス: Link先を確認 | Naili Xing, Shaofeng Cai, Zhaojing Luo, Beng Chin Ooi, Jian Pei, | (参考訳) 表形式のデータ分析の需要が高まるにつれ、手動アーキテクチャ設計からニューラルネットワーク検索(NAS)への移行が求められている。
この移行は、任意の時間予算内で現在の最適なアーキテクチャを返却できる効率的で応答性の高いNASアプローチを必要とします。
しかし、表形式のデータに対するAnytime NASの研究領域は未解明のままである。
この目的のために,表データに適したNASアプローチであるATLASを導入する。
ATLASは、トレーニングフリーとトレーニングベースアーキテクチャ評価の両方のパラダイムの長所を組み合わさった、新しい二相フィルタリング/精製最適化スキームを導入している。
具体的には、フィルタフェーズにおいて、ATLASは表データ用に設計された新しいゼロコストプロキシを使用して、候補アーキテクチャの性能を効率的に推定し、将来性のあるアーキテクチャの集合を得る。
その後、改良段階において、ATLASは固定予算探索アルゴリズムを利用して、有望な候補のトレーニングをスケジュールし、最適なアーキテクチャを正確に識別する。
NASの2つのフェーズを常に共同で最適化するために、制約内で高いNAS性能を実現する予算対応コーディネータも考案する。
実験により、ATLASは、事前定義された時間予算内で優れた性能のアーキテクチャを得ることができ、新しい時間予算が利用可能になったときに、より良いアーキテクチャを返却できることが示された。
全体として、既存のNASアプローチと比較して、表データの検索時間を82.75倍に短縮する。
The increasing demand for tabular data analysis calls for transitioning from manual architecture design to Neural Architecture Search (NAS). This transition demands an efficient and responsive anytime NAS approach that is capable of returning current optimal architectures within any given time budget while progressively enhancing architecture quality with increased budget allocation. However, the area of research on Anytime NAS for tabular data remains unexplored. To this end, we introduce ATLAS, the first anytime NAS approach tailored for tabular data. ATLAS introduces a novel two-phase filtering-and-refinement optimization scheme with joint optimization, combining the strengths of both paradigms of training-free and training-based architecture evaluation. Specifically, in the filtering phase, ATLAS employs a new zero-cost proxy specifically designed for tabular data to efficiently estimate the performance of candidate architectures, thereby obtaining a set of promising architectures. Subsequently, in the refinement phase, ATLAS leverages a fixed-budget search algorithm to schedule the training of the promising candidates, so as to accurately identify the optimal architecture. To jointly optimize the two phases for anytime NAS, we also devise a budget-aware coordinator that delivers high NAS performance within constraints. Experimental evaluations demonstrate that our ATLAS can obtain a good-performing architecture within any predefined time budget and return better architectures as and when a new time budget is made available. Overall, it reduces the search time on tabular data by up to 82.75x compared to existing NAS approaches. | 翻訳日:2024-05-07 23:16:28 公開日:2024-05-06 |
# ロバスト脳年齢予測のための距離正規化を用いた正規化
Ordinal Classification with Distance Regularization for Robust Brain Age Prediction ( http://arxiv.org/abs/2403.10522v2 ) ライセンス: Link先を確認 | Jay Shah, Md Mahfuzur Rahman Siddiquee, Yi Su, Teresa Wu, Baoxin Li, | (参考訳) 年齢はアルツハイマー病(AD)の主要な危険因子の1つである。
AD早期検出は、効果的な治療と不可逆的な脳損傷の予防に不可欠である。
脳の年齢は、加齢による構造変化を反映した脳画像から導かれる指標であり、ADの発症を識別し、疾患リスクを評価し、標的とする介入を計画する可能性がある。
磁気共鳴画像(MRI)スキャンによる脳年齢予測のためのディープラーニングに基づく回帰手法は,近年,非常に精度が高い。
しかし、これらの手法は平均効果に固有の回帰の影響を受けており、体系的な偏りが生じ、若年者では脳年齢が過大評価され、老年者では過小評価される。
これにより、下流臨床応用のための有効なバイオマーカーとして、予測された脳年齢の信頼性が低下する。
そこで我々は,脳年齢予測タスクを回帰から分類へと再構成し,体系的バイアスの問題に対処する。
年齢ラベルの順序を組み込んだORDER(ordinal Distance Encoded Regularization)ロスを新たに提案し,年齢関連パターンを捉える能力を高めた。
大規模な実験とアブレーション研究により、このフレームワークは系統的なバイアスを減らし、統計的に有意なマージンで最先端の手法を上回り、独立したADデータセットにおける臨床グループ間の微妙な差異をよりよく捉えることができることを示した。
私たちの実装はhttps://github.com/jaygshah/Robust-Brain-Age-Predictionで公開されています。
Age is one of the major known risk factors for Alzheimer's Disease (AD). Detecting AD early is crucial for effective treatment and preventing irreversible brain damage. Brain age, a measure derived from brain imaging reflecting structural changes due to aging, may have the potential to identify AD onset, assess disease risk, and plan targeted interventions. Deep learning-based regression techniques to predict brain age from magnetic resonance imaging (MRI) scans have shown great accuracy recently. However, these methods are subject to an inherent regression to the mean effect, which causes a systematic bias resulting in an overestimation of brain age in young subjects and underestimation in old subjects. This weakens the reliability of predicted brain age as a valid biomarker for downstream clinical applications. Here, we reformulate the brain age prediction task from regression to classification to address the issue of systematic bias. Recognizing the importance of preserving ordinal information from ages to understand aging trajectory and monitor aging longitudinally, we propose a novel ORdinal Distance Encoded Regularization (ORDER) loss that incorporates the order of age labels, enhancing the model's ability to capture age-related patterns. Extensive experiments and ablation studies demonstrate that this framework reduces systematic bias, outperforms state-of-art methods by statistically significant margins, and can better capture subtle differences between clinical groups in an independent AD dataset. Our implementation is publicly available at https://github.com/jaygshah/Robust-Brain-Age-Prediction. | 翻訳日:2024-05-07 23:16:28 公開日:2024-05-06 |
# 一般シーンの3次元再構成の最近の動向
Recent Trends in 3D Reconstruction of General Non-Rigid Scenes ( http://arxiv.org/abs/2403.15064v2 ) ライセンス: Link先を確認 | Raza Yunus, Jan Eric Lenssen, Michael Niemeyer, Yiyi Liao, Christian Rupprecht, Christian Theobalt, Gerard Pons-Moll, Jia-Bin Huang, Vladislav Golyanik, Eddy Ilg, | (参考訳) コンピュータグラフィックスやコンピュータビジョンにおいて、3次元幾何学、外観、実際のシーンの動きを含む現実世界のモデルの再構築が不可欠である。
これは、映画産業やAR/VRアプリケーションに有用な、フォトリアリスティックなノベルビューの合成を可能にする。
また、コンピュータゲームやAR/VRで必要となるコンテンツ作成を、面倒な手作業による設計プロセスを避けることで促進する。
さらに、そのようなモデルは、人間の世界と安全に行動し、相互作用するために現実世界のシーンとアクションを解釈する必要があるインテリジェントコンピューティングシステムにとって、基本的なものである。
特に、私たちを取り巻く世界は動的であり、動的で厳格に動くシーンのモデルを再構築することは、過小評価され難解な問題である。
この最新技術レポート(STAR)は、RGBやRGB-Dセンサーのデータなどの単眼的および多眼的な入力による最先端技術の概要を読者に提供し、異なるアプローチ、潜在的な応用、さらなる研究の方向性について理解を深める。
本報告では, 一般的な非剛性シーンの3次元再構成と, シーンの分解, 編集, 制御, 一般化, 生成的モデリング技術について述べる。
より具体的には、フィールドを理解し、ナビゲートするのに必要となる一般的で基本的な概念をまずレビューし、次に、従来型および機械学習ベースのニューラル表現を用いた最近のアプローチをレビューして、最新技術について議論する。
STARは、残りの制限とオープンな課題に関する議論で締めくくられている。
Reconstructing models of the real world, including 3D geometry, appearance, and motion of real scenes, is essential for computer graphics and computer vision. It enables the synthesizing of photorealistic novel views, useful for the movie industry and AR/VR applications. It also facilitates the content creation necessary in computer games and AR/VR by avoiding laborious manual design processes. Further, such models are fundamental for intelligent computing systems that need to interpret real-world scenes and actions to act and interact safely with the human world. Notably, the world surrounding us is dynamic, and reconstructing models of dynamic, non-rigidly moving scenes is a severely underconstrained and challenging problem. This state-of-the-art report (STAR) offers the reader a comprehensive summary of state-of-the-art techniques with monocular and multi-view inputs such as data from RGB and RGB-D sensors, among others, conveying an understanding of different approaches, their potential applications, and promising further research directions. The report covers 3D reconstruction of general non-rigid scenes and further addresses the techniques for scene decomposition, editing and controlling, and generalizable and generative modeling. More specifically, we first review the common and fundamental concepts necessary to understand and navigate the field and then discuss the state-of-the-art techniques by reviewing recent approaches that use traditional and machine-learning-based neural representations, including a discussion on the newly enabled applications. The STAR is concluded with a discussion of the remaining limitations and open challenges. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-06 |
# FollowIR: 情報検索モデルの評価と指導
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions ( http://arxiv.org/abs/2403.15246v2 ) ライセンス: Link先を確認 | Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini, | (参考訳) モダン言語モデル(LM)は、広範囲で多様なユーザリクエストを可能にする、長く複雑な命令に従うことができる。
Information Retrieval (IR) モデルは、これらのLMをアーキテクチャのバックボーンとして使用するが、実際には、ユーザがクエリと並行して詳細なインストラクションを提供できないため、複雑な情報要求を満たす能力が制限される。
本研究では,赤外線システムにおける命令の使用について検討する。
まず、厳格なインストラクション評価ベンチマークと、IRモデルによる実世界のインストラクションの学習を支援するトレーニングセットを含む、私たちのデータセットFollowIRを紹介します。
FollowIRは、専門家が検索システムを評価するために開発された詳細な指示(物語とも呼ばれる)を再利用する。
特に,テキスト検索会議(TREC)において,共有タスク用にキュレートされた3つのコレクションからベンチマークを構築した。
これらのコレクションには、クエリ毎に数百から数千のラベル付きドキュメントが含まれています。
このプロセスを通じて、新しいペアワイズ評価フレームワークにより、IRモデルがどのように命令に従うかを測定することができる。
この結果から,既存の検索モデルでは命令を正しく使用できず,基本キーワードとして使用し,長文情報の理解に苦慮していることが示唆された。
我々の新しいFollowIR-7Bモデルは、トレーニングセットを微調整した後、大幅に改善されている。
Modern Language Models (LMs) are capable of following long and complex instructions that enable a large and diverse set of user requests. While Information Retrieval (IR) models use these LMs as the backbone of their architectures, virtually none of them allow users to provide detailed instructions alongside queries, thus limiting their ability to satisfy complex information needs. In this work, we study the use of instructions in IR systems. First, we introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR repurposes detailed instructions -- also known as narratives -- developed for professional assessors to evaluate retrieval systems. In particular, we build our benchmark from three collections curated for shared tasks at the Text REtrieval Conference (TREC). These collections contains hundreds to thousands of labeled documents per query, making them suitable for our exploration. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements after fine-tuning on our training set. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-06 |
# 即時投票投票を監査するための効率的な重み付け方式
Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections ( http://arxiv.org/abs/2403.15400v2 ) ライセンス: Link先を確認 | Alexander Ek, Philip B. Stark, Peter J. Stuckey, Damjan Vukcevic, | (参考訳) 即時投票 (IRV) 選挙のためのリスク制限監査 (RLA) 手法が開発されている。
最近の手法であるAWAIREは、キャスト投票記録(CVR)を活用できるが、キャスト投票記録(CVR)を必要としない、最初の効率的なアプローチである。
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
しかし、AWAIREの最初の論文では、いくつかの重み付けスキームとパラメータ設定についてのみ検討した。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
我々は,CVRが利用できない場合に着目し,実際の選挙データに基づくシミュレーションによる性能評価を行う。
最も効果的なスキームは、しばしば、既に観測されたデータに基づいて明らかな「ベスト」仮説に重みのほとんどまたは全てを配置するものである。
逆に、最適チューニングパラメータは選挙マージンによって異なる傾向にあった。
それでも、デフォルトオプションが必要な場合、最も望ましいトレードオフを選択するのに役立ち、さまざまな選挙マージンで異なる選択に対するパフォーマンストレードオフを定量化します。
現在のAWAIRE実装の制限は、少数の候補(以前の実装では最大6つまで)に制限されていることである。
より計算的に効率的な実装への道の1つは、遅延評価を使い、可能なすべての仮説を考慮しないことである。
以上の結果から,統計的性能を著しく損なうことなく,このようなアプローチが可能であることが示唆された。
Various risk-limiting audit (RLA) methods have been developed for instant-runoff voting (IRV) elections. A recent method, AWAIRE, is the first efficient approach that can take advantage of but does not require cast vote records (CVRs). AWAIRE involves adaptively weighted averages of test statistics, essentially "learning" an effective set of hypotheses to test. However, the initial paper on AWAIRE only examined a few weighting schemes and parameter settings. We explore schemes and settings more extensively, to identify and recommend efficient choices for practice. We focus on the case where CVRs are not available, assessing performance using simulations based on real election data. The most effective schemes are often those that place most or all of the weight on the apparent "best" hypotheses based on already seen data. Conversely, the optimal tuning parameters tended to vary based on the election margin. Nonetheless, we quantify the performance trade-offs for different choices across varying election margins, aiding in selecting the most desirable trade-off if a default option is needed. A limitation of the current AWAIRE implementation is its restriction to a small number of candidates -- up to six in previous implementations. One path to a more computationally efficient implementation would be to use lazy evaluation and avoid considering all possible hypotheses. Our findings suggest that such an approach could be done without substantially compromising statistical performance. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-06 |
# MetaAligner: 言語モデルの一般化可能な多目的アライメントを目指して
MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models ( http://arxiv.org/abs/2403.17141v2 ) ライセンス: Link先を確認 | Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Tianlin Zhang, Sophia Ananiadou, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、多目的選好アライメントを通じて、異種人の期待と価値に取り組むことを目的としている。
しかし、既存の手法はポリシーモデルにパラメータ依存しており、(1)新しいターゲットモデルごとに高コストでアライメントアルゴリズムを繰り返すこと、(2)静的アライメント目的のために未確認の目的に拡張できないこと、の2つの主要な制限をもたらす。
本稿では,弱い応答に対して条件付き弱値補正を行い,強い応答に近づくメタオブジェクトアリグナー(MetaAligner)を提案する。
MetaAlignerは、ポリシーモデルからパラメータ更新を分離することでプラグ・アンド・プレイのアライメントを可能にし、コンテキスト内学習を通じて、目に見えない目的に対するゼロショット・リライスアライメントを容易にする、多目的のリライメントアライメントのための最初のポリシーに依存しない一般化可能な方法である。
実験結果から、MetaAlignerは10の最先端ポリシーモデルに対する多目的アライメントの大幅な改善とバランスの取れた改善を実現し、GPUトレーニング時間を最大15.71倍に削減した。
このモデルはまた、目に見えない目的を効果的に整列させ、一般化可能な多目的の選好アライメントへの第一歩をマークしている。
Recent advancements in large language models (LLMs) aim to tackle heterogeneous human expectations and values via multi-objective preference alignment. However, existing methods are parameter-adherent to the policy model, leading to two key limitations: (1) the high-cost repetition of their alignment algorithms for each new target model; (2) they cannot expand to unseen objectives due to their static alignment objectives. In this work, we propose Meta-Objective Aligner (MetaAligner), a model that performs conditional weak-to-strong correction for weak responses to approach strong responses. MetaAligner is the first policy-agnostic and generalizable method for multi-objective preference alignment, which enables plug-and-play alignment by decoupling parameter updates from the policy models and facilitates zero-shot preference alignment for unseen objectives via in-context learning. Experimental results show that MetaAligner achieves significant and balanced improvements in multi-objective alignments on 10 state-of-the-art policy models, and outperforms previous alignment methods with down to 15.71x less GPU training hours. The model also effectively aligns unseen objectives, marking the first step towards generalizable multi-objective preference alignment. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-06 |
# SceneTracker: 長期のシーンフロー推定ネットワーク
SceneTracker: Long-term Scene Flow Estimation Network ( http://arxiv.org/abs/2403.19924v3 ) ライセンス: Link先を確認 | Bo Wang, Jian Li, Yang Yu, Li Liu, Zhenping Sun, Dewen Hu, | (参考訳) 本研究は,空間領域の焦点能力と時間領域のコヒーレンスにおける3次元物体追跡の相補性を考慮して,細粒度と長期の3次元動きを同時にオンライン的に捉えることができる包括的新しい課題である長期シーンフロー推定(LSFE)に取り組むことを目的とする。
SceneTrackerは学習に基づく新しいLSFEネットワークであり、最適軌道を近似するために反復的なアプローチを採用する。
さらに、外見と奥行きの相関機能を同時に動的にインデックスし、構築し、Transformerを使用して軌道内および軌道間の長距離接続を探索、活用する。
詳細な実験により、SceneTrackerはLSFEタスクのニーズに合わせて高度に調整された3次元空間閉塞と奥行きノイズ干渉を扱う優れた能力を示す。
最後に、SceneTrackerのコメンデータブルな一般化能力をさらに裏付ける、最初の実世界の評価データセットであるLSFDrivingを構築した。
SceneTrackerのコードとデータはhttps://github.com/wwsource/SceneTracker.comで公開されている。
Considering the complementarity of scene flow estimation in the spatial domain's focusing capability and 3D object tracking in the temporal domain's coherence, this study aims to address a comprehensive new task that can simultaneously capture fine-grained and long-term 3D motion in an online manner: long-term scene flow estimation (LSFE). We introduce SceneTracker, a novel learning-based LSFE network that adopts an iterative approach to approximate the optimal trajectory. Besides, it dynamically indexes and constructs appearance and depth correlation features simultaneously and employs the Transformer to explore and utilize long-range connections within and between trajectories. With detailed experiments, SceneTracker shows superior capabilities in handling 3D spatial occlusion and depth noise interference, highly tailored to the LSFE task's needs. Finally, we build the first real-world evaluation dataset, LSFDriving, further substantiating SceneTracker's commendable generalization capacity. The code and data for SceneTracker is available at https://github.com/wwsource/SceneTracker. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-06 |
# LLMは正しい医師になれるか? : 医学領域における効果的な相互作用方法の検討
Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain ( http://arxiv.org/abs/2403.20288v2 ) ライセンス: Link先を確認 | Burcu Sayin, Pasquale Minervini, Jacopo Staiano, Andrea Passerini, | (参考訳) 我々は,医学的意思決定タスクにおいて,医師を支援・修正するためのLarge Language Models(LLMs)の可能性を探る。
我々は,メディトロン,Llama2,MistralなどいくつかのLSMを評価し,これらのモデルが様々なシナリオで医師と効果的に相互作用する能力について分析した。
我々は、PubMedQAからの質問や、バイナリ(yes/no)応答から長解生成まで、いくつかのタスクについて検討する。
以上の結果から,LCMの下流の精度に急激な設計が大きな影響を与えることが示唆され,LCMは医師に貴重なフィードバックを与え,誤診断に挑戦し,より正確な意思決定に寄与することが示唆された。
例えば、医師が正確な38%の時間で正しい答えを得られる場合、Mistralは使用するプロンプトに応じて精度を最大74%向上させ、一方Llama2とMeditronモデルは選択を早めるための感度が向上する。
我々の分析は、LLM生成提案が適切かつ有用であることを保証する上での課題を明らかにし、この分野におけるさらなる研究の必要性を強調している。
We explore the potential of Large Language Models (LLMs) to assist and potentially correct physicians in medical decision-making tasks. We evaluate several LLMs, including Meditron, Llama2, and Mistral, to analyze the ability of these models to interact effectively with physicians across different scenarios. We consider questions from PubMedQA and several tasks, ranging from binary (yes/no) responses to long answer generation, where the answer of the model is produced after an interaction with a physician. Our findings suggest that prompt design significantly influences the downstream accuracy of LLMs and that LLMs can provide valuable feedback to physicians, challenging incorrect diagnoses and contributing to more accurate decision-making. For example, when the physician is accurate 38% of the time, Mistral can produce the correct answer, improving accuracy up to 74% depending on the prompt being used, while Llama2 and Meditron models exhibit greater sensitivity to prompt choice. Our analysis also uncovers the challenges of ensuring that LLM-generated suggestions are pertinent and useful, emphasizing the need for further research in this area. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-06 |
# Vectorized Kernel Mixture (VecKM) を用いた線形時間空間局所点雲幾何エンコーダ
A Linear Time and Space Local Point Cloud Geometry Encoder via Vectorized Kernel Mixture (VecKM) ( http://arxiv.org/abs/2404.01568v2 ) ライセンス: Link先を確認 | Dehao Yuan, Cornelia Fermüller, Tahseen Rabbani, Furong Huang, Yiannis Aloimonos, | (参考訳) 本稿では,ローカルポイントクラウド幾何エンコーダであるVecKMを提案する。
VecKMは、局所点雲を表すためにカーネル混合物をベクトル化することで、ユニークなアプローチを採用している。
そのような表現の記述性は、局所的な形状の類似性を再構築し保存する能力を検証する2つの定理によって支持される。
局所点クラウドをダウンサンプリングする既存のエンコーダとは異なり、VecKMはすべての近傍点を用いて局所幾何学的エンコーディングを構築し、より記述的なエンコーダを生成する。
VecKMはメモリコストを$(n^2+nKd)$から$(nd+np)$に削減し、主要なランタイムコストを$nK$ MLPsから$n$ MLPsに削減します。
この効率性は、VecKM の特異な分解可能な性質により、点を隣人に明示的にグループ化する必要がなくなるためである。
通常の推定タスクでは、VecKMは推測速度を100倍速くするだけでなく、高い精度と強靭性を示す。
分類とセグメンテーションタスクでは、前処理モジュールとしてVecKMを統合することで、PointNet、PointNet++、ポイントトランスフォーマーベースラインよりも一貫してパフォーマンスが向上し、最大10倍高速に動作する。
We propose VecKM, a local point cloud geometry encoder that is descriptive and efficient to compute. VecKM leverages a unique approach by vectorizing a kernel mixture to represent the local point cloud. Such representation's descriptiveness is supported by two theorems that validate its ability to reconstruct and preserve the similarity of the local shape. Unlike existing encoders downsampling the local point cloud, VecKM constructs the local geometry encoding using all neighboring points, producing a more descriptive encoding. Moreover, VecKM is efficient to compute and scalable to large point cloud inputs: VecKM reduces the memory cost from $(n^2+nKd)$ to $(nd+np)$; and reduces the major runtime cost from computing $nK$ MLPs to $n$ MLPs, where $n$ is the size of the point cloud, $K$ is the neighborhood size, $d$ is the encoding dimension, and $p$ is a marginal factor. The efficiency is due to VecKM's unique factorizable property that eliminates the need of explicitly grouping points into neighbors. In the normal estimation task, VecKM demonstrates not only 100x faster inference speed but also highest accuracy and strongest robustness. In classification and segmentation tasks, integrating VecKM as a preprocessing module achieves consistently better performance than the PointNet, PointNet++, and point transformer baselines, and runs consistently faster by up to 10 times. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-06 |
# CORP: キャンパス指向ロードサイド知覚タスクのためのマルチモーダルデータセット
CORP: A Multi-Modal Dataset for Campus-Oriented Roadside Perception Tasks ( http://arxiv.org/abs/2404.03191v2 ) ライセンス: Link先を確認 | Beibei Wang, Shuang Meng, Lu Zhang, Chenjie Wang, Jingjing Huang, Yao Li, Haojie Ren, Yuxuan Xiao, Yuru Peng, Jianmin Ji, Yu Zhang, Yanyong Zhang, | (参考訳) 自律運転およびインテリジェント交通システムの研究・開発における進歩を促進するために、多くの道路側認識データセットが導入されている。
しかし、その中心となるのが都市幹線道路であり、公園やキャンパスなど、全く異なる特徴を示す住宅地を不注意に見下ろしていることが観察されている。
このギャップを鑑みて、キャンパスシナリオ下でのマルチモーダルな路面認識タスクに適した、最初の公開ベンチマークデータセットであるCORPを提案する。
大学キャンパスで収集されたCORPは、205k以上の画像と18台のカメラと9台のLiDARセンサーから撮影された102kの点雲で構成されている。
異なる構成のこれらのセンサーは、キャンパス内の様々な視点を提供するために、道路脇のユーティリティポールに取り付けられている。
CORPのアノテーションは、2Dおよび3Dバウンディングボックスを超えた多次元情報を含み、3Dのシームレスなトラッキングと、ターゲットを特定するためのユニークなIDとピクセルマスクによるインスタンスセグメンテーションのサポートを提供し、キャンパスの敷地に分散するオブジェクトとそれらの振る舞いの理解を強化する。
都市交通に関する他の道路脇のデータセットとは異なり、CORPはキャンパスや他の住宅地におけるマルチモーダル認識の課題を強調するためにスペクトルを拡張している。
Numerous roadside perception datasets have been introduced to propel advancements in autonomous driving and intelligent transportation systems research and development. However, it has been observed that the majority of their concentrates is on urban arterial roads, inadvertently overlooking residential areas such as parks and campuses that exhibit entirely distinct characteristics. In light of this gap, we propose CORP, which stands as the first public benchmark dataset tailored for multi-modal roadside perception tasks under campus scenarios. Collected in a university campus, CORP consists of over 205k images plus 102k point clouds captured from 18 cameras and 9 LiDAR sensors. These sensors with different configurations are mounted on roadside utility poles to provide diverse viewpoints within the campus region. The annotations of CORP encompass multi-dimensional information beyond 2D and 3D bounding boxes, providing extra support for 3D seamless tracking and instance segmentation with unique IDs and pixel masks for identifying targets, to enhance the understanding of objects and their behaviors distributed across the campus premises. Unlike other roadside datasets about urban traffic, CORP extends the spectrum to highlight the challenges for multi-modal perception in campuses and other residential areas. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# HiMAL:アルツハイマー病の進行を予測・説明するためのマルチモーダル階層型マルチタスク補助学習フレームワーク
HiMAL: A Multimodal Hierarchical Multi-task Auxiliary Learning framework for predicting and explaining Alzheimer disease progression ( http://arxiv.org/abs/2404.03208v2 ) ライセンス: Link先を確認 | Sayantan Kumar, Sean Yu, Andrew Michelson, Thomas Kannampallil, Philip Payne, | (参考訳) 目的: 軽度認知障害(MCI)からアルツハイマー病(AD)への移行の経時的リスクを推定する補助的タスクとして認知複合機能を予測するための, 階層的・多タスク補助学習(HiMAL)フレームワークを開発し, 検証することを目的とした。
方法:HiMALは、アルツハイマー病神経画像イニシアチブ(ADNI)データセットにおけるMCI患者の画像特徴、認知評価スコア、臨床変数を含むマルチモーダル縦断的訪問データを用いて、MCI患者が今後6ヶ月以内にADに進行するかどうかを予測する。
HiMALの性能は、受信演算子曲線(AUROC)と高精度リコール曲線(AUPRC)測定値の下の領域を用いて、最先端のシングルタスクとマルチタスクベースラインと比較した。
モデル性能に対する各入力モードの影響を評価するためのアブレーション実験を行った。
さらに, 認知機能低下の予測を解釈するために, 疾患進行リスクの経時的説明を行った。
結果: 634 MCI 例 (平均 [IQR] 年齢:72.8 [67-78], 60% 男性) のうち 209 例 (32%) が AD に進行した。
HiMALの予測性能は, AUROC = 0.923 [0.915-0.937], AUPRC = 0.623 [0.605-0.644], all p<0.05) よりも良好であった。
アブレーション分析では、画像と認知のスコアは、疾患進行の予測に最大貢献することが示された。
考察:臨床的に有意なモデル説明は,6カ月前の認知低下を予知し,臨床医の今後の疾患進展評価を支援する。
HiMALはAD発症の近位(6ヶ月)予測のために定期的に収集されたERH変数を頼りにしており、高リスク患者のポイント・オブ・ケアモニタリングと管理のための翻訳可能性を示している。
Objective: We aimed to develop and validate a novel multimodal framework HiMAL (Hierarchical, Multi-task Auxiliary Learning) framework, for predicting cognitive composite functions as auxiliary tasks that estimate the longitudinal risk of transition from Mild Cognitive Impairment (MCI) to Alzheimer Disease (AD). Methods: HiMAL utilized multimodal longitudinal visit data including imaging features, cognitive assessment scores, and clinical variables from MCI patients in the Alzheimer Disease Neuroimaging Initiative (ADNI) dataset, to predict at each visit if an MCI patient will progress to AD within the next 6 months. Performance of HiMAL was compared with state-of-the-art single-task and multi-task baselines using area under the receiver operator curve (AUROC) and precision recall curve (AUPRC) metrics. An ablation study was performed to assess the impact of each input modality on model performance. Additionally, longitudinal explanations regarding risk of disease progression were provided to interpret the predicted cognitive decline. Results: Out of 634 MCI patients (mean [IQR] age : 72.8 [67-78], 60% men), 209 (32%) progressed to AD. HiMAL showed better prediction performance compared to all single-modality singe-task baselines (AUROC = 0.923 [0.915-0.937]; AUPRC= 0.623 [0.605-0.644]; all p<0.05). Ablation analysis highlighted that imaging and cognition scores with maximum contribution towards prediction of disease progression. Discussion: Clinically informative model explanations anticipate cognitive decline 6 months in advance, aiding clinicians in future disease progression assessment. HiMAL relies on routinely collected EHR variables for proximal (6 months) prediction of AD onset, indicating its translational potential for point-of-care monitoring and managing of high-risk patients. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# 単一ハールランダム状態のパワー--量子擬似ランダム性の構築と分離
The power of a single Haar random state: constructing and separating quantum pseudorandomness ( http://arxiv.org/abs/2404.03295v2 ) ライセンス: Link先を確認 | Boyang Chen, Andrea Coladangelo, Or Sattath, | (参考訳) 本研究では,1つのHaarランダム量子状態を提供する託宣にアクセスできるという暗号的意味は何か,という問いに焦点をあてる。
このようなオラクルが量子擬似ランダム性を構築するのに十分であることを示す。
Pseudorandom state (PRS) は、族から一様にサンプリングされた状態の多項式的に多くのコピーとハールランダム状態の区別が難しい状態の族である。
シングルコピー擬似ランダム状態 (1PRS) と呼ばれるより弱い概念は、単一コピーに関してこの性質を満たす。
我々の主な結果は、1PRS(およびビットコミット)が1つのハールランダム状態を提供するオラクルに対して存在することである。
我々はこの結果に基づいて,1PRS が存在するオラクルの存在を示すが,PSS は存在しない。
これは、異なる形の量子擬似ランダム性の間の最初のブラックボックス分離の1つである。
In this work, we focus on the following question: what are the cryptographic implications of having access to an oracle that provides a single Haar random quantum state? We show, perhaps surprisingly, that such an oracle is sufficient to construct quantum pseudorandomness. Pseudorandom states (PRS) are a family of states for which it is hard to distinguish between polynomially many copies of either a state sampled uniformly from the family or a Haar random state. A weaker notion, called single-copy pseudorandom states (1PRS), satisfies this property with respect to a single copy. Our main result is that 1PRS (as well as bit-commitments) exist relative to an oracle that provides a single Haar random state. We build on this result to show the existence of an oracle relative to which 1PRS exist, but PRS do not. This provides one of the first black-box separations between different forms of quantum pseudorandomness. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# 概念 -- システム中心およびユーザ中心の要素を持つ対話型レコメンダシステムの評価プロトコル
Concept -- An Evaluation Protocol on Conversational Recommender Systems with System-centric and User-centric Factors ( http://arxiv.org/abs/2404.03304v3 ) ライセンス: Link先を確認 | Chen Huang, Peixin Qin, Yang Deng, Wenqiang Lei, Jiancheng Lv, Tat-Seng Chua, | (参考訳) 会話レコメンデーションシステム(CRS)は,近年の学界の進歩にもかかわらず,現実のシナリオにおけるユーザエクスペリエンスについて批判されている。
既存のCRSの評価プロトコルは、ユーザ中心の側面を無視しながら、会話の有効性や流布度などのシステム中心の要素を優先することができる。
そこで本研究では,システムとユーザ中心の要素を統合した新しい包括的評価プロトコルであるConceptを提案する。
我々はこれらの要因を表現する上で重要な3つの特徴を概念化し、それらをさらに6つの一次能力に分割する。
Conceptを実装するために,LLMベースのユーザシミュレータと評価器を採用し,各プライマリ能力に適合したブラスリックをスコアリングする。
私たちのプロトコルであるConceptは、二重目的に役立ちます。
まず、現在のCRSモデルの長所と短所の概要を提供する。
第二に、「全能」なChatGPTにおける低ユーザビリティの問題を特定し、CRSを評価するための包括的なリファレンスガイドを提供し、CRSの改善の基礎を定めている。
The conversational recommendation system (CRS) has been criticized regarding its user experience in real-world scenarios, despite recent significant progress achieved in academia. Existing evaluation protocols for CRS may prioritize system-centric factors such as effectiveness and fluency in conversation while neglecting user-centric aspects. Thus, we propose a new and inclusive evaluation protocol, Concept, which integrates both system- and user-centric factors. We conceptualise three key characteristics in representing such factors and further divide them into six primary abilities. To implement Concept, we adopt a LLM-based user simulator and evaluator with scoring rubrics that are tailored for each primary ability. Our protocol, Concept, serves a dual purpose. First, it provides an overview of the pros and cons in current CRS models. Second, it pinpoints the problem of low usability in the "omnipotent" ChatGPT and offers a comprehensive reference guide for evaluating CRS, thereby setting the foundation for CRS improvement. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# HawkDrive:夜間の自動運転のためのトランスフォーマー駆動型視覚知覚システム
HawkDrive: A Transformer-driven Visual Perception System for Autonomous Driving in Night Scene ( http://arxiv.org/abs/2404.04653v2 ) ライセンス: Link先を確認 | Ziang Guo, Stepan Perminov, Mikhail Konenkov, Dzmitry Tsetserukou, | (参考訳) 自律運転シナリオのための多くの確立された視覚認識システムは、運転安全の重要な要素である光条件の影響を無視している。
この問題に対処するため,ハードウェアとソフトウェアを併用した新しい認識システムであるHawkDriveを提案する。
立体視知覚を利用するハードウェアは、単眼視よりも深度情報を推定する信頼性の高い方法として実証されており、エッジコンピューティングデバイスNvidia Jetson Xavier AGXとパートナーしている。
低光強調、深度推定、セマンティックセグメンテーションタスクのためのソフトウェアは、トランスフォーマーベースのニューラルネットワークである。
高速な推論とノイズ低減を可能にするソフトウェアスタックは,ロボットオペレーティングシステム2(ROS2)のシステムモジュールにパッケージ化されている。
実験結果から,提案手法は深度推定とセマンティックセグメンテーション性能の向上に有効であることがわかった。
データセットとコードはhttps://github.com/ZionGo6/HawkDrive.comでリリースされます。
Many established vision perception systems for autonomous driving scenarios ignore the influence of light conditions, one of the key elements for driving safety. To address this problem, we present HawkDrive, a novel perception system with hardware and software solutions. Hardware that utilizes stereo vision perception, which has been demonstrated to be a more reliable way of estimating depth information than monocular vision, is partnered with the edge computing device Nvidia Jetson Xavier AGX. Our software for low light enhancement, depth estimation, and semantic segmentation tasks, is a transformer-based neural network. Our software stack, which enables fast inference and noise reduction, is packaged into system modules in Robot Operating System 2 (ROS2). Our experimental results have shown that the proposed end-to-end system is effective in improving the depth estimation and semantic segmentation performance. Our dataset and codes will be released at https://github.com/ZionGo6/HawkDrive. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# Gaussian Shading:拡散モデルのための予測可能なパフォーマンスロスレス画像透かし
Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion Models ( http://arxiv.org/abs/2404.04956v3 ) ライセンス: Link先を確認 | Zijin Yang, Kai Zeng, Kejiang Chen, Han Fang, Weiming Zhang, Nenghai Yu, | (参考訳) 著作権保護と不適切なコンテンツ生成に関する倫理的懸念は、拡散モデルの実践的な実装に課題をもたらす。
効果的な解決策の1つは、生成された画像の透かしである。
しかし、既存の手法はしばしばモデルの性能を損なうか、追加のトレーニングを必要とするが、オペレータやユーザにとっては望ましくない。
この問題に対処するため,我々は,著作権保護と違反コンテンツの追跡という2つの目的を兼ね備えつつ,パフォーマンスロスレスかつトレーニング不要な拡散モデル透かし手法であるGaussian Shadingを提案する。
我々の透かし埋め込みはモデルパラメータの修正が不要であり、プラグアンドプレイである。
非透かし拡散モデルから得られた潜時表現と区別できない標準ガウス分布に従って、透かしを潜時表現にマップする。
したがって、損失のない性能で透かしを埋め込むことができ、理論的に証明できる。
さらに、透かしは画像意味論と密接に結びついているので、損失処理や消去の試みに対するレジリエンスを示す。
透かしは拡散インプリシットモデル(DDIM)のインバージョンと逆サンプリングによって抽出できる。
安定拡散の複数バージョンにおけるガウス的シェーディングの評価を行い、ガウス的シェーディングは性能の欠如だけでなく、ロバスト性の観点からも既存手法よりも優れていることを示した。
Ethical concerns surrounding copyright protection and inappropriate content generation pose challenges for the practical implementation of diffusion models. One effective solution involves watermarking the generated images. However, existing methods often compromise the model performance or require additional training, which is undesirable for operators and users. To address this issue, we propose Gaussian Shading, a diffusion model watermarking technique that is both performance-lossless and training-free, while serving the dual purpose of copyright protection and tracing of offending content. Our watermark embedding is free of model parameter modifications and thus is plug-and-play. We map the watermark to latent representations following a standard Gaussian distribution, which is indistinguishable from latent representations obtained from the non-watermarked diffusion model. Therefore we can achieve watermark embedding with lossless performance, for which we also provide theoretical proof. Furthermore, since the watermark is intricately linked with image semantics, it exhibits resilience to lossy processing and erasure attempts. The watermark can be extracted by Denoising Diffusion Implicit Models (DDIM) inversion and inverse sampling. We evaluate Gaussian Shading on multiple versions of Stable Diffusion, and the results demonstrate that Gaussian Shading not only is performance-lossless but also outperforms existing methods in terms of robustness. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# SwapAnything: パーソナライズされたビジュアル編集における任意オブジェクトスワッピングの実現
SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing ( http://arxiv.org/abs/2404.05717v2 ) ライセンス: Link先を確認 | Jing Gu, Yilin Wang, Nanxuan Zhao, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang, | (参考訳) 個人のコンテンツを効果的に編集することは、個人が創造性を表現し、物語を視覚的ストーリーの中に織り込み、視覚的コンテンツの全体的な品質と影響を高める上で重要な役割を担っている。
そこで本研究では,画像内の任意のオブジェクトを参照によって付与されるパーソナライズされた概念に置き換えると同時に,コンテキストを一定に保つ新しいフレームワークであるSwapAnythingを紹介する。
パーソナライズされた被写体交換法と比較して,SwapAnythingには,(1)主対象ではなく任意の対象物や部分の精密な制御,(2)コンテキスト画素のより忠実な保存,(3)イメージへのパーソナライズされた概念の適応,の3つの利点がある。
まず、潜在特徴マップに領域制御を適用し、マスク付き変数を忠実なコンテキスト保存と初期意味概念スワップに置き換えることを目的とした変数スワップを提案する。
そして、画像生成過程において、ターゲット位置、形状、スタイル、内容の観点で、意味概念を元の画像にシームレスに適応させる外観適応を導入する。
個人別スワップにおけるベースライン法よりも, 人的, 自動的な評価を総合的に行った結果, アプローチの大幅な改善が示された。
さらにSwapAnythingは、単一のオブジェクト、複数のオブジェクト、部分オブジェクト、クロスドメインスワップタスクにまたがる正確で忠実なスワップ機能を示している。
SwapAnythingはテキストベースのスワップや、オブジェクト挿入のようなスワップ以外のタスクでも優れたパフォーマンスを実現している。
Effective editing of personal content holds a pivotal role in enabling individuals to express their creativity, weaving captivating narratives within their visual stories, and elevate the overall quality and impact of their visual content. Therefore, in this work, we introduce SwapAnything, a novel framework that can swap any objects in an image with personalized concepts given by the reference, while keeping the context unchanged. Compared with existing methods for personalized subject swapping, SwapAnything has three unique advantages: (1) precise control of arbitrary objects and parts rather than the main subject, (2) more faithful preservation of context pixels, (3) better adaptation of the personalized concept to the image. First, we propose targeted variable swapping to apply region control over latent feature maps and swap masked variables for faithful context preservation and initial semantic concept swapping. Then, we introduce appearance adaptation, to seamlessly adapt the semantic concept into the original image in terms of target location, shape, style, and content during the image generation process. Extensive results on both human and automatic evaluation demonstrate significant improvements of our approach over baseline methods on personalized swapping. Furthermore, SwapAnything shows its precise and faithful swapping abilities across single object, multiple objects, partial object, and cross-domain swapping tasks. SwapAnything also achieves great performance on text-based swapping and tasks beyond swapping such as object insertion. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# Stiefel Manifold 上の Isometries 学習による量子ネットワークトモグラフィ
Quantum Network Tomography via Learning Isometries on Stiefel Manifold ( http://arxiv.org/abs/2404.06988v2 ) ライセンス: Link先を確認 | Ze-Tong Li, Xin-Lin He, Cong-Cong Zheng, Yu-Qian Dong, Tian Luan, Xu-Tao Yu, Zai-Chen Zhang, | (参考訳) 量子ネットワークの数学的再構成は、量子情報科学の発展に重要な役割を果たしている。
しかし、膨大なパラメータ要求と物理的制約の実装は、計算的に無視できない存在になっている。
本研究では,Stiefel多様体上のアイソメトリーを学習し,量子ネットワークトモグラフィーの効率的な手法を提案する。
量子ネットワーク再構築の課題は、パラメータが大幅に少ない一連の制約のない最適化問題を解くことで解決される。
ステップワイズアイソメトリ推定は、トモグラフィを処理しながら、切り捨てられた量子コムの情報を提供する能力を示す。
注目すべきことに、この方法はイソメトリーの次元を指定して圧縮量子コムトモグラフィーを可能にする。
その結果,提案手法は精度と効率性が高いことがわかった。
Explicit mathematical reconstructions of quantum networks play a significant role in developing quantum information science. However, tremendous parameter requirements and physical constraint implementations have become computationally non-ignorable encumbrances. In this work, we propose an efficient method for quantum network tomography by learning isometries on the Stiefel manifold. Tasks of reconstructing quantum networks are tackled by solving a series of unconstrained optimization problems with significantly less parameters. The stepwise isometry estimation shows the capability for providing information of the truncated quantum comb while processing the tomography. Remarkably, this method enables the compressive quantum comb tomography by specifying the dimensions of isometries. As a result, our proposed method exhibits high accuracy and efficiency. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# QRコードを用いた医薬品製造用偽造防止システム
Protected QR Code-based Anti-counterfeit System for Pharmaceutical Manufacturing ( http://arxiv.org/abs/2404.07831v3 ) ライセンス: Link先を確認 | Md Masruk Aulia, Nitol Saha, Md. Mostafizur Rahman, | (参考訳) 製薬業は、偽造薬物の世界的な脅威のために重大な課題に直面している。
本稿では, 医薬品サプライチェーンを保護するために, ユニークな製品情報を確保するために, 保護QRコードの新たなアプローチを提案する。
提案手法はセキュアなQRコード生成と暗号化されたデータ伝送を統合して、包括的な反偽造防止エコシステムを確立する。
保護QRコードは、複製や改ざんを防ぐために、従来のQRコードスキャナーを使用して識別できない製品情報をカプセル化する。
このシステムはスケーラビリティを念頭に開発されており、従来のサプライチェーンに新たな変更を加えることなく容易に実装することができる。
The pharmaceutical manufacturing faces critical challenges due to the global threat of counterfeit drugs. This paper proposes a new approach of protected QR codes to secure unique product information for safeguarding the pharmaceutical supply chain. The proposed solution integrates secure QR code generation and encrypted data transmission to establish a comprehensive anti-counterfeit ecosystem. The protected QR codes encapsulate product information that cannot be identified using traditional QR code scanners which protect the information against replication and tampering. The system is developed with scalability in mind, which can be easily implemented without introducing any additional modification in the traditional supply chain. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# TSLANet: 時系列表現学習のためのトランスフォーマー再考
TSLANet: Rethinking Transformers for Time Series Representation Learning ( http://arxiv.org/abs/2404.08472v2 ) ライセンス: Link先を確認 | Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Xiaoli Li, | (参考訳) 時系列データは、その固有の長距離および短距離の依存関係によって特徴づけられ、分析アプリケーションに固有の課題を生じさせる。
Transformerベースのモデルは、長距離依存関係のキャプチャに優れていますが、ノイズ感度、計算効率、より小さなデータセットとのオーバーフィットの制限に直面しています。
そこで本研究では,TSLANet(Time Series Lightweight Adaptive Network)を,時系列タスクの普遍的畳み込みモデルとして導入する。
具体的には,適応スペクトルブロック(Adaptive Spectral Block)を提案し,Fourier解析を用いて特徴表現を強化し,適応しきい値による雑音の緩和を図りながら,長期的・短期的な相互作用を捉える。
さらに、Interactive Convolution Blockを導入し、自己教師付き学習を活用して、複雑な時間パターンを復号化するためのTSLANetの能力を強化し、異なるデータセットでの堅牢性を向上させる。
我々の総合的な実験により、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れており、そのレジリエンスと適応性は様々なノイズレベルとデータサイズで示される。
コードはhttps://github.com/emadeldeen24/TSLANetで公開されている。
Time series data, characterized by its intrinsic long and short-range dependencies, poses a unique challenge across analytical applications. While Transformer-based models excel at capturing long-range dependencies, they face limitations in noise sensitivity, computational efficiency, and overfitting with smaller datasets. In response, we introduce a novel Time Series Lightweight Adaptive Network (TSLANet), as a universal convolutional model for diverse time series tasks. Specifically, we propose an Adaptive Spectral Block, harnessing Fourier analysis to enhance feature representation and to capture both long-term and short-term interactions while mitigating noise via adaptive thresholding. Additionally, we introduce an Interactive Convolution Block and leverage self-supervised learning to refine the capacity of TSLANet for decoding complex temporal patterns and improve its robustness on different datasets. Our comprehensive experiments demonstrate that TSLANet outperforms state-of-the-art models in various tasks spanning classification, forecasting, and anomaly detection, showcasing its resilience and adaptability across a spectrum of noise levels and data sizes. The code is available at https://github.com/emadeldeen24/TSLANet. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# 大規模言語モデルによる数ショットタブラリ学習のための機能の自動設計
Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning ( http://arxiv.org/abs/2404.09491v2 ) ライセンス: Link先を確認 | Sungwon Han, Jinsung Yoon, Sercan O Arik, Tomas Pfister, | (参考訳) 大きな言語モデル(LLM)は、挑戦的で目に見えない推論問題に対処する驚くべき能力を持つため、多くの現実世界のアプリケーションにとって欠かせない表型学習の可能性を秘めている。
本稿では,LLMを機能エンジニアとして用い,表形式での予測に最適な入力データセットを作成するための,新しい文脈内学習フレームワークFeatLLMを提案する。
生成された特徴は、線形回帰のような単純な下流機械学習モデルでクラス確率を推測するために使用され、高性能な数ショット学習をもたらす。
提案されているFeatLLMフレームワークは、この単純な予測モデルのみを使用し、推論時に検出された機能を使用する。
既存のLLMベースのアプローチと比較して、FeatLLMは推論時に各サンプルに対してLLMにクエリを送信する必要をなくしている。
さらに、単にLLMへのAPIレベルのアクセスを必要とし、迅速なサイズ制限を克服するだけだ。
FeatLLMは、広範囲のドメインから得られた多数の表形式のデータセットで実証されているように、高品質なルールを生成し、TabLLMやSTUNTなどよりもはるかに(平均で10%)優れた代替手段を生成する。
Large Language Models (LLMs), with their remarkable ability to tackle challenging and unseen reasoning problems, hold immense potential for tabular learning, that is vital for many real-world applications. In this paper, we propose a novel in-context learning framework, FeatLLM, which employs LLMs as feature engineers to produce an input data set that is optimally suited for tabular predictions. The generated features are used to infer class likelihood with a simple downstream machine learning model, such as linear regression and yields high performance few-shot learning. The proposed FeatLLM framework only uses this simple predictive model with the discovered features at inference time. Compared to existing LLM-based approaches, FeatLLM eliminates the need to send queries to the LLM for each sample at inference time. Moreover, it merely requires API-level access to LLMs, and overcomes prompt size limitations. As demonstrated across numerous tabular datasets from a wide range of domains, FeatLLM generates high-quality rules, significantly (10% on average) outperforming alternatives such as TabLLM and STUNT. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-06 |
# ピット回避のための自己説明:細粒度リワードによる言語モデルの推論能力の向上
Self-Explore to Avoid the Pit: Improving the Reasoning Capabilities of Language Models with Fine-grained Rewards ( http://arxiv.org/abs/2404.10346v2 ) ライセンス: Link先を確認 | Hyeonbin Hwang, Doyoung Kim, Seungone Kim, Seonghyeon Ye, Minjoon Seo, | (参考訳) 大量の論理学(CoTファインチューニング)の訓練は、大規模言語モデル(LLM)の推論能力を改善するのに効果的である。
しかし、プロプライエタリなモデルから人間公認の合理性を獲得することや、合理性を強化することは、コストが高く、スケーラブルではない。
本稿では,LLMが推論能力を自己改善できるかどうかを考察する。
この目的のために,LLMは論理学における第1ステップ(すなわち第1ピット)を探索し,さらに改善するために細かな報酬などの信号を使用するセルフエクスロアを提案する。
GSM8KとMATHテストセットでは、教師付き微調整(SFT)に比べて平均11.57%と2.89%の改善が達成されている。
私たちのコードはhttps://github.com/hbin0701/Self-Explore.comで公開されています。
Training on large amounts of rationales (i.e., CoT Fine-tuning) is effective at improving the reasoning capabilities of large language models (LLMs). However, acquiring human-authored rationales or augmenting rationales from proprietary models is costly and not scalable. In this paper, we study the problem of whether LLMs could self-improve their reasoning capabilities. To this end, we propose Self-Explore, where the LLM is tasked to explore the first wrong step (i.e., the first pit) within the rationale and use such signals as fine-grained rewards for further improvement. On the GSM8K and MATH test set, Self-Explore achieves 11.57% and 2.89% improvement on average across three LLMs compared to supervised fine-tuning (SFT). Our code is available at https://github.com/hbin0701/Self-Explore. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-06 |
# 手話指導の強化:没入型学習と多次元フィードバックのための混合現実感アプローチ
Enhancing Sign Language Teaching: A Mixed Reality Approach for Immersive Learning and Multi-Dimensional Feedback ( http://arxiv.org/abs/2404.10490v2 ) ライセンス: Link先を確認 | Hongli Wen, Yang Xu, Lin Li, Xudong Ru, Xingce Wang, Zhongke Wu, | (参考訳) 伝統的な手話教育手法は、限られたフィードバックや多様な学習シナリオといった課題に直面している。
2Dリソースにはリアルタイムのフィードバックがないが、教師の不足によって教室の授業は制限されている。
VRとARに基づく手法には、比較的原始的なインタラクションフィードバック機構がある。
本研究では,リアルタイムモノクルビジョンと複合現実感技術を用いた革新的な教育モデルを提案する。
まず,手話のセマンティック保持とリアルタイムフィードバックを実現するため,手動姿勢の再構築手法を提案する。
第2に,手話の専門家との整合性を維持した3次システム評価アルゴリズムを提案する。
さらに、混合現実技術を用いてシナリオベースの3D手話教室を構築し、シナリオ教育のユーザ体験を探究する。
本稿では, 没入型学習体験, 高度姿勢再構築, 正確なフィードバックを提供し, ユーザ体験に対する肯定的なフィードバックと学習効果を実現する新しい学習方法を提案する。
Traditional sign language teaching methods face challenges such as limited feedback and diverse learning scenarios. Although 2D resources lack real-time feedback, classroom teaching is constrained by a scarcity of teacher. Methods based on VR and AR have relatively primitive interaction feedback mechanisms. This study proposes an innovative teaching model that uses real-time monocular vision and mixed reality technology. First, we introduce an improved hand-posture reconstruction method to achieve sign language semantic retention and real-time feedback. Second, a ternary system evaluation algorithm is proposed for a comprehensive assessment, maintaining good consistency with experts in sign language. Furthermore, we use mixed reality technology to construct a scenario-based 3D sign language classroom and explore the user experience of scenario teaching. Overall, this paper presents a novel teaching method that provides an immersive learning experience, advanced posture reconstruction, and precise feedback, achieving positive feedback on user experience and learning effectiveness. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-06 |
# ウェハスケールにおける追跡可能なエージェントベース進化モデル
Trackable Agent-based Evolution Models at Wafer Scale ( http://arxiv.org/abs/2404.10861v2 ) ライセンス: Link先を確認 | Matthew Andres Moreno, Connor Yang, Emily Dolson, Luis Zaman, | (参考訳) コンピューティングハードウェアの継続的な改善は、進化生物学や人工生命における大きなオープンな問題、例えば個体の遷移、エコ進化力学、希少な進化現象をシリコモデルでモデル化する能力の変容を図っている。
850,000プロセッサのCerebras Wafer Scale Engine(WSE)のような、ML/AI指向のハードウェアアクセラレータが新たに登場した。
しかし、これらのプラットフォームの大きなプロセッサ数を効率的に活用する情報進化実験の実践的な課題は依然として残っている。
本稿では,WSEプラットフォーム上でのエージェントベースの進化から系統情報を抽出する問題に焦点をあてる。
この目的は、シリコ系統追跡において分散化するために、重要な改良を促したとここで報告されている。
これらの改善により、オーダー・オブ・マグニチュードのパフォーマンスが向上する。
WSEハードウェアのための非同期島型遺伝的アルゴリズム(GA)フレームワークも提案する。
シミュレーションおよびオンハードのGAベンチマークでは、単純な追跡可能なエージェントモデルで、1分間に100万世代以上、人口規模で1600万のエージェントに到達した。
本研究は,これらの治験の系統的再構成を検証し,根底にある進化状態の推測に適合することを示す。
特に,適応力学を有効化して動作を区別する明快な系統信号のウェーハスケールシミュレーションからの抽出を実演する。
これらのベンチマークと検証試験は、効率的かつ観測可能な、高度にスケーラブルなエージェントベースの進化シミュレーションの強い可能性を反映している。
開発された能力は、これまで難解だった研究課題のまったく新しいクラスに到達し、進化生物学や人工生命のコミュニティにおける様々な新興高性能コンピューティングプラットフォームにおけるさらなる探索に役立ちます。
Continuing improvements in computing hardware are poised to transform capabilities for in silico modeling of cross-scale phenomena underlying major open questions in evolutionary biology and artificial life, such as transitions in individuality, eco-evolutionary dynamics, and rare evolutionary events. Emerging ML/AI-oriented hardware accelerators, like the 850,000 processor Cerebras Wafer Scale Engine (WSE), hold particular promise. However, practical challenges remain in conducting informative evolution experiments that efficiently utilize these platforms' large processor counts. Here, we focus on the problem of extracting phylogenetic information from agent-based evolution on the WSE platform. This goal drove significant refinements to decentralized in silico phylogenetic tracking, reported here. These improvements yield order-of-magnitude performance improvements. We also present an asynchronous island-based genetic algorithm (GA) framework for WSE hardware. Emulated and on-hardware GA benchmarks with a simple tracking-enabled agent model clock upwards of 1 million generations a minute for population sizes reaching 16 million agents. We validate phylogenetic reconstructions from these trials and demonstrate their suitability for inference of underlying evolutionary conditions. In particular, we demonstrate extraction, from wafer-scale simulation, of clear phylometric signals that differentiate runs with adaptive dynamics enabled versus disabled. Together, these benchmark and validation trials reflect strong potential for highly scalable agent-based evolution simulation that is both efficient and observable. Developed capabilities will bring entirely new classes of previously intractable research questions within reach, benefiting further explorations within the evolutionary biology and artificial life communities across a variety of emerging high-performance computing platforms. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-06 |
# ビデオ塗布検出用マルチサイドテンポラルピラミッドトランス
Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection ( http://arxiv.org/abs/2404.11054v2 ) ライセンス: Link先を確認 | Ying Zhang, Yuezun Li, Bo Peng, Jiaran Zhou, Huiyu Zhou, Junyu Dong, | (参考訳) ビデオインペイント検出のタスクは、ビデオシーケンス内でピクセルレベルのインペイントされた領域を公開することである。
既存の手法は通常、空間的および時間的不整合の活用に焦点を当てる。
しかしながら、これらの手法は通常、空間的および時間的手がかりを組み合わせるために固定的な操作を使用し、異なるシナリオにおける適用性を制限する。
本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器({\em MumPy})について紹介する。
提案手法は,空間的時間的手がかりの様々なコラボレーションを抽出するために,新たに設計された多面的時間的視点エンコーダを用い,これらのコラボレーションの多様性を高めるために,変形可能なウィンドウベースの時間的視点対話モジュールを導入する。
その後,様々な特徴を集約し,検出マップを生成するマルチピラミドデコーダを開発した。
空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。
既存のデータセットに対して本手法の有効性を検証し,YouTube-VOSデータセットに基づく新しい挑戦的かつ大規模なビデオインパインティングデータセットを導入し,さらに最近のインパインティング手法を採用した。
その結果,本手法のドメイン内およびドメイン間評価シナリオにおける優位性を示した。
The task of video inpainting detection is to expose the pixel-level inpainted regions within a video sequence. Existing methods usually focus on leveraging spatial and temporal inconsistencies. However, these methods typically employ fixed operations to combine spatial and temporal clues, limiting their applicability in different scenarios. In this paper, we introduce a novel Multilateral Temporal-view Pyramid Transformer ({\em MumPy}) that collaborates spatial-temporal clues flexibly. Our method utilizes a newly designed multilateral temporal-view encoder to extract various collaborations of spatial-temporal clues and introduces a deformable window-based temporal-view interaction module to enhance the diversity of these collaborations. Subsequently, we develop a multi-pyramid decoder to aggregate the various types of features and generate detection maps. By adjusting the contribution strength of spatial and temporal clues, our method can effectively identify inpainted regions. We validate our method on existing datasets and also introduce a new challenging and large-scale Video Inpainting dataset based on the YouTube-VOS dataset, which employs several more recent inpainting methods. The results demonstrate the superiority of our method in both in-domain and cross-domain evaluation scenarios. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-06 |
# MoA:パーソナライズされた画像生成における主観的文脈の絡み合いに対する混在認識
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation ( http://arxiv.org/abs/2404.11565v2 ) ライセンス: Link先を確認 | Kuan-Chieh Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman, | (参考訳) 本稿では,Mixture-of-Attention (MoA)というテキスト・画像拡散モデルのパーソナライズのための新しいアーキテクチャを提案する。
大規模言語モデル(LLM)で使用されるMixture-of-ExpertsメカニズムにインスパイアされたMoAは、生成ワークロードを2つの注意経路 – パーソナライズされたブランチと非パーソナライズされた事前ブランチ – に分散する。
MoAは、前のブランチで注意層を固定し、前のブランチで生成されたレイアウトとコンテキストに被写体を埋め込むことを学習するパーソナライズされたブランチで、生成プロセスに最小限の介入をしながら、元のモデルの事前を維持するように設計されている。
新たなルーティング機構は、各レイヤにおける各ブランチ間のピクセルの分散を管理し、パーソナライズされたコンテンツ生成とジェネリックなコンテンツ生成のブレンドを最適化する。
トレーニングが完了すると、MoAは、複数の被験者が構成や相互作用を持つ高品質でパーソナライズされた画像の作成を促進する。
重要なことに、MoAはモデルの既存の能力と、新たに強化されたパーソナライズされた介入の区別を強化する。
プロジェクトページ:https://snap-research.github.io/mixture-of-attention
We introduce a new architecture for personalization of text-to-image diffusion models, coined Mixture-of-Attention (MoA). Inspired by the Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA distributes the generation workload between two attention pathways: a personalized branch and a non-personalized prior branch. MoA is designed to retain the original model's prior by fixing its attention layers in the prior branch, while minimally intervening in the generation process with the personalized branch that learns to embed subjects in the layout and context generated by the prior branch. A novel routing mechanism manages the distribution of pixels in each layer across these branches to optimize the blend of personalized and generic content creation. Once trained, MoA facilitates the creation of high-quality, personalized images featuring multiple subjects with compositions and interactions as diverse as those generated by the original model. Crucially, MoA enhances the distinction between the model's pre-existing capability and the newly augmented personalized intervention, thereby offering a more disentangled subject-context control that was previously unattainable. Project page: https://snap-research.github.io/mixture-of-attention | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-06 |
# 視覚言語モデルを用いた効果的なHOI検出のための対話型セマンティックアライメントの探索
Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model ( http://arxiv.org/abs/2404.12678v2 ) ライセンス: Link先を確認 | Jihao Dong, Renjie Pan, Hua Yang, | (参考訳) 人間-物体相互作用(Human-Object Interaction、HOI)は、対象対を局所化し、その相互作用を理解することを目的としている。
近年,二段変圧器を用いた手法が競争性能を実証している。
しかし,これらの手法はしばしばオブジェクトの外観に焦点を合わせ,グローバルな文脈情報を無視する。
さらに、視覚とテキストの埋め込みを効果的に整合させる視覚言語モデルCLIPは、ゼロショットHOI検出において大きな可能性を示している。
従来の事実に基づいて,CLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる新しいHOI検出器ISA-HOIを導入する。
まず、画像中のインタラクション機能を改善するために、画像のグローバルなコンテキストとオブジェクトの局所的な特徴を抽出する。
一方,動詞ラベルのテキスト的特徴をクロスモーダル融合により拡張するVerb Semantic Improvement (VSI) モジュールを提案する。
最終的に, HICO-DETとV-COCOのベンチマークにおいて, トレーニングのエポックスを大幅に減らし, ゼロショット環境での最先端性能を向上する。
Human-Object Interaction (HOI) detection aims to localize human-object pairs and comprehend their interactions. Recently, two-stage transformer-based methods have demonstrated competitive performance. However, these methods frequently focus on object appearance features and ignore global contextual information. Besides, vision-language model CLIP which effectively aligns visual and text embeddings has shown great potential in zero-shot HOI detection. Based on the former facts, We introduce a novel HOI detector named ISA-HOI, which extensively leverages knowledge from CLIP, aligning interactive semantics between visual and textual features. We first extract global context of image and local features of object to Improve interaction Features in images (IF). On the other hand, we propose a Verb Semantic Improvement (VSI) module to enhance textual features of verb labels via cross-modal fusion. Ultimately, our method achieves competitive results on the HICO-DET and V-COCO benchmarks with much fewer training epochs, and outperforms the state-of-the-art under zero-shot settings. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-06 |
# データセット凝縮の設計空間の解明
Elucidating the Design Space of Dataset Condensation ( http://arxiv.org/abs/2404.13733v2 ) ライセンス: Link先を確認 | Shitong Shao, Zikai Zhou, Huanran Chen, Zhiqiang Shen, | (参考訳) データ中心学習の概念であるデータセット凝縮(Dataset condensation)は、オリジナルのデータセットから合成バージョンに重要な属性を効率よく転送し、多様性とリアリズムの両方を維持します。
このアプローチはモデルのトレーニング効率を大幅に改善し、複数のアプリケーション領域で適用可能です。
大規模なデータセット(例えば、MTT、DREAM、TESLA)にスケーラビリティを制限する計算コストの低いものや、最適な設計スペースに制限されているものなど、特に小さなデータセット(例えば、SRe2L、G-VBSM、RDED)では潜在的な改善を妨げる可能性がある。
これらの制約に対処するため、ソフトカテゴリ対応マッチングの実装や学習率の調整など、具体的な効果的な戦略を含む包括的な設計フレームワークを提案する。
これらの戦略は実証的な証拠と理論的裏付けに基づいている。
得られたアプローチであるEucidate Dataset Condensation (EDC)は、小規模かつ大規模なデータセットのコンデンサのベンチマークを確立します。
我々のテストでは、ECCは最先端の精度を達成し、圧縮比0.78%に相当するResNet-18モデルでImageNet-1kで48.6%に達した。
この性能は、それぞれ27.3%、17.2%、および6.6%の差でSRe2L、G-VBSM、RDEDを上回る。
Dataset condensation, a concept within data-centric learning, efficiently transfers critical attributes from an original dataset to a synthetic version, maintaining both diversity and realism. This approach significantly improves model training efficiency and is adaptable across multiple application areas. Previous methods in dataset condensation have faced challenges: some incur high computational costs which limit scalability to larger datasets (e.g., MTT, DREAM, and TESLA), while others are restricted to less optimal design spaces, which could hinder potential improvements, especially in smaller datasets (e.g., SRe2L, G-VBSM, and RDED). To address these limitations, we propose a comprehensive design framework that includes specific, effective strategies like implementing soft category-aware matching and adjusting the learning rate schedule. These strategies are grounded in empirical evidence and theoretical backing. Our resulting approach, Elucidate Dataset Condensation (EDC), establishes a benchmark for both small and large-scale dataset condensation. In our testing, EDC achieves state-of-the-art accuracy, reaching 48.6% on ImageNet-1k with a ResNet-18 model at an IPC of 10, which corresponds to a compression ratio of 0.78%. This performance exceeds those of SRe2L, G-VBSM, and RDED by margins of 27.3%, 17.2%, and 6.6%, respectively. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-06 |
# FreqBlender: 周波数知識のブレンディングによるディープフェイク検出の強化
FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge ( http://arxiv.org/abs/2404.13872v2 ) ライセンス: Link先を確認 | Hanzhe Li, Yuezun Li, Jiaran Zhou, Bin Li, Junyu Dong, | (参考訳) 擬似フェイク顔と呼ばれる合成偽顔を生成することは、ディープフェイク検出の一般化を改善する効果的な方法である。
既存の方法では、色空間に実際の顔と偽の顔とを混ぜてこれらの顔を生成するのが一般的である。
これらの手法は将来性を示しているが、擬似フェイク顔における周波数分布のシミュレーションを見落とし、奥行きの一般的な偽跡の学習を制限する。
そこで本研究では,周波数知識をブレンドして擬似フェイク顔を生成する新しい手法である {\em FreqBlender} を紹介する。
具体的には、主要な周波数成分を調査し、フォージェリートレースに関連する周波数成分を適応的に分割する周波数パーシングネットワークを提案する。
そして、この周波数知識を偽の顔から実際の顔にブレンドし、偽の偽の顔を生成する。
周波数成分には基礎的な真理が存在しないため、異なる周波数知識の内的相関を利用して学習過程を指導することで、専用の学習戦略を記述する。
実験により,DeepFake検出の高速化に本手法の有効性が示され,他の手法のプラグ・アンド・プレイ戦略の可能性が確認された。
Generating synthetic fake faces, known as pseudo-fake faces, is an effective way to improve the generalization of DeepFake detection. Existing methods typically generate these faces by blending real or fake faces in color space. While these methods have shown promise, they overlook the simulation of frequency distribution in pseudo-fake faces, limiting the learning of generic forgery traces in-depth. To address this, this paper introduces {\em FreqBlender}, a new method that can generate pseudo-fake faces by blending frequency knowledge. Specifically, we investigate the major frequency components and propose a Frequency Parsing Network to adaptively partition frequency components related to forgery traces. Then we blend this frequency knowledge from fake faces into real faces to generate pseudo-fake faces. Since there is no ground truth for frequency components, we describe a dedicated training strategy by leveraging the inner correlations among different frequency knowledge to instruct the learning process. Experimental results demonstrate the effectiveness of our method in enhancing DeepFake detection, making it a potential plug-and-play strategy for other methods. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-06 |
# シークエンシャルディープフェイク検出のためのテクスチャ認識・形状誘導変換器
Texture-aware and Shape-guided Transformer for Sequential DeepFake Detection ( http://arxiv.org/abs/2404.13873v2 ) ライセンス: Link先を確認 | Yunfei Li, Yuezun Li, Xin Wang, Jiaran Zhou, Junyu Dong, | (参考訳) シークエンシャルディープフェイク検出は、順番に操作シーケンスを予測することを目的とした、新たなタスクである。
既存の手法ではイメージ・ツー・シーケンスの問題として定式化され、従来のTransformerアーキテクチャを用いて検出を行う。
しかし、これらの手法には専用の設計がなく、結果として性能が制限される。
本稿では,新しいテクスチャ認識型および形状誘導型トランスを提案し,検出性能を向上させる。
我々の方法には4つの大きな改善がある。
まず、Diversiform Pixel Difference Attentionモジュールで微妙な修正トレースを効果的にキャプチャするテクスチャ対応ブランチについて説明する。
次に,空間的特徴と逐次的特徴の間に深い相関関係を求める双方向インタラクション・クロスアテンション・モジュールを導入し,複雑な操作トレースを効果的にモデル化する。
クロスアテンションをさらに強化するため,形状誘導型ガウス写像戦略について述べる。
最後に、列における後者の操作が、先行するトレースに影響を及ぼす可能性があることを観察し、予測順序を前方から後方に反転させ、予想通り顕著な利得をもたらす。
実験結果から,本手法が他の手法よりも優れていることを示すとともに,本手法の優位性も明らかにした。
Sequential DeepFake detection is an emerging task that aims to predict the manipulation sequence in order. Existing methods typically formulate it as an image-to-sequence problem, employing conventional Transformer architectures for detection. However, these methods lack dedicated design and consequently result in limited performance. In this paper, we propose a novel Texture-aware and Shape-guided Transformer to enhance detection performance. Our method features four major improvements. Firstly, we describe a texture-aware branch that effectively captures subtle manipulation traces with the Diversiform Pixel Difference Attention module. Then we introduce a Bidirectional Interaction Cross-attention module that seeks deep correlations among spatial and sequential features, enabling effective modeling of complex manipulation traces. To further enhance the cross-attention, we describe a Shape-guided Gaussian mapping strategy, providing initial priors of the manipulation shape. Finally, observing that the latter manipulation in a sequence may influence traces left in the earlier one, we intriguingly invert the prediction order from forward to backward, leading to notable gains as expected. Extensive experimental results demonstrate that our method outperforms others by a large margin, highlighting the superiority of our method. | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-06 |
# SHE-Net: 構文階層強化テキストビデオ検索
SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval ( http://arxiv.org/abs/2404.14066v2 ) ライセンス: Link先を確認 | Xuzheng Yu, Chen Jiang, Xingning Dong, Tian Gan, Ming Yang, Qingpei Guo, | (参考訳) 近年、ショートビデオアプリのユーザーベースは前例のない成長を遂げており、ビデオコンテンツ分析の需要が著しく高まっている。
特に、巨大なビデオコーパスからテキスト記述を与えられたトップマッチングビデオを見つけることを目的としたテキストビデオ検索は、重要な機能であり、その主な課題はモダリティギャップを埋めることである。
しかし、既存のほとんどのアプローチは、テキストを単に離散トークンとして扱い、構文構造を無視している。
さらに、ビデオの空間的および時間的手がかりは、テキストとの相互作用が欠如しているため、しばしば利用されない。
これらの課題に対処するために、ビデオ内の関連時間的フレームや空間的領域に焦点を合わせるためのガイダンスとしてテキストを使うことが有用である、と論じる。
本稿では,2つの視点からモダリティギャップを埋めるために,テキストの固有の意味的階層と構文的階層を利用する,SHE-Net(Syntax-Hierarchy-Enhanced Text-Video Search)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いて、視覚表現のガイドを行う。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
MSR-VTT, MSVD, DiDeMo, ActivityNetの4つの公開テキストビデオ検索データセットについて検討した。
実験結果とアブレーション実験により,提案手法の利点が確認された。
The user base of short video apps has experienced unprecedented growth in recent years, resulting in a significant demand for video content analysis. In particular, text-video retrieval, which aims to find the top matching videos given text descriptions from a vast video corpus, is an essential function, the primary challenge of which is to bridge the modality gap. Nevertheless, most existing approaches treat texts merely as discrete tokens and neglect their syntax structures. Moreover, the abundant spatial and temporal clues in videos are often underutilized due to the lack of interaction with text. To address these issues, we argue that using texts as guidance to focus on relevant temporal frames and spatial regions within videos is beneficial. In this paper, we propose a novel Syntax-Hierarchy-Enhanced text-video retrieval method (SHE-Net) that exploits the inherent semantic and syntax hierarchy of texts to bridge the modality gap from two perspectives. First, to facilitate a more fine-grained integration of visual content, we employ the text syntax hierarchy, which reveals the grammatical structure of text descriptions, to guide the visual representations. Second, to further enhance the multi-modal interaction and alignment, we also utilize the syntax hierarchy to guide the similarity calculation. We evaluated our method on four public text-video retrieval datasets of MSR-VTT, MSVD, DiDeMo, and ActivityNet. The experimental results and ablation studies confirm the advantages of our proposed method. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-06 |
# 生成AIのためのフェアネスの形式的仕様、評価、実施
Formal Specification, Assessment, and Enforcement of Fairness for Generative AIs ( http://arxiv.org/abs/2404.16663v3 ) ライセンス: Link先を確認 | Chih-Hong Cheng, Changshun Wu, Harald Ruess, Xingyu Zhao, Saddek Bensalem, | (参考訳) 社会的偏見や不平等の強化や悪化は、生成的AIがテキストから画像に至るまで、現実の世界において有用なアーティファクトをますます生み出すにつれて、大幅に増加するだろう。
これらの課題に対処するために、生成AIの公正性の概念を、公正性を監視・強制するための基盤として公式に特徴づける。
テキストや画像などのAI生成アーティファクトの抽象化の無限列の概念を用いて、フェアネスの2つのレベルを定義する。
ひとつは、生成されたシーケンスで実証された公平さであり、出力でのみ評価され、使用するプロンプトやモデルに依存しない。
2つ目は、生成AIモデルの本質的公正性であり、入力プロンプトが中立であるときに公正性を示す必要がある。
また,複数カテゴリと遅延フェアネス法を併用して検討する場合,相対的交差フェアネスについて検討した。
最後に、フェアネスの監視と実施は、現在の生成AIモデルに対してテストされる。
Reinforcing or even exacerbating societal biases and inequalities will increase significantly as generative AI increasingly produces useful artifacts, from text to images and beyond, for the real world. We address these issues by formally characterizing the notion of fairness for generative AI as a basis for monitoring and enforcing fairness. We define two levels of fairness using the notion of infinite sequences of abstractions of AI-generated artifacts such as text or images. The first is the fairness demonstrated on the generated sequences, which is evaluated only on the outputs while agnostic to the prompts and models used. The second is the inherent fairness of the generative AI model, which requires that fairness be manifested when input prompts are neutral, that is, they do not explicitly instruct the generative AI to produce a particular type of output. We also study relative intersectional fairness to counteract the combinatorial explosion of fairness when considering multiple categories together with lazy fairness enforcement. Finally, fairness monitoring and enforcement are tested against some current generative AI models. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-06 |
# ディファレンシャルプライバシのストリーミングのための高効率・準最適ノイズ生成
Efficient and Near-Optimal Noise Generation for Streaming Differential Privacy ( http://arxiv.org/abs/2404.16706v3 ) ライセンス: Link先を確認 | Krishnamurthy Dvijotham, H. Brendan McMahan, Krishna Pillutla, Thomas Steinke, Abhradeep Thakurta, | (参考訳) 差分的プライベート(DP)連続カウントのタスクでは、インクリメントのストリームを受け取り、特定のインクリメントについて多くを明らかにすることなく、これらのインクリメントの総実行量を近似的に出力することを目的としています。
その単純さにもかかわらず、差分的に個人的連続的数え上げは理論と実際の両方において大きな注目を集めている。
微分プライベートな連続的数え上げのための既存のアルゴリズムは、その空間的使用法において非効率であるか、あるいは過度のノイズを付加し、準最適効用を誘導する。
最も実用的なDP連続計数アルゴリズムは、ガウス雑音を注意深く値に付加する。
このノイズの共分散を選択するタスクは、(プレフィックス和を計算する)下の三角形行列を分解する言葉で表すことができる。
本稿では,DP の連続数え上げに近似的有用性を実現し,対数的あるいは多対数的空間(および時間)のみを必要とする,このクラスからの2つのアプローチを提案する。
最初のアプローチは、Toeplitz行列のクラスに対する空間効率のよいストリーミング行列乗算アルゴリズムに基づいている。
DP連続数え上げのためにこのアルゴリズムをインスタンス化するには、複素平面上の円上の平方根を近似する低次有理関数を見つけるのに十分であることを示す。
次に、ツールを近似理論から拡張してこれを実現する。
また、任意に多くのステップに対して目的関数の効率的な閉形式を導出し、直接数値最適化がこの問題に対して非常に実用的な解をもたらすことを示す。
第2のアプローチは、最初のアプローチとバイナリツリー機構に似た再帰的な構造を組み合わせるものです。
In the task of differentially private (DP) continual counting, we receive a stream of increments and our goal is to output an approximate running total of these increments, without revealing too much about any specific increment. Despite its simplicity, differentially private continual counting has attracted significant attention both in theory and in practice. Existing algorithms for differentially private continual counting are either inefficient in terms of their space usage or add an excessive amount of noise, inducing suboptimal utility. The most practical DP continual counting algorithms add carefully correlated Gaussian noise to the values. The task of choosing the covariance for this noise can be expressed in terms of factoring the lower-triangular matrix of ones (which computes prefix sums). We present two approaches from this class (for different parameter regimes) that achieve near-optimal utility for DP continual counting and only require logarithmic or polylogarithmic space (and time). Our first approach is based on a space-efficient streaming matrix multiplication algorithm for a class of Toeplitz matrices. We show that to instantiate this algorithm for DP continual counting, it is sufficient to find a low-degree rational function that approximates the square root on a circle in the complex plane. We then apply and extend tools from approximation theory to achieve this. We also derive efficient closed-forms for the objective function for arbitrarily many steps, and show direct numerical optimization yields a highly practical solution to the problem. Our second approach combines our first approach with a recursive construction similar to the binary tree mechanism. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-06 |
# Fast Abstracts and Student Forum Proceedings -- EDCC 2024 -- 19th European Dependable Computing Conference
Fast Abstracts and Student Forum Proceedings -- EDCC 2024 -- 19th European Dependable Computing Conference ( http://arxiv.org/abs/2404.17465v3 ) ライセンス: Link先を確認 | Simona Bernardi, Tommaso Zoppi, | (参考訳) Fast Abstractsトラックの目標は、研究者や実践者が信頼性の高いコンピューティングに取り組むことで、進捗や意見の断片について議論することである。
学業や産業界からの貢献を歓迎する。
Fast Abstractsは、迅速で柔軟なメカニズムとして機能することを目指している。
一 完了又は未完了の可能性のある現在の業務の報告
(二)地域社会に新しい考えを導入すること。
三 物議を醸す問題又は公開問題に関する国家の立場
四 実語信頼性工学から学んだ教訓の共有
五 反表示に基づく他の書類による取消し又は質問結果
学生フォーラムは、学生が自分の仕事を発表し、議論し、他の学生、研究者、産業とアイデアと経験を交換できる活気ある友好的な環境を作ることを目標としている。
このフォーラムの重要な目標の1つは、将来の研究の方向性に役立つであろう予備的な結果について学生にフィードバックを提供することである。
The goal of the Fast Abstracts track is to bring together researchers and practitioners working on dependable computing to discuss work in progress or opinion pieces. Contributions are welcome from academia and industry. Fast Abstracts aim to serve as a rapid and flexible mechanism to: (i) Report on current work that may or may not be complete; (ii) Introduce new ideas to the community; (iii) State positions on controversial issues or open problems; (iv) Share lessons learnt from real-word dependability engineering; and (v) Debunk or question results from other papers based on contra-indications. The Student Forum aims at creating a vibrant and friendly environment where students can present and discuss their work, and exchange ideas and experiences with other students, researchers and industry. One of the key goals of the Forum is to provide students with feedback on their preliminary results that might help with their future research directions. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-06 |
# 顧客サービス質問回答のための知識グラフを用いた検索拡張生成
Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering ( http://arxiv.org/abs/2404.17723v2 ) ライセンス: Link先を確認 | Zhentao Xu, Mark Jerome Cruz, Matthew Guevara, Tie Wang, Manasi Deshpande, Xiaofeng Wang, Zheng Li, | (参考訳) カスタマーサービス技術サポートでは、顧客からの問い合わせを効率的に解決するために、過去の問題を迅速かつ正確に検索することが重要である。
大規模言語モデル(LLM)の検索強化生成(RAG)における従来の検索手法は,過去の発行追跡チケットの大量のコーパスをプレーンテキストとして扱い,重要な発行内構造や,性能を制限した発行間関係を無視している。
本稿では,知識グラフ(KG)とRAGを併用する新しい顧客サービス質問回答手法を提案する。
本手法は, 歴史的問題からKGを抽出し, 発行内構造と発行間関係を維持する。
質問応答フェーズにおいて,提案手法は消費者問合せを解析し,関連する部分グラフをKGから検索し,回答を生成する。
このKGの統合は、顧客サービス構造情報を保存することによって検索精度を向上するだけでなく、テキストセグメンテーションの効果を緩和して回答品質を向上させる。
提案手法は,キー検索(MRR, Recall@K, NDCG@K)とテキスト生成(BLEU, ROUGE, METEOR)のメトリクスを用いて,ベンチマークデータセットの実証評価を行い,MRRでは77.6%,BLEUでは0.32倍の精度でベースラインを達成できた。
当社のメソッドはLinkedInのカスタマーサービスチーム内で約6ヶ月にわたってデプロイされ、イシュー毎の解決時間の中央値が28.6%削減された。
In customer service technical support, swiftly and accurately retrieving relevant past issues is critical for efficiently resolving customer inquiries. The conventional retrieval methods in retrieval-augmented generation (RAG) for large language models (LLMs) treat a large corpus of past issue tracking tickets as plain text, ignoring the crucial intra-issue structure and inter-issue relations, which limits performance. We introduce a novel customer service question-answering method that amalgamates RAG with a knowledge graph (KG). Our method constructs a KG from historical issues for use in retrieval, retaining the intra-issue structure and inter-issue relations. During the question-answering phase, our method parses consumer queries and retrieves related sub-graphs from the KG to generate answers. This integration of a KG not only improves retrieval accuracy by preserving customer service structure information but also enhances answering quality by mitigating the effects of text segmentation. Empirical assessments on our benchmark datasets, utilizing key retrieval (MRR, Recall@K, NDCG@K) and text generation (BLEU, ROUGE, METEOR) metrics, reveal that our method outperforms the baseline by 77.6% in MRR and by 0.32 in BLEU. Our method has been deployed within LinkedIn's customer service team for approximately six months and has reduced the median per-issue resolution time by 28.6%. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-06 |
# 単一ビットを用いた効率的な半量子鍵分配プロトコル
Efficient Mediated Semi-Quantum Key Distribution Protocol Using Single Qubits ( http://arxiv.org/abs/2404.17727v2 ) ライセンス: Link先を確認 | Mustapha Anis Younes, Sofia Zebboudj, Abdelhakim Gharbi, | (参考訳) 本稿では,2人の古典的参加者間の秘密鍵の共有化を容易にし,信頼できない第三者(TP)の助けを借りて,より効率的な半量子鍵分配(MSQKD)プロトコルを提案する。
既存のMSQKDプロトコルとは異なり、我々の手法は、量子ビットを$X$で準備し測定することしか必要としないTPの量子要求を大幅に削減する。
一方、古典的参加者は、アダマール演算の実行とともに、$Z$ベースのキュービットの準備と測定に制限される。
この量子オーバーヘッドの低減は、量子ビット効率を損なうことなく、我々のMSQKDプロトコルの実用性を高める。
さらに,様々な攻撃に対するプロトコルの安全性を実証する。
In this paper, we propose a new efficient mediated semi-quantum key distribution (MSQKD) protocol, facilitating the establishment of a shared secret key between two classical participants with the assistance of an untrusted third party (TP). Unlike existing MSQKD protocols, our approach significantly reduces the quantum requirements for TP, who only needs to prepare and measure qubits in the $X$ basis. Meanwhile, the classical participants are limited to preparing and measuring qubits in the $Z$ basis, along with performing Hadamard operations. This reduction in quantum overhead enhances the practicality of our MSQKD protocol without compromising qubit efficiency. Additionally, we demonstrate the security of our protocol against various well-known attacks. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-06 |
# PatentGPT:知的財産のための大規模言語モデル
PatentGPT: A Large Language Model for Intellectual Property ( http://arxiv.org/abs/2404.18255v3 ) ライセンス: Link先を確認 | Zilong Bai, Ruiji Zhang, Linqing Chen, Qijun Cai, Yuan Zhong, Cong Wang, Yan Fang, Jie Fang, Jing Sun, Weikuan Wang, Lizhi Zhou, Haoran Hua, Tian Qiu, Chaochao Wang, Cheng Sun, Jianping Lu, Yixin Wang, Yubin Xia, Meng Hu, Haowen Liu, Peng Xu, Licong Xu, Fu Bian, Xiaolong Gu, Lisha Zhang, Weilei Wang, Changyang Tu, | (参考訳) 近年,多数の自然言語処理タスクにまたがる例外的な性能により,大規模言語モデルが注目され,様々な分野に広く応用されている。
しかし、知的財産権(IP)分野における大規模言語モデルの応用は、専門知識、プライバシー保護、この分野における極端に長いテキストの処理の必要性が強いため、困難である。
本技術報告では,IP ドメインのユニークな要件を満たす,IP 指向 LLM をトレーニングするための,低コストで標準化された手順を初めて提示する。
この標準プロセスを用いて,オープンソース事前学習モデルに基づく特許GPTシリーズモデルを訓練した。
オープンソースのIP指向ベンチマークMOZIPで評価することにより、ドメイン固有のLCMはGPT-4よりも優れており、提案したトレーニング手順の有効性とIP領域における特許GPTモデルの専門性を示している。
驚くべきことに、2019年の中国特許代理人資格試験において、我々のモデルは、65のスコアを獲得し、人間の専門家のレベルに達したことで、GPT-4を著しく上回った。
さらに、SMoE アーキテクチャを利用する PatentGPT モデルは、IP ドメインの GPT-4 に匹敵する性能を達成し、IP ドメイン内の GPT-4 の代替として機能し、長文タスクのコストパフォーマンスを向上する。
In recent years, large language models have attracted significant attention due to their exceptional performance across a multitude of natural language process tasks, and have been widely applied in various fields. However, the application of large language models in the Intellectual Property (IP) space is challenging due to the strong need for specialized knowledge, privacy protection, processing of extremely long text in this field. In this technical report, we present for the first time a low-cost, standardized procedure for training IP-oriented LLMs, meeting the unique requirements of the IP domain. Using this standard process, we have trained the PatentGPT series models based on open-source pretrained models. By evaluating them on the open-source IP-oriented benchmark MOZIP, our domain-specific LLMs outperforms GPT-4, indicating the effectiveness of the proposed training procedure and the expertise of the PatentGPT models in the IP demain. What is impressive is that our model significantly outperformed GPT-4 on the 2019 China Patent Agent Qualification Examination by achieving a score of 65, reaching the level of human experts. Additionally, the PatentGPT model, which utilizes the SMoE architecture, achieves performance comparable to that of GPT-4 in the IP domain and demonstrates a better cost-performance ratio on long-text tasks, potentially serving as an alternative to GPT-4 within the IP domain. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-06 |
# 物体中心運動学を用いた教師なしダイナミクス予測
Unsupervised Dynamics Prediction with Object-Centric Kinematics ( http://arxiv.org/abs/2404.18423v2 ) ライセンス: Link先を確認 | Yeon-Ji Song, Suhyung Choi, Jaein Kim, Jin-Hwa Kim, Byoung-Tak Zhang, | (参考訳) 人間の知覚は、複雑な多目的シーンを時間的な物体の外観(e, size, shape, color)と時間的な物体の動き(ie, location, velocity, accelerate)に識別する。
この無意識で環境を理解する能力は、動的モデリングの成功の背後にあるモチベーションである。
オブジェクト中心の表現は、動的予測のための有望なツールとして現れてきたが、それらは主にオブジェクトの外観に焦点を当てており、しばしば他の重要な属性を見落としている。
本稿では,オブジェクト中心表現を利用した動的予測フレームワークであるOCR(Object-Centric Kinematics)を提案する。
本モデルは,物体の位置,速度,加速度の低レベルな構造化状態を含む,物体運動学という新しい成分を利用する。
オブジェクトキネマティクスは、暗黙的または明示的なアプローチによって得られ、包括的な時空間的オブジェクト推論を可能にし、様々なトランスフォーマー機構を通じて統合され、効果的なオブジェクト中心力学モデリングを容易にする。
本モデルは,多種多様なオブジェクト属性と動的動きを特徴とする複雑なシーンにおけるオブジェクトと背景の扱いにおいて,優れた性能を示す。
さらに,本モデルでは,多種多様な合成環境にまたがる一般化能力を実証し,視覚関連タスクの幅広い適用可能性を強調した。
Human perception involves discerning complex multi-object scenes into time-static object appearance (ie, size, shape, color) and time-varying object motion (ie, location, velocity, acceleration). This innate ability to unconsciously understand the environment is the motivation behind the success of dynamics modeling. Object-centric representations have emerged as a promising tool for dynamics prediction, yet they primarily focus on the objects' appearance, often overlooking other crucial attributes. In this paper, we propose Object-Centric Kinematics (OCK), a framework for dynamics prediction leveraging object-centric representations. Our model utilizes a novel component named object kinematics, which comprises low-level structured states of objects' position, velocity, and acceleration. The object kinematics are obtained via either implicit or explicit approaches, enabling comprehensive spatiotemporal object reasoning, and integrated through various transformer mechanisms, facilitating effective object-centric dynamics modeling. Our model demonstrates superior performance when handling objects and backgrounds in complex scenes characterized by a wide range of object attributes and dynamic movements. Moreover, our model demonstrates generalization capabilities across diverse synthetic environments, highlighting its potential for broad applicability in vision-related tasks. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-06 |
# 等価エクストリーム学習マシンによるPDEの高速かつ効率的な予測
Predicting PDEs Fast and Efficiently with Equivariant Extreme Learning Machines ( http://arxiv.org/abs/2404.18530v2 ) ライセンス: Link先を確認 | Hans Harder, Sebastian Peitz, | (参考訳) 我々は、偏微分方程式(PDE)の予測に極端な学習機械を利用する。
提案手法では,状態空間を複数のウィンドウに分割し,一つのモデルを用いて個別に予測する。
少数のデータポイントしか必要とせず(場合によっては、我々の手法は1つのフルステートスナップショットから学習することができる)、高い精度でPDEのフローを予測できる。
さらに, サンプル効率を高め, 等式を強制するために, 追加の対称性をいかに活用できるかを示す。
We utilize extreme learning machines for the prediction of partial differential equations (PDEs). Our method splits the state space into multiple windows that are predicted individually using a single model. Despite requiring only few data points (in some cases, our method can learn from a single full-state snapshot), it still achieves high accuracy and can predict the flow of PDEs over long time horizons. Moreover, we show how additional symmetries can be exploited to increase sample efficiency and to enforce equivariance. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-06 |
# 半構造化データと大規模言語モデルの統合による高品質医療シミュレーションシナリオの自動生成
Automated Generation of High-Quality Medical Simulation Scenarios Through Integration of Semi-Structured Data and Large Language Models ( http://arxiv.org/abs/2404.19713v2 ) ライセンス: Link先を確認 | Scott Sumpter, | (参考訳) 本研究では,医学シミュレーションシナリオの作成を自動化するために,半構造化データと大規模言語モデル(LLM)を統合することにより,医学教育の変革的枠組みを提案する。
伝統的に、これらのシナリオの開発は、様々な教育的ニーズを満たすための柔軟性が制限された、時間を要するプロセスであった。
提案手法はAIを用いて、特定の教育目的に合わせて、詳細な、臨床的に関係のあるシナリオを効率的に生成する。
この革新はシナリオ開発に必要な時間とリソースを大幅に削減し、より広範なシミュレーションを可能にした。
教育者や学習者からの予備的なフィードバックは、エンゲージメントの向上と知識獲得の改善を示し、シミュレーションベースの学習におけるこのAI強化手法の有効性を確認している。
構造化されたデータとLLMの統合は、作成プロセスの合理化だけでなく、医療訓練に革命をもたらす、スケーラブルでダイナミックなソリューションも提供します。
This study introduces a transformative framework for medical education by integrating semi-structured data with Large Language Models (LLMs), primarily OpenAIs ChatGPT3.5, to automate the creation of medical simulation scenarios. Traditionally, developing these scenarios was a time-intensive process with limited flexibility to meet diverse educational needs. The proposed approach utilizes AI to efficiently generate detailed, clinically relevant scenarios that are tailored to specific educational objectives. This innovation has significantly reduced the time and resources required for scenario development, allowing for a broader variety of simulations. Preliminary feedback from educators and learners has shown enhanced engagement and improved knowledge acquisition, confirming the effectiveness of this AI-enhanced methodology in simulation-based learning. The integration of structured data with LLMs not only streamlines the creation process but also offers a scalable, dynamic solution that could revolutionize medical training, highlighting the critical role of AI in advancing educational outcomes and patient care standards. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-06 |
# ビデオ異常の因果理解のための総合的ベンチマーク
Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly ( http://arxiv.org/abs/2405.00181v2 ) ライセンス: Link先を確認 | Hang Du, Sicheng Zhang, Binzhu Xie, Guoshun Nan, Jiayang Zhang, Junrui Xu, Hangyu Liu, Sicong Leng, Jiangming Liu, Hehe Fan, Dajiu Huang, Jing Feng, Linli Chen, Can Zhang, Xuhuan Li, Hao Zhang, Jianhang Chen, Qimei Cui, Xiaofeng Tao, | (参考訳) ビデオ異常理解(VAU)は、ビデオにおける異常な事象を自動的に理解することを目的としており、交通監視や工業製造などの様々な応用を可能にする。
既存のVAUベンチマークは主に異常検出とローカライゼーションに重点を置いているが、より実践性を重視しており、"異常発生"、"なぜ発生したのか?"、"この異常発生はどの程度深刻なのか?
これらの回答を追求するために,ビデオ異常の因果理解のための総合的ベンチマーク(CUVA)を提案する。
具体的には、提案されたベンチマークの各インスタンスは、異常の"What"、"why"、"how"の3つのアノテーションセットを含む。
1)異常型,開始時期及び終了時期,及びイベント記述
2 異常の原因に関する自然言語の説明及び
3) 異常の影響を反映した自由テキスト。
また,CUVAに対するヒトの嗜好に適合する新しい評価指標であるMMEvalを導入し,ビデオ異常の原因とそれに対応する効果を理解する上で,既存のLCMの測定を容易にする。
最後に,挑戦的CUVAのベースラインとして機能する新しいプロンプトベースの手法を提案する。
評価基準の優越性と即時的アプローチを示すため,広範囲な実験を行った。
私たちのコードとデータセットはhttps://github.com/fesvhtr/CUVA.comで公開されています。
Video anomaly understanding (VAU) aims to automatically comprehend unusual occurrences in videos, thereby enabling various applications such as traffic surveillance and industrial manufacturing. While existing VAU benchmarks primarily concentrate on anomaly detection and localization, our focus is on more practicality, prompting us to raise the following crucial questions: "what anomaly occurred?", "why did it happen?", and "how severe is this abnormal event?". In pursuit of these answers, we present a comprehensive benchmark for Causation Understanding of Video Anomaly (CUVA). Specifically, each instance of the proposed benchmark involves three sets of human annotations to indicate the "what", "why" and "how" of an anomaly, including 1) anomaly type, start and end times, and event descriptions, 2) natural language explanations for the cause of an anomaly, and 3) free text reflecting the effect of the abnormality. In addition, we also introduce MMEval, a novel evaluation metric designed to better align with human preferences for CUVA, facilitating the measurement of existing LLMs in comprehending the underlying cause and corresponding effect of video anomalies. Finally, we propose a novel prompt-based method that can serve as a baseline approach for the challenging CUVA. We conduct extensive experiments to show the superiority of our evaluation metric and the prompt-based approach. Our code and dataset are available at https://github.com/fesvhtr/CUVA. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-06 |
# 一般化エンベロープスペクトルに基づく信号対雑音目標:時間変化速度条件下でのギヤ故障検出のための定式化、最適化および応用
Generalised envelope spectrum-based signal-to-noise objectives: Formulation, optimisation and application for gear fault detection under time-varying speed conditions ( http://arxiv.org/abs/2405.00727v2 ) ライセンス: Link先を確認 | Stephan Schmidt, Daniel N. Wilke, Konstantinos C. Gryllias, | (参考訳) 振動に基づく条件モニタリングにおいて、最適フィルタ設計は、振動信号内の弱い故障信号を強化することにより、故障検出を改善する。
このプロセスは、定義された目的物から導出された目的関数を最適化する。
目的はしばしば、フィルタのパラメータを決定するためのプロキシヘルス指標に基づいています。
しかし、これらの指標は、無関係な外部信号成分と変動する運用条件によって妥協され、フィルタの有効性に影響を及ぼす。
断層検出は主に、正方形エンベロープスペクトルにおける断層成分の卓越度を用いており、正方形エンベロープスペクトルに基づく信号-雑音比によって定量化されている。
新しい最適フィルタ目的関数は,可変速度条件下で動作する機械に対して提案した一般化エンベロープスペクトルに基づく信号対雑音目的関数から導出される。
プロキシの健康指標を最適化する代わりに、定式化の最適フィルタ係数は、標準勾配に基づくオプティマイザを用いて、ターゲット周波数帯の2乗エンベロープスペクトルに基づく信号-雑音比を直接最大化する。
提案した目的から導出された4つの目的関数は、3つの実験データセットで5つの重要な手法を効果的に上回った。
In vibration-based condition monitoring, optimal filter design improves fault detection by enhancing weak fault signatures within vibration signals. This process involves optimising a derived objective function from a defined objective. The objectives are often based on proxy health indicators to determine the filter's parameters. However, these indicators can be compromised by irrelevant extraneous signal components and fluctuating operational conditions, affecting the filter's efficacy. Fault detection primarily uses the fault component's prominence in the squared envelope spectrum, quantified by a squared envelope spectrum-based signal-to-noise ratio. New optimal filter objective functions are derived from the proposed generalised envelope spectrum-based signal-to-noise objective for machines operating under variable speed conditions. Instead of optimising proxy health indicators, the optimal filter coefficients of the formulation directly maximise the squared envelope spectrum-based signal-to-noise ratio over targeted frequency bands using standard gradient-based optimisers. Four derived objective functions from the proposed objective effectively outperform five prominent methods in tests on three experimental datasets. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-06 |
# Ask Me Anything:ComcastがLLMを使ってエージェントをリアルタイムで支援する方法
"Ask Me Anything": How Comcast Uses LLMs to Assist Agents in Real Time ( http://arxiv.org/abs/2405.00801v2 ) ライセンス: Link先を確認 | Scott Rome, Tianwen Chen, Raphael Tang, Luwei Zhou, Ferhan Ture, | (参考訳) カスタマーサービスとは、企業が顧客と対話する方法である。
顧客満足度全体に大きく貢献できます。
しかし、高品質なサービスは高価になり、可能な限りコスト効率を上げるインセンティブを生み出し、ほとんどの企業がAIアシスタント(チャットボット)を利用するように促す。
一方で、特に紛争や請求書支払いのようなセンシティブなトピックといった複雑なシナリオに関しては、顧客から人間へのインタラクションが依然として望まれています。
これにより、カスタマーサービスエージェントのバーが上がります。
顧客の質問や懸念を正確に理解し、受け入れがたいソリューションを特定し(そして会社の方針の中で)、同時に複数の会話を処理しなければなりません。
本稿ではエージェント対応のカスタマーサービスインターフェースにアドオン機能として"Ask Me Anything"(AMA)を導入します。
AMAは、エージェントが要求に応じて大きな言語モデル(LLM)に質問することを可能にする。
内部実験では、AMAと従来の検索体験のエージェントが、検索を含む会話の1秒あたり約10%短縮され、年間数百万ドルの貯蓄に変換されることがわかった。
AMA機能を使用したエージェントは80%近くを肯定的なフィードバックとして提供し、AIによるカスタマーケア機能としての有用性を示した。
Customer service is how companies interface with their customers. It can contribute heavily towards the overall customer satisfaction. However, high-quality service can become expensive, creating an incentive to make it as cost efficient as possible and prompting most companies to utilize AI-powered assistants, or "chat bots". On the other hand, human-to-human interaction is still desired by customers, especially when it comes to complex scenarios such as disputes and sensitive topics like bill payment. This raises the bar for customer service agents. They need to accurately understand the customer's question or concern, identify a solution that is acceptable yet feasible (and within the company's policy), all while handling multiple conversations at once. In this work, we introduce "Ask Me Anything" (AMA) as an add-on feature to an agent-facing customer service interface. AMA allows agents to ask questions to a large language model (LLM) on demand, as they are handling customer conversations -- the LLM provides accurate responses in real-time, reducing the amount of context switching the agent needs. In our internal experiments, we find that agents using AMA versus a traditional search experience spend approximately 10% fewer seconds per conversation containing a search, translating to millions of dollars of savings annually. Agents that used the AMA feature provided positive feedback nearly 80% of the time, demonstrating its usefulness as an AI-assisted feature for customer care. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-06 |
# エアリアルMECネットワークにおけるディジタルツイン駆動タスクアサインメント:生成モデルを用いた資源連携手法
Digital Twin-Empowered Task Assignment in Aerial MEC Network: A Resource Coalition Cooperation Approach with Generative Model ( http://arxiv.org/abs/2405.01555v2 ) ライセンス: Link先を確認 | Xin Tang, Qian Chen, Rong Yu, Xiaohuan Li, | (参考訳) 6Gネットワークにおけるユビキタス通信と一時エッジコンピューティングの要求を満たすため,航空移動エッジコンピューティング(MEC)ネットワークは新たなパラダイムとして構想されている。
しかし、動的なユーザリクエストはタスク割り当て戦略の課題を引き起こします。
既存の研究の多くは、この戦略が地上基地(UAV)に展開され、インフラと継続的なエネルギー供給が欠如している環境では効果がないと仮定している。
また、動的タスク割り当てのリソース相互排除問題は、効果的に解決されていない。
この目的のために、我々は、デジタルツイン(DT)を航空MECネットワークに導入し、生成モデル(GM)と資源連携のアプローチを研究する。
具体的には,アプリケーションプレーン,物理プレーン,仮想プレーンで構成される新しいネットワークフレームワークを提案する。
その後、線形制約を伴う凸最適化プログラムにタスク割り当て問題を単純化する。
また,転送可能ユーティリティ(TU)連立ゲームに基づく資源連携協力手法を提案し,最適解を求める。
提案手法の有効性を,エネルギー消費と資源利用の観点から検証した。
To meet the demands for ubiquitous communication and temporary edge computing in 6G networks, aerial mobile edge computing (MEC) networks have been envisioned as a new paradigm. However, dynamic user requests pose challenges for task assignment strategies. Most of the existing research assumes that the strategy is deployed on ground-based stations or UAVs, which will be ineffective in an environment lacking infrastructure and continuous energy supply. Moreover, the resource mutual exclusion problem of dynamic task assignment has not been effectively solved. Toward this end, we introduce the digital twin (DT) into the aerial MEC network to study the resource coalition cooperation approach with the generative model (GM), which provides a preliminary coalition structure for the coalition game. Specifically, we propose a novel network framework that is composed of an application plane, a physical plane, and a virtual plane. After that, the task assignment problem is simplified to convex optimization programming with linear constraints. And then, we also propose a resource coalition cooperation approach that is based on a transferable utility (TU) coalition game to obtain an approximate optimal solution. Numerical results confirm the effectiveness of our proposed approach in terms of energy consumption and utilization of resources. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-06 |
# 構成可能な学習ホログラフィー
Configurable Learned Holography ( http://arxiv.org/abs/2405.01558v2 ) ライセンス: Link先を確認 | Yicheng Zhan, Liang Shi, Wojciech Matusik, Qi Sun, Kaan Akşit, | (参考訳) ホログラフィック表示技術の進歩を追求する中で,我々は,学習ホログラフィが様々なハードウェア構成に適応する際の柔軟性という,独特で永続的な道路ブロックに直面している。
これは、複雑な光学部品のばらつきと、既存のホログラフィックディスプレイのシステム設定が原因である。
新たな学習手法によって、高速かつ高品質なホログラム生成が可能になったが、ディスプレイハードウェアの変更にはモデルの再訓練が必要である。
本研究では,RGBのみの2次元画像から様々なホログラム表示のための3次元ホログラムをインタラクティブに計算する,構成可能な学習モデルを提案する。
このモデルは、作業波長、画素ピッチ、伝播距離、ピーク輝度などの既存のホログラフィックディスプレイの事前定義されたハードウェアパラメータに、再トレーニングすることなく条件付けすることができる。
さらに,本モデルでは,複数のカラープライマリをホログラムディスプレイに同時に使用する,従来の単色ホログラムや多色ホログラムなど,さまざまなホログラムタイプに対応している。
特に,本論文では,学習領域における深度推定と3次元ホログラム合成タスクの相関関係の同定に,ホログラム計算を有効にした。
我々は,対話的パフォーマンスのためのモデルを合理化するために,学生-教師の学習戦略を介して知識蒸留を採用する。
最先端モデルと比較して最大2倍のスピード向上を実現し、ハードウェア構成の異なる高品質な3Dホログラムを一貫して生成する。
In the pursuit of advancing holographic display technology, we face a unique yet persistent roadblock: the inflexibility of learned holography in adapting to various hardware configurations. This is due to the variances in the complex optical components and system settings in existing holographic displays. Although the emerging learned approaches have enabled rapid and high-quality hologram generation, any alteration in display hardware still requires a retraining of the model. Our work introduces a configurable learned model that interactively computes 3D holograms from RGB-only 2D images for a variety of holographic displays. The model can be conditioned to predefined hardware parameters of existing holographic displays such as working wavelengths, pixel pitch, propagation distance, and peak brightness without having to retrain. In addition, our model accommodates various hologram types, including conventional single-color and emerging multi-color holograms that simultaneously use multiple color primaries in holographic displays. Notably, we enabled our hologram computations to rely on identifying the correlation between depth estimation and 3D hologram synthesis tasks within the learning domain for the first time in the literature. We employ knowledge distillation via a student-teacher learning strategy to streamline our model for interactive performance. Achieving up to a 2x speed improvement compared to state-of-the-art models while consistently generating high-quality 3D holograms with different hardware configurations. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-06 |
# Biased Random-Key Genetic Algorithmsの初期 : 体系的レビュー
Early years of Biased Random-Key Genetic Algorithms: A systematic review ( http://arxiv.org/abs/2405.01765v2 ) ライセンス: Link先を確認 | Mariana A. Londe, Luciana S. Pessoa, Cartlos E. Andrade, Mauricio G. C. Resende, | (参考訳) 本稿では,Biased Random-Key Genetic Algorithms (BRKGA)に着目し,系統的な文献レビューと文献分析を行う。
BRKGAは、遺伝的アルゴリズムとともにバイアス付き、均一でエリート的な交配戦略を持つランダムキーベースの染色体を使用するメタヒューリスティックなフレームワークである。
このレビューでは、古典的な組合せ最適化問題から現実の産業シナリオ、さらには機械学習におけるハイパーパラメータチューニングや2段階問題のためのシナリオ生成といった非伝統的なアプリケーションまで、さまざまな応用を網羅した約250の論文を取り上げている。
本研究はBRKGAメタヒューリスティックとその様々な応用を包括的に検討し,今後の研究の鍵となる領域に光を当てるものである。
This paper presents a systematic literature review and bibliometric analysis focusing on Biased Random-Key Genetic Algorithms (BRKGA). BRKGA is a metaheuristic framework that uses random-key-based chromosomes with biased, uniform, and elitist mating strategies alongside a genetic algorithm. This review encompasses around~250 papers, covering a diverse array of applications ranging from classical combinatorial optimization problems to real-world industrial scenarios, and even non-traditional applications like hyperparameter tuning in machine learning and scenario generation for two-stage problems. In summary, this study offers a comprehensive examination of the BRKGA metaheuristic and its various applications, shedding light on key areas for future research. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-06 |
# 初期のスラヴ語節の量的・タイプ論的研究とその競合
A quantitative and typological study of Early Slavic participle clauses and their competition ( http://arxiv.org/abs/2405.01972v2 ) ライセンス: Link先を確認 | Nilo Pedrazzini, | (参考訳) この論文は、初期のスラヴ人構成物とその有限個の競合物(jegda$-'when'-clauses)の機能のコーパスに基づく、量的、タイプ論的分析である。
第1部では, 初期スラヴ語コーパスの文法的, 依存性, 情報構造的, 語彙的レベルでの詳細な言語的アノテーションを活用して, コーパス内の分節構成と分節構成の分布に関する説明として, 構成性および既定の言説推論の役割を理解する。
第二部では、非常に並列なデータを用いて、英語の$when$のセマンティックスペースを表現する言語の種類を分析している。
確率論的セマンティックマップが生成され、統計手法(クリギング、ガウス混合モデル、精度、リコール分析など)が並列コーパスから言語間有理次元を誘導し、仮説概念WHENのセマンティック空間における概念的変動を研究するために用いられる。
This thesis is a corpus-based, quantitative, and typological analysis of the functions of Early Slavic participle constructions and their finite competitors ($jegda$-'when'-clauses). The first part leverages detailed linguistic annotation on Early Slavic corpora at the morphosyntactic, dependency, information-structural, and lexical levels to obtain indirect evidence for different potential functions of participle clauses and their main finite competitor and understand the roles of compositionality and default discourse reasoning as explanations for the distribution of participle constructions and $jegda$-clauses in the corpus. The second part uses massively parallel data to analyze typological variation in how languages express the semantic space of English $when$, whose scope encompasses that of Early Slavic participle constructions and $jegda$-clauses. Probabilistic semantic maps are generated and statistical methods (including Kriging, Gaussian Mixture Modelling, precision and recall analysis) are used to induce cross-linguistically salient dimensions from the parallel corpus and to study conceptual variation within the semantic space of the hypothetical concept WHEN. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-06 |
# IFNet:ミリ波信号を用いたハンドヘルドSARのディープイメージングとフォーカス
IFNet: Deep Imaging and Focusing for Handheld SAR with Millimeter-wave Signals ( http://arxiv.org/abs/2405.02023v2 ) ライセンス: Link先を確認 | Yadong Li, Dongheng Zhang, Ruixu Geng, Jincheng Wu, Yang Hu, Qibin Sun, Yan Chen, | (参考訳) 近年の進歩は、携帯環境に合成開口レーダ(SAR)の原理を適用した、ハンドヘルドミリ波(mmWave)イメージングの可能性を示している。
しかし、手持ちの動作誤差に対処する既存の研究は、高価な追跡装置に依存するか、単純化されたイメージングモデルを採用するかのいずれかであり、非現実的な展開や限られた性能に繋がる。
本稿では,信号処理モデルとディープニューラルネットワークの強みを組み合わせ,堅牢なイメージングを実現し,ハンドヘルドmmWaveシステムに焦点をあてる,新しい深部展開ネットワークIFNetを提案する。
まず, ハンドヘルド画像モデルにおいて, mmWave画像とハンドヘルド位相誤差について, 複数の先行情報を統合することで, ハンドヘルド画像モデルを定式化する。
さらに,最適化処理を反復的ネットワーク構造に変換し,高効率な撮像性能を実現する。
IFNetはハンドヘルド位相誤差を効果的に補償し、歪んだ信号から高忠実度画像を復元することを示した。
既存の手法と比較して、IFNetは平均ピーク信号-雑音比(PSNR)の少なくとも11.89dB、実世界のデータセットにおける平均構造類似度指数測定(SSIM)の64.91%の改善を達成できる。
Recent advancements have showcased the potential of handheld millimeter-wave (mmWave) imaging, which applies synthetic aperture radar (SAR) principles in portable settings. However, existing studies addressing handheld motion errors either rely on costly tracking devices or employ simplified imaging models, leading to impractical deployment or limited performance. In this paper, we present IFNet, a novel deep unfolding network that combines the strengths of signal processing models and deep neural networks to achieve robust imaging and focusing for handheld mmWave systems. We first formulate the handheld imaging model by integrating multiple priors about mmWave images and handheld phase errors. Furthermore, we transform the optimization processes into an iterative network structure for improved and efficient imaging performance. Extensive experiments demonstrate that IFNet effectively compensates for handheld phase errors and recovers high-fidelity images from severely distorted signals. In comparison with existing methods, IFNet can achieve at least 11.89 dB improvement in average peak signal-to-noise ratio (PSNR) and 64.91% improvement in average structural similarity index measure (SSIM) on a real-world dataset. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-06 |
# SenticNetを用いたXプラットフォームからの感情トレンドの分析:暗号通貨価格との比較分析
Analyzing Emotional Trends from X platform using SenticNet: A Comparative Analysis with Cryptocurrency Price ( http://arxiv.org/abs/2405.03084v1 ) ライセンス: Link先を確認 | Moein Shahiki Tash, Zahra Ahani, Olga Kolesnikova, Grigori Sidorov, | (参考訳) この研究は、2022年10月から2023年3月までの期間において、Xプラットフォームデータからの感情的傾向と、よく知られた暗号通貨カルダーノ、ビナンス、ファントム、マティック、リップルの市場動態との関係を考察した。
SenticNetを活用して、FearとAnxiety、Rage and Anger、Grief and Sadness、Delight and Pleasantness、Enthusiasm and Eagerness、Delight and Joyといった感情を特定しました。
データ抽出の後、毎月2週間間隔に分割し、このプロセスをファイナンス・ヤフーから得た価格データに複製した。
その結果、隔週の間隔で観察される感情傾向と仮想通貨価格の関連性を確立し、感情的感情とコインの評価との間に有意な相関関係を明らかにするための比較分析が行われた。
This study delves into the relationship between emotional trends from X platform data and the market dynamics of well-known cryptocurrencies Cardano, Binance, Fantom, Matic, and Ripple over the period from October 2022 to March 2023. Leveraging SenticNet, we identified emotions like Fear and Anxiety, Rage and Anger, Grief and Sadness, Delight and Pleasantness, Enthusiasm and Eagerness, and Delight and Joy. Following data extraction, we segmented each month into bi-weekly intervals, replicating this process for price data obtained from Finance-Yahoo. Consequently, a comparative analysis was conducted, establishing connections between emotional trends observed across bi-weekly intervals and cryptocurrency prices, uncovering significant correlations between emotional sentiments and coin valuations. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-06 |
# AMRを用いた概念蒸留によるRAG向上のための圧縮長文脈
Compressing Long Context for Enhancing RAG with AMR-based Concept Distillation ( http://arxiv.org/abs/2405.03085v1 ) ライセンス: Link先を確認 | Kaize Shi, Xueyao Sun, Qing Li, Guandong Xu, | (参考訳) 大規模言語モデル(LLM)は情報取得に大きく貢献している。
しかしながら、潜在的に欠陥のあるパラメトリック知識への過度な依存は、特に長い尾のドメイン固有のクエリを扱う際に、幻覚と不正確な結果をもたらす。
Retrieval Augmented Generation (RAG)は、外部の非パラメトリック知識を取り入れることで、この制限に対処する。
それでも、検索された長文文書には、しばしばノイズがあり、重要な知識とともに無関係な情報が含まれており、LLMの注意を否定的に薄めている。
本稿では,AMR(Abstract Meaning Representation)に基づく概念蒸留アルゴリズムを用いた新しい概念ベースRAGフレームワークを提案する。
提案アルゴリズムは, バラバラの生文書を, 信頼性のある言語的特徴を参照して, AMRの情報ノードから抽出した重要な概念のコンパクトな集合に圧縮する。
この概念は LLM を推論プロセスにおける重要な情報のみにのみ焦点を絞っている。
提案手法の有効性を実証的に評価するために,オープンドメイン質問応答データセットに関する広範な実験を行った。
以上の結果から,RAGフレームワークは他のベースライン手法よりも優れており,特にサポートドキュメントの数が増加するとともに,バックボーンLLMの堅牢性も高いことが示唆された。
このことは、蒸留された概念が干渉情報をフィルタリングすることでRAGプロセスの増強に有益なことを強調している。
我々の知る限りでは、RAGを強化するためにAMRを導入した最初の成果であり、セマンティックベースのコンテキスト圧縮による推論性能を向上するための潜在的なソリューションを提供する。
Large Language Models (LLMs) have made significant strides in information acquisition. However, their overreliance on potentially flawed parametric knowledge leads to hallucinations and inaccuracies, particularly when handling long-tail, domain-specific queries. Retrieval Augmented Generation (RAG) addresses this limitation by incorporating external, non-parametric knowledge. Nevertheless, the retrieved long-context documents often contain noisy, irrelevant information alongside vital knowledge, negatively diluting LLMs' attention. Inspired by the supportive role of essential concepts in individuals' reading comprehension, we propose a novel concept-based RAG framework with the Abstract Meaning Representation (AMR)-based concept distillation algorithm. The proposed algorithm compresses the cluttered raw retrieved documents into a compact set of crucial concepts distilled from the informative nodes of AMR by referring to reliable linguistic features. The concepts explicitly constrain LLMs to focus solely on vital information in the inference process. We conduct extensive experiments on open-domain question-answering datasets to empirically evaluate the proposed method's effectiveness. The results indicate that the concept-based RAG framework outperforms other baseline methods, particularly as the number of supporting documents increases, while also exhibiting robustness across various backbone LLMs. This emphasizes the distilled concepts are informative for augmenting the RAG process by filtering out interference information. To the best of our knowledge, this is the first work introducing AMR to enhance the RAG, presenting a potential solution to augment inference performance with semantic-based context compression. | 翻訳日:2024-05-07 15:14:27 公開日:2024-05-06 |
# 線形層構成による低ランク誘導学習による構造保存型ネットワーク圧縮
Structure-Preserving Network Compression Via Low-Rank Induced Training Through Linear Layers Composition ( http://arxiv.org/abs/2405.03089v1 ) ライセンス: Link先を確認 | Xitong Zhang, Ismail R. Alkhouri, Rongrong Wang, | (参考訳) ディープニューラルネットワーク(DNN)は、これまで解決できなかった多くのタスクに対処することに成功した。
しかしながら、DNNに関連するストレージと計算の要件は、これらのトレーニングされたモデルをリソース制限されたデバイスにデプロイする上での課題である。
そのため,近年,圧縮・刈り込み技術が数多く提案されている。
低ランク分解技術は、この問題に最もよく利用されるアプローチの1つである。
ポストトレーニングの圧縮と比較すると、圧縮促進トレーニングはまだ未調査である。
本稿では,Low-Rank induced Training (LoRITa) と呼ばれる,線形層の構成による低ランク化を促進し,特異値切り込みによる圧縮を行う理論的に修飾された新しい手法を提案する。
これは、標準の重み減衰正規化以外の、推論時に構造を変更したり、制約や追加の最適化を必要とすることなく達成される。
さらに、LoRITaは、不要になる。
(i)事前訓練されたモデルで初期化する
(二 訓練前の位階選定を定める。)
実験結果
i) 完全連結ネットワーク上でのMNIST, 視覚変換器上でのCIFAR10, 畳み込みニューラルネットワーク上でのCIFAR10/100, そして, MNISTを用いたアプローチの有効性を実証する。
(II) FLOPとパラメータ降下の両面から, 先行的な構造化プルーニング法と比較して, 競合的あるいはSOTA的な結果が得られることを示す。
Deep Neural Networks (DNNs) have achieved remarkable success in addressing many previously unsolvable tasks. However, the storage and computational requirements associated with DNNs pose a challenge for deploying these trained models on resource-limited devices. Therefore, a plethora of compression and pruning techniques have been proposed in recent years. Low-rank decomposition techniques are among the approaches most utilized to address this problem. Compared to post-training compression, compression-promoted training is still under-explored. In this paper, we present a theoretically-justified novel approach, termed Low-Rank Induced Training (LoRITa), that promotes low-rankness through the composition of linear layers and compresses by using singular value truncation. This is achieved without the need to change the structure at inference time or require constrained and/or additional optimization, other than the standard weight decay regularization. Moreover, LoRITa eliminates the need to (i) initialize with pre-trained models and (ii) specify rank selection prior to training. Our experimental results (i) demonstrate the effectiveness of our approach using MNIST on Fully Connected Networks, CIFAR10 on Vision Transformers, and CIFAR10/100 on Convolutional Neural Networks, and (ii) illustrate that we achieve either competitive or SOTA results when compared to leading structured pruning methods in terms of FLOPs and parameters drop. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# マルチモーダル深層学習に基づく画像認識技術に関する研究
Research on Image Recognition Technology Based on Multimodal Deep Learning ( http://arxiv.org/abs/2405.03091v1 ) ライセンス: Link先を確認 | Jinyin Wang, Xingchen Li, Yixuan Jin, Yihao Zhong, Keke Zhang, Chang Zhou, | (参考訳) 本稿では,ディープニューラルネットワークを用いた人間のマルチモーダル行動識別アルゴリズムについて検討する。
異なるモーダル情報の特徴により、異なるモーダル映像情報に対応するために異なるディープニューラルネットワークが使用される。
様々なディープニューラルネットワークの統合を通じて、アルゴリズムは複数のモードにわたる振る舞いをうまく識別する。
このプロジェクトでは、Microsoft Kinectによって開発された複数のカメラを用いて、従来の画像の取得に基づいて対応する骨点データを収集した。
これにより、画像内の運動特徴を抽出することができる。
究極的には、両方のアプローチによって識別される行動特性は、行動の正確な識別と分類を容易にするために合成される。
MSR3Dデータセットを用いて提案アルゴリズムの性能評価を行った。
これらの実験から, 行動認識の精度は引き続き高いままであり, 様々なシナリオにおいてアルゴリズムが信頼性があることが示唆された。
さらに,ビデオ映像における歩行者行動の検出精度を大幅に向上させる実験を行った。
This project investigates the human multi-modal behavior identification algorithm utilizing deep neural networks. According to the characteristics of different modal information, different deep neural networks are used to adapt to different modal video information. Through the integration of various deep neural networks, the algorithm successfully identifies behaviors across multiple modalities. In this project, multiple cameras developed by Microsoft Kinect were used to collect corresponding bone point data based on acquiring conventional images. In this way, the motion features in the image can be extracted. Ultimately, the behavioral characteristics discerned through both approaches are synthesized to facilitate the precise identification and categorization of behaviors. The performance of the suggested algorithm was evaluated using the MSR3D data set. The findings from these experiments indicate that the accuracy in recognizing behaviors remains consistently high, suggesting that the algorithm is reliable in various scenarios. Additionally, the tests demonstrate that the algorithm substantially enhances the accuracy of detecting pedestrian behaviors in video footage. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# スパッタ成膜における加工変動に伴う安定特性のベイズ最適化
Bayesian optimization for stable properties amid processing fluctuations in sputter deposition ( http://arxiv.org/abs/2405.03092v1 ) ライセンス: Link先を確認 | Ankit Shrivastava, Matias Kalaswad, Joyce O. Custer, David P. Adams, Habib N. Najm, | (参考訳) 本研究では, モリブデン薄膜のスパッタ成膜を導出するベイズ最適化手法を提案する。
薄膜は半導体や光学デバイスなど多くの技術において重要な役割を担っている。
蒸着力、真空室圧、作業距離などのスパッタ沈着パラメータは残留応力や抵抗などの物理的特性に影響を与える。
過度なストレスと高い抵抗は、最適なプロセスパラメータの選択を必要とするデバイス性能を損なう可能性がある。
さらに、これらのパラメータは薄膜特性の整合性と信頼性を確保し、装置の再現性を支援する。
しかし,プロセス最適化のための多次元設計空間の探索は高価である。
ベイズ最適化は、勾配情報に依存することなく一般的なブラックボックス関数の入力/パラメータを最適化するのに理想的である。
ベイズ最適化を応用して,観測応力と抵抗データを組み込んだ目標関数を用いて,堆積力と圧力を最適化する。
さらに, 応力変動と圧力の事前知識を客観的関数に統合し, 確率的変動の影響の少ないフィルムを優先する。
その結果,ベイジアン最適化は設計空間を効果的に探索し,所望の応力および抵抗仕様を満たす最適パラメータの組み合わせを同定した。
We introduce a Bayesian optimization approach to guide the sputter deposition of molybdenum thin films, aiming to achieve desired residual stress and sheet resistance while minimizing susceptibility to stochastic fluctuations during deposition. Thin films are pivotal in numerous technologies, including semiconductors and optical devices, where their properties are critical. Sputter deposition parameters, such as deposition power, vacuum chamber pressure, and working distance, influence physical properties like residual stress and resistance. Excessive stress and high resistance can impair device performance, necessitating the selection of optimal process parameters. Furthermore, these parameters should ensure the consistency and reliability of thin film properties, assisting in the reproducibility of the devices. However, exploring the multidimensional design space for process optimization is expensive. Bayesian optimization is ideal for optimizing inputs/parameters of general black-box functions without reliance on gradient information. We utilize Bayesian optimization to optimize deposition power and pressure using a custom-built objective function incorporating observed stress and resistance data. Additionally, we integrate prior knowledge of stress variation with pressure into the objective function to prioritize films least affected by stochastic variations. Our findings demonstrate that Bayesian optimization effectively explores the design space and identifies optimal parameter combinations meeting desired stress and resistance specifications. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# 局所的プロジェクティブ計測による量子電池容量の増強
Local-projective-measurement-enhanced quantum battery capacity ( http://arxiv.org/abs/2405.03093v1 ) ライセンス: Link先を確認 | Tinggui Zhang, Hong Yang, Shao-Ming Fei, | (参考訳) 量子電池は将来の産業や日常生活に重要な応用をもたらす。
バッテリーの容量は重要な指標だ。
量子電池の容量を改善する方法は重要である。
両部量子系が与える量子電池について考察し、量子状態のサブシステムにおける局所射影測定による電池容量の増強について考察する。
2キュービットのベル対角状態とX型状態を用いて、局所射影測定により、システム全体またはサブシステムに対する量子バッテリ容量を改善することができることを示す。
我々の理論的分析は、量子電池の実験開発のためのアイデアを提供する。
Quantum batteries have significant potential applications for future industry and daily life. The capacity is an important indicator for a battery. Methods to improve the capacity of quantum batteries are important. We consider quantum batteries given by bipartite quantum systems and study the enhancement of the battery capacity under local projective measurements on a subsystem of the quantum state. By using two-qubit Bell-diagonal states and X-type states as examples, we show that quantum battery capacity with respect to the whole system or a subsystem can be improved by local projective measurements. Our theoretical analysis will provide ideas for the experimental development of quantum batteries. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# ニューラルネットワークを用いたPDEの解法における損失ジャンプ
Loss Jump During Loss Switch in Solving PDEs with Neural Networks ( http://arxiv.org/abs/2405.03095v1 ) ライセンス: Link先を確認 | Zhiwei Wang, Lulu Zhang, Zhongwang Zhang, Zhi-Qin John Xu, | (参考訳) ニューラルネットワークを用いて偏微分方程式(PDE)を解くことは、科学計算コミュニティにおいて代替のアプローチとして人気を集めている。
ニューラルネットワークは、さまざまな種類の情報を損失関数に統合することができる。
これには、観測データ、支配方程式、変分形式などが含まれる。
これらの損失関数は、観測データ損失を直接制約し、モデル出力を測定し、他の損失関数は間接的にネットワークの性能をモデル化し、モデル損失と分類することができる。
しかし、この方法には、理論の基礎や様々な現象の厳密な特徴づけなど、基礎となるメカニズムの理解が欠如している。
この研究は、PDEを解決するためのニューラルネットワークのトレーニングに、異なる損失関数がどう影響するかを調査することに焦点を当てる。
我々は、損失関数をデータ損失からモデル損失に切り替えると、微分情報の順序が異なる場合、ニューラルネットワークの解は、正確な解からすぐに著しく逸脱する、という安定した損失分岐現象を発見した。
さらなる実験により、この現象は、異なる損失関数の下でのニューラルネットワークの異なる周波数嗜好から生じることが明らかとなった。
モデル損失下でのニューラルネットワークの周波数嗜好を理論的に解析する。
この損失ジャンプ現象は、PDEを解く際のニューラルネットワークの基盤となるメカニズムを調べる上で、貴重な視点を提供する。
Using neural networks to solve partial differential equations (PDEs) is gaining popularity as an alternative approach in the scientific computing community. Neural networks can integrate different types of information into the loss function. These include observation data, governing equations, and variational forms, etc. These loss functions can be broadly categorized into two types: observation data loss directly constrains and measures the model output, while other loss functions indirectly model the performance of the network, which can be classified as model loss. However, this alternative approach lacks a thorough understanding of its underlying mechanisms, including theoretical foundations and rigorous characterization of various phenomena. This work focuses on investigating how different loss functions impact the training of neural networks for solving PDEs. We discover a stable loss-jump phenomenon: when switching the loss function from the data loss to the model loss, which includes different orders of derivative information, the neural network solution significantly deviates from the exact solution immediately. Further experiments reveal that this phenomenon arises from the different frequency preferences of neural networks under different loss functions. We theoretically analyze the frequency preference of neural networks under model loss. This loss-jump phenomenon provides a valuable perspective for examining the underlying mechanisms of neural networks in solving PDEs. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# 個別(手動シーケンス)へ:大規模言語モデルにおける記憶データ学習の改善
To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Models ( http://arxiv.org/abs/2405.03097v1 ) ライセンス: Link先を確認 | George-Octavian Barbulescu, Peter Triantafillou, | (参考訳) LLMは、テキスト生成期間中に、トレーニングされたテキストシーケンスを記憶し、動詞の入力シーケンスを退避させる。
この事実は、プライバシーと関連する問題(著作権など)の原因として知られている。
LLMにおけるアンラーニングは、モデルの有用性を損なうことなく、記憶されたデータのこれらの副作用に適切に対処する新しいアルゴリズムを考案する形式を取る。
我々は,この目標に向けて新たな視点,すなわち,LLM内の暗記の度合いに基づいて,忘れるべき各テキストシーケンスを学習しない場合に,異なる扱いをすべきである,という新たな視点を提供する。
我々は,未学習の質を測定するための新しい指標,この視点を欠いたSOTAアルゴリズムがプライバシに失敗することを示す敵攻撃,およびグラディエント・アセントとタスク・アリストメティクスに基づく2つの新しい未学習手法を提示する。
NLPタスクの広範なスイートにまたがる総合的なパフォーマンス評価では、解空間をマッピングし、モデル能力の異なるスケールでの最良のソリューションを特定し、セットサイズを忘れ、新しいアプローチの利点を定量化した。
LLMs have been found to memorize training textual sequences and regurgitate verbatim said sequences during text generation time. This fact is known to be the cause of privacy and related (e.g., copyright) problems. Unlearning in LLMs then takes the form of devising new algorithms that will properly deal with these side-effects of memorized data, while not hurting the model's utility. We offer a fresh perspective towards this goal, namely, that each textual sequence to be forgotten should be treated differently when being unlearned based on its degree of memorization within the LLM. We contribute a new metric for measuring unlearning quality, an adversarial attack showing that SOTA algorithms lacking this perspective fail for privacy, and two new unlearning methods based on Gradient Ascent and Task Arithmetic, respectively. A comprehensive performance evaluation across an extensive suite of NLP tasks then mapped the solution space, identifying the best solutions under different scales in model capacities and forget set sizes and quantified the gains of the new approaches. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# FairMonitor: 大規模言語モデルにおけるステレオタイプとバイアスを検出するためのデュアルフレームワーク
FairMonitor: A Dual-framework for Detecting Stereotypes and Biases in Large Language Models ( http://arxiv.org/abs/2405.03098v1 ) ライセンス: Link先を確認 | Yanhong Bai, Jiabao Zhao, Jinxin Shi, Zhentao Xie, Xingjiao Wu, Liang He, | (参考訳) 大規模言語モデル(LLM)におけるステレオタイプとバイアスの検出は、公平性を高め、これらのモデルを適用したときの個人やグループに対する有害な影響を低減するために重要である。
埋め込み空間に依存する伝統的な手法や確率測度に基づく手法は、様々な文脈に存在するニュアンスや暗黙のバイアスを明らかにするのに不足している。
この課題に対処するため、我々はFairMonitorフレームワークを提案し、LLMにおけるステレオタイプとバイアスの包括的評価に静的力学検出手法を適用した。
静的なコンポーネントは、直接調査テスト、暗黙の関連テスト、未知の状況テストで構成され、その中には、9つのセンシティブな要因と26の教育シナリオを含む10,262のオープンエンド質問が含まれている。
そして、明示的バイアスと暗黙的バイアスの両方を評価するのに効果的です。
さらに、より複雑で現実的な環境で微妙なバイアスを検出するために、マルチエージェントシステムを用いて動的シナリオを信頼する。
このコンポーネントは600の異なる教育シナリオにわたるLLMの相互作用行動に基づいてバイアスを検出する。
実験結果から, 静的および動的手法の協調により, よりステレオタイプを検出し, LLMに偏りがあることが示唆された。
Detecting stereotypes and biases in Large Language Models (LLMs) is crucial for enhancing fairness and reducing adverse impacts on individuals or groups when these models are applied. Traditional methods, which rely on embedding spaces or are based on probability metrics, fall short in revealing the nuanced and implicit biases present in various contexts. To address this challenge, we propose the FairMonitor framework and adopt a static-dynamic detection method for a comprehensive evaluation of stereotypes and biases in LLMs. The static component consists of a direct inquiry test, an implicit association test, and an unknown situation test, including 10,262 open-ended questions with 9 sensitive factors and 26 educational scenarios. And it is effective for evaluating both explicit and implicit biases. Moreover, we utilize the multi-agent system to construst the dynamic scenarios for detecting subtle biases in more complex and realistic setting. This component detects the biases based on the interaction behaviors of LLMs across 600 varied educational scenarios. The experimental results show that the cooperation of static and dynamic methods can detect more stereotypes and biased in LLMs. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# SketchGPT: 自動回帰モデリングによるスケッチ生成と認識
SketchGPT: Autoregressive Modeling for Sketch Generation and Recognition ( http://arxiv.org/abs/2405.03099v1 ) ライセンス: Link先を確認 | Adarsh Tiwari, Sanket Biswas, Josep Lladós, | (参考訳) スケッチ生成と完了のためのシーケンス・ツー・シーケンス自動回帰モデルを用いたフレキシブルなフレームワークであるSketchGPTと、スケッチ認識のための解釈ケーススタディを提案する。
複雑なスケッチを抽象的プリミティブの単純化されたシーケンスにマッピングすることで、自動回帰モデリングのための入力を大幅に合理化する。
SketchGPTは次のトークン予測客観的戦略を活用してスケッチパターンを理解し、描画の作成と完了を容易にし、それらを正確に分類する。
このスケッチ表現戦略は、連続ストロークデータに対する自己回帰モデリングの既存の課題を克服し、よりスムーズなモデルトレーニングと競争性能を実現する。
以上の結果から,SketchGPTが既存の最先端技術と質的,定量的に比較し,多種多様な図を作成できることを示すとともに,総合的な人的評価研究を行った。
コードと事前トレーニングされたモデルは、私たちの公式GitHubでリリースされます。
We present SketchGPT, a flexible framework that employs a sequence-to-sequence autoregressive model for sketch generation, and completion, and an interpretation case study for sketch recognition. By mapping complex sketches into simplified sequences of abstract primitives, our approach significantly streamlines the input for autoregressive modeling. SketchGPT leverages the next token prediction objective strategy to understand sketch patterns, facilitating the creation and completion of drawings and also categorizing them accurately. This proposed sketch representation strategy aids in overcoming existing challenges of autoregressive modeling for continuous stroke data, enabling smoother model training and competitive performance. Our findings exhibit SketchGPT's capability to generate a diverse variety of drawings by adding both qualitative and quantitative comparisons with existing state-of-the-art, along with a comprehensive human evaluation study. The code and pretrained models will be released on our official GitHub. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# 一般化されたアインシュタイン-ポドルスキー-ローゼンステアリングパラドックス
Generalized Einstein-Podolsky-Rosen Steering Paradox ( http://arxiv.org/abs/2405.03100v1 ) ライセンス: Link先を確認 | Zhi-Jie Liu, Jie Zhou, Xing-Yan Fan, Mi Xie, Jing-Ling Chen, | (参考訳) 量子パラドックスは、アインシュタイン=ポドルスキー=ローゼン(EPR)のステアリングパラドックス(英語版)は、通常の不等式法よりも局所隠れ状態モデルと量子力学との矛盾に対するよりシャープな基準を提供する量子理論と古典理論の非互換性を明らかにするための必須の手段である。
本研究では、量子(Q$)と古典(C$)理論によって与えられる矛盾する等式を予想する一般化されたEPRステアリングパラドックスを示す。
ステアリングパーティの条件状態が純粋である任意の$N$-qubit状態に対して、2セットのステアリングプロトコルを用いてパラドックスをテストし、特定の測定条件が満たされれば、その状態がステアリング可能であることを確認する。
さらに、我々の構成は、典型的な量子テレポーテーションや量子鍵分布のスキームに寄与するであろうEPRステアリングの不等式の構築にも寄与する。
Quantum paradoxes are essential means to reveal the incompatibility between quantum and classical theories, among which the Einstein-Podolsky-Rosen (EPR) steering paradox offers a sharper criterion for the contradiction between local-hidden-state model and quantum mechanics than the usual inequality-based method. In this work, we present a generalized EPR steering paradox, which predicts a contradictory equality $2_{Q}=\left( 1+\delta\right)_{C}$ ($0\leq\delta<1$) given by the quantum ($Q$) and classical ($C$) theories. For any $N$-qubit state in which the conditional state of the steered party is pure, we test the paradox through a two-setting steering protocol, and find that the state is steerable if some specific measurement requirements are satisfied. Moreover, our construction also enlightens the building of EPR steering inequality, which may contribute to some schemes for typical quantum teleportation and quantum key distributions. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# 学生から学ぶ: t-distributions を適用して LLM の正確かつ効率的なフォーマットを探索する
Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs ( http://arxiv.org/abs/2405.03103v1 ) ライセンス: Link先を確認 | Jordan Dotzel, Yuzong Chen, Bahaa Kotb, Sushma Prasad, Gang Wu, Sheng Li, Mohamed S. Abdelfattah, Zhiru Zhang, | (参考訳) 大規模言語モデル(LLM)は、最近、様々なタスクで最先端のパフォーマンスを達成したが、大きな計算要求のため、厳格なレイテンシと電力要求に悩まされている。
ディープニューラルネットワーク(DNN)量子化は伝統的に、モデルを低精度整数形式に変換することによってこれらの制限に対処してきた。
しかし、最近、NF4(Normal Float)のような代替フォーマットは、チップ面積の増大を犠牲にして、モデル精度を継続的に向上することが示されている。
本研究ではまず,30のネットワークにまたがるLLM重みとアクティベーションの大規模解析を行い,学生のt分布に追従する分布のほとんどを結論付ける。
次に,この分布に関して,LLaMA2-7Bの平均精度を0.76%向上させる,理論上最適な新たな形式である学生フロート(SF4)を導出する。
このフォーマットを高精度な参照として使用し、モデル精度を高めるための2種類の超正規サポートを持つ拡張E2M1を提案する。
最後に、モデル精度とハードウェアの複雑さを評価し、Additive-Powers-of-Two (APoT)のような従来のフォーマットを含む11のデータタイプにわたる品質とパフォーマンスのフロンティアについて検討する。
超正規サポートを持つINT4, E2M1, E2M1からなるPareto曲線を発見し, モデル精度とチップ面積の連続的なトレードオフを提供する。
例えば、超正規サポートを持つE2M1は、1.22%のオーバヘッドでPhi-2の精度を2.19%向上させ、LCMベースのアプリケーションを4ビットで実行できるようにする。
Large language models (LLMs) have recently achieved state-of-the-art performance across various tasks, yet due to their large computational requirements, they struggle with strict latency and power demands. Deep neural network (DNN) quantization has traditionally addressed these limitations by converting models to low-precision integer formats. Yet recently alternative formats, such as Normal Float (NF4), have been shown to consistently increase model accuracy, albeit at the cost of increased chip area. In this work, we first conduct a large-scale analysis of LLM weights and activations across 30 networks to conclude most distributions follow a Student's t-distribution. We then derive a new theoretically optimal format, Student Float (SF4), with respect to this distribution, that improves over NF4 across modern LLMs, for example increasing the average accuracy on LLaMA2-7B by 0.76% across tasks. Using this format as a high-accuracy reference, we then propose augmenting E2M1 with two variants of supernormal support for higher model accuracy. Finally, we explore the quality and performance frontier across 11 datatypes, including non-traditional formats like Additive-Powers-of-Two (APoT), by evaluating their model accuracy and hardware complexity. We discover a Pareto curve composed of INT4, E2M1, and E2M1 with supernormal support, which offers a continuous tradeoff between model accuracy and chip area. For example, E2M1 with supernormal support increases the accuracy of Phi-2 by up to 2.19% with 1.22% area overhead, enabling more LLM-based applications to be run at four bits. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# GeoContrastNet: 言語に依存しない文書理解のための対照的なキーバリューエッジ学習
GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding ( http://arxiv.org/abs/2405.03104v1 ) ライセンス: Link先を確認 | Nil Biescas, Carlos Boned, Josep Lladós, Sanket Biswas, | (参考訳) 本稿では,言語に依存しない構造化文書理解(DU)フレームワークであるGeoContrastNetについて,グラフ注意ネットワーク(GAT)と対比学習目標を統合し,幾何学的特徴の重要な役割を強調した。
本稿では,2段階のGATベースのフレームワークにおいて,幾何学的エッジ特徴と視覚的特徴を組み合わせ,リンク予測とセマンティックエンティティ認識性能の両面で有望な結果を示す手法を提案する。
この結果から,光学的文字認識(OCR)機能に大きく依存する大規模DUモデルの機能に,幾何的特徴と視覚的特徴を組み合わせることで,性能の精度と効率を両立させることができることがわかった。
このアプローチは、ページの半構造化レイアウトにおいて、名前付きテキストエンティティ間でのリレーショナルレイアウト情報の重要さを浮き彫りにする。
具体的には,FUNSDデータセット内の鍵値関係を形式として同定し,RVLCDIPビジネス請求書の表構造レイアウトにおける空間的関係を見出すためのモデルの有効性を強調した。
コードと事前トレーニングされたモデルは、公式のGitHubからアクセスできます。
This paper presents GeoContrastNet, a language-agnostic framework to structured document understanding (DU) by integrating a contrastive learning objective with graph attention networks (GATs), emphasizing the significant role of geometric features. We propose a novel methodology that combines geometric edge features with visual features within an overall two-staged GAT-based framework, demonstrating promising results in both link prediction and semantic entity recognition performance. Our findings reveal that combining both geometric and visual features could match the capabilities of large DU models that rely heavily on Optical Character Recognition (OCR) features in terms of performance accuracy and efficiency. This approach underscores the critical importance of relational layout information between the named text entities in a semi-structured layout of a page. Specifically, our results highlight the model's proficiency in identifying key-value relationships within the FUNSD dataset for forms and also discovering the spatial relationships in table-structured layouts for RVLCDIP business invoices. Our code and pretrained models will be accessible on our official GitHub. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# ゲルマニウム量子井戸におけるゲート定義量子点接触
Gate-defined quantum point contacts in a germanium quantum well ( http://arxiv.org/abs/2405.03107v1 ) ライセンス: Link先を確認 | Han Gao, Zhen-Zhen Kong, Po Zhang, Yi Luo, Haitian Su, Xiao-Fei Liu, Gui-Lei Wang, Ji-Yin Wang, H. Q. Xu, | (参考訳) 層状電気ゲートを有する高品質ゲルマニウム量子井戸で定義される量子点接触の実験的研究を報告する。
ゼロ磁場では、2$e^2/h$の単位の量子化伝導プラトーを観測する。
バイアス分光測定により、連続する1次元サブバンド間のエネルギー間隔は、ホールの小さな有効質量と狭いゲートの収縮の結果、1.5から5\,meVの範囲であることが明らかとなった。
デバイス平面に垂直な有限磁場では、ゼーマン効果により導電板の端が分裂し、ゲルマニウム量子井戸の穴に対して Land\'{e} $g$ 因子が$\sim6.6$ と推定される。
我々は、同じデバイス内の全ての量子点接触が同等の性能を持ち、信頼性があり再現可能なデバイス製造プロセスを示していることを実証した。
このようにして、我々の研究は、ビルディングブロックとして量子点接触を必要とするゲルマニウムベースの量子デバイスにおいて、物理学の複数の前線を調査するための基礎を築いた。
We report an experimental study of quantum point contacts defined in a high-quality strained germanium quantum well with layered electric gates. At zero magnetic field, we observe quantized conductance plateaus in units of 2$e^2/h$. Bias-spectroscopy measurements reveal that the energy spacing between successive one-dimensional subbands ranges from 1.5 to 5\,meV as a consequence of the small effective mass of the holes and the narrow gate constrictions. At finite magnetic fields perpendicular to the device plane, the edges of the conductance plateaus get splitted due to the Zeeman effect and Land\'{e} $g$ factors are estimated to be $\sim6.6$ for the holes in the germanium quantum well. We demonstrate that all quantum point contacts in the same device have comparable performances, indicating a reliable and reproducible device fabrication process. Thus, our work lays a foundation for investigating multiple forefronts of physics in germanium-based quantum devices that require quantum point contacts as a building block. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# タスク内相互注意に基づくFew-Shot学習用視覚変換器
Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning ( http://arxiv.org/abs/2405.03109v1 ) ライセンス: Link先を確認 | Weihao Jiang, Chang Liu, Kun He, | (参考訳) 人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
このような能力は、背景の変化のような注意散らしを無視しながら、新しい画像と以前に見られた画像の間で共有される共通の特徴を特定する能力に起因している。
しかし、ニューラルネットワークモデルでは、限られたサンプルを持つ2つの画像を区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリのサンプルをパッチに分割し,事前学習された視覚変換器(ViT)アーキテクチャを用いて符号化する,少数ショット学習のためのタスク内相互注意手法を提案する。
具体的には、クラス(CLS)トークンとパッチトークンを、サポートセットとクエリセットの間で交換し、相互に注意を払って、各セットが最も有用な情報に集中できるようにします。
これによりクラス内の表現が強化され、同じクラスのインスタンス間の近接が促進される。
実装には、VTベースのネットワークアーキテクチャを採用し、自己スーパービジョンによって得られた事前学習モデルパラメータを利用する。
Masked Image Modelingを事前トレーニングのための自己教師付きトレーニングタスクとして活用することにより、事前訓練されたモデルは、セマンティックな意味のある表現を得られると同時に、監督の崩壊を回避できる。
次に、メタ学習法を用いて、最後の数層とCLSトークンモジュールを微調整する。
我々の戦略は、事前学習モデルの能力を効果的に活用しながら、微調整を必要とするパラメータのnum-berを大幅に削減する。
大規模な実験により、我々のフレームワークは単純で効果的で計算的に効率的であることが示され、5ショットと1ショットのシナリオ下での5つの一般的な数ショット分類ベンチマークにおける最先端のベースラインと比較して優れた性能が得られた。
Humans possess remarkable ability to accurately classify new, unseen images after being exposed to only a few examples. Such ability stems from their capacity to identify common features shared between new and previously seen images while disregarding distractions such as background variations. However, for artificial neural network models, determining the most relevant features for distinguishing between two images with limited samples presents a challenge. In this paper, we propose an intra-task mutual attention method for few-shot learning, that involves splitting the support and query samples into patches and encoding them using the pre-trained Vision Transformer (ViT) architecture. Specifically, we swap the class (CLS) token and patch tokens between the support and query sets to have the mutual attention, which enables each set to focus on the most useful information. This facilitates the strengthening of intra-class representations and promotes closer proximity between instances of the same class. For implementation, we adopt the ViT-based network architecture and utilize pre-trained model parameters obtained through self-supervision. By leveraging Masked Image Modeling as a self-supervised training task for pre-training, the pre-trained model yields semantically meaningful representations while successfully avoiding supervision collapse. We then employ a meta-learning method to fine-tune the last several layers and CLS token modules. Our strategy significantly reduces the num- ber of parameters that require fine-tuning while effectively uti- lizing the capability of pre-trained model. Extensive experiments show that our framework is simple, effective and computationally efficient, achieving superior performance as compared to the state-of-the-art baselines on five popular few-shot classification benchmarks under the 5-shot and 1-shot scenarios | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# 階層型アーキテクチャにおける人間の翻訳過程をシミュレーションするためのアクティブ推論エージェント:タスクセグメンテーションフレームワークとHOF分類体系の統合
An Active Inference Agent for Simulating Human Translation Processes in a Hierarchical Architecture: Integrating the Task Segment Framework and the HOF taxonomy ( http://arxiv.org/abs/2405.03111v1 ) ライセンス: Link先を確認 | Michael Carl, | (参考訳) 本稿では,3つの組込み翻訳プロセスの階層構造として,人間の翻訳生成をモデル化する。
提案アーキテクチャは,キーストローク生成の時間的ダイナミクスを,知覚的,認知的,現象的層にわたって再現する。
CRITT TPR-DB、タスクセグメンテーションフレームワーク、HOF分類のデータを利用して、これらの3つの階層の異なるタイムライン上でのタイピングフローの時間的破壊を実証する。
In this paper, we propose modelling human translation production as a hierarchy of three embedded translation processes. The proposed architecture replicates the temporal dynamics of keystroke production across sensorimotor, cognitive, and phenomenal layers. Utilizing data from the CRITT TPR-DB, the Task Segment Framework, and the HOF taxonomy, we demonstrate the temporal breakdown of the typing flow on distinct timelines within these three layers. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# ロボットエアホッケー:強化学習によるロボット学習のためのマニピュレーションテストベッド
Robot Air Hockey: A Manipulation Testbed for Robot Learning with Reinforcement Learning ( http://arxiv.org/abs/2405.03113v1 ) ライセンス: Link先を確認 | Caleb Chuck, Carl Qi, Michael J. Munje, Shuozhe Li, Max Rudolph, Chang Shi, Siddhant Agarwal, Harshit Sikchi, Abhinav Peri, Sarthak Dayal, Evan Kuo, Kavan Mehta, Anthony Wang, Peter Stone, Amy Zhang, Scott Niekum, | (参考訳) 強化学習(Reinforcement Learning)は、人間の遠隔操作やハードコードされたポリシーが失敗する可能性のある、高速かつオブジェクト指向なドメインにおいても、複雑なポリシーを学ぶための有望なツールである。
この課題を効果的に反映するために,ロボットエアホッケーに基づく動的対話型RLテストベッドを導入する。
エアホッケーを、手軽な作業から、パックで叩いてブロックを押したり、ゴールベースで人間と対話するタスクまで、多種多様なタスクで強化することで、我々のテストベッドはRL能力のさまざまな評価を可能にします。
ロボットのエアホッケーテストベッドは、3つのドメインでシミュレート・トゥ・リアル・トランスファーをサポートする。
仮想制御環境と人間のシャドーイングという2つの遠隔操作システムを通じて収集されたデモデータのデータセットを用いて,動作クローン,オフラインRL,RLをスクラッチから評価する。
Reinforcement Learning is a promising tool for learning complex policies even in fast-moving and object-interactive domains where human teleoperation or hard-coded policies might fail. To effectively reflect this challenging category of tasks, we introduce a dynamic, interactive RL testbed based on robot air hockey. By augmenting air hockey with a large family of tasks ranging from easy tasks like reaching, to challenging ones like pushing a block by hitting it with a puck, as well as goal-based and human-interactive tasks, our testbed allows a varied assessment of RL capabilities. The robot air hockey testbed also supports sim-to-real transfer with three domains: two simulators of increasing fidelity and a real robot system. Using a dataset of demonstration data gathered through two teleoperation systems: a virtualized control environment, and human shadowing, we assess the testbed with behavior cloning, offline RL, and RL from scratch. | 翻訳日:2024-05-07 15:04:42 公開日:2024-05-06 |
# AniTalker: アイデンティティを分離した顔のモーションエンコーディングによる顔の鮮明化と多角化
AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding ( http://arxiv.org/abs/2405.03121v1 ) ライセンス: Link先を確認 | Tao Liu, Feilong Chen, Shuai Fan, Chenpeng Du, Qi Chen, Xie Chen, Kai Yu, | (参考訳) AniTalkerは、一枚の肖像画から人生のような会話顔を生成するために設計された革新的なフレームワークである。
唇の同期や表情や非言語的手がかりの複雑なダイナミクスを捉えるのに失敗する既存のモデルとは異なり、AniTalkerは普遍的な動き表現を使用している。
この革新的な表現は、微妙な表情や頭の動きを含む幅広い顔の動きを効果的に捉えている。
AniTalkerは、2つの自己指導型学習戦略を通じて、動きの描写を強化する。第1は、同一ID内のソースフレームからターゲットの映像フレームを再構築して微妙な動きの表現を学習することであり、第2は、アイデンティティと動きのエンコーダ間の相互情報を積極的に最小化しつつ、メトリック学習を用いたアイデンティティエンコーダを開発する。
このアプローチは、動作表現が動的であり、アイデンティティ固有の詳細を欠いていることを保証し、ラベル付きデータの必要性を著しく低減する。
さらに、拡散モデルと分散アダプタの統合により、多種多様な制御可能な顔アニメーションを生成することができる。
この手法は、AniTalkerが細部でリアルな顔の動きを作り出す能力を示すだけでなく、現実のアプリケーションに動的アバターを製作する可能性も示している。
合成結果はhttps://github.com/X-LANCE/AniTalkerで見ることができる。
The paper introduces AniTalker, an innovative framework designed to generate lifelike talking faces from a single portrait. Unlike existing models that primarily focus on verbal cues such as lip synchronization and fail to capture the complex dynamics of facial expressions and nonverbal cues, AniTalker employs a universal motion representation. This innovative representation effectively captures a wide range of facial dynamics, including subtle expressions and head movements. AniTalker enhances motion depiction through two self-supervised learning strategies: the first involves reconstructing target video frames from source frames within the same identity to learn subtle motion representations, and the second develops an identity encoder using metric learning while actively minimizing mutual information between the identity and motion encoders. This approach ensures that the motion representation is dynamic and devoid of identity-specific details, significantly reducing the need for labeled data. Additionally, the integration of a diffusion model with a variance adapter allows for the generation of diverse and controllable facial animations. This method not only demonstrates AniTalker's capability to create detailed and realistic facial movements but also underscores its potential in crafting dynamic avatars for real-world applications. Synthetic results can be viewed at https://github.com/X-LANCE/AniTalker. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# 因果推論のためのディープラーニング:不均一処理効果推定のためのアーキテクチャの比較
Deep Learning for Causal Inference: A Comparison of Architectures for Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2405.03130v1 ) ライセンス: Link先を確認 | Demetrios Papakostas, Andrew Herren, P. Richard Hahn, Francisco Castillo, | (参考訳) 因果推論は近年広く普及しており、学術的、工業的、教育的、そしてその中間にあるものまで幅広い関心が寄せられている。
同時に、ニューラルネットワークの研究と利用も大きく成長した(より高速な速度ではあるものの)。
このブログの書き込みで私たちが目指すのは、ニューラルネットワーク因果推論アーキテクチャの実証です。
我々は、不均一な処理効果を推定するための最先端木に基づく手法であるBayesian Causal Forestアルゴリズムの完全なニューラルネットワーク実装を開発する。
我々は,既存のニューラルネットワーク因果推論手法と比較し,シミュレーション設定の性能改善を示す。
ストレスが睡眠に与える影響を調べるデータセットに本手法を適用した。
Causal inference has gained much popularity in recent years, with interests ranging from academic, to industrial, to educational, and all in between. Concurrently, the study and usage of neural networks has also grown profoundly (albeit at a far faster rate). What we aim to do in this blog write-up is demonstrate a Neural Network causal inference architecture. We develop a fully connected neural network implementation of the popular Bayesian Causal Forest algorithm, a state of the art tree based method for estimating heterogeneous treatment effects. We compare our implementation to existing neural network causal inference methodologies, showing improvements in performance in simulation settings. We apply our method to a dataset examining the effect of stress on sleep. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# WDMoE: 専門家の混在によるワイヤレス分散大規模言語モデル
WDMoE: Wireless Distributed Large Language Models with Mixture of Experts ( http://arxiv.org/abs/2405.03131v1 ) ライセンス: Link先を確認 | Nan Xue, Yaping Sun, Zhiyong Chen, Meixia Tao, Xiaodong Xu, Liang Qian, Shuguang Cui, Ping Zhang, | (参考訳) 大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めてきたが、無線通信がLLMをサポートする方法については研究されていない。
本稿では,Mixture of Experts (MoE) に基づく無線分散LLMのパラダイムを提案し,無線通信システムにおける基地局(BS) とモバイルデバイスのエッジサーバ間で協調してLLMをデプロイする。
具体的には、ゲートネットワークと先行するニューラルネットワーク層をBSに配置し、専門家ネットワークをデバイス全体に分散させることにより、LEM内のMoE層を分解する。
このアレンジメントは、分散デバイス上のエキスパートネットワークの並列能力を活用する。
さらに、無線通信の不安定性を克服するため、送信遅延と推論遅延の両方を含むモデルの性能とエンドツーエンド遅延の両方を考慮して、専門家の選択ポリシーを設計する。
さまざまなLLMと複数のデータセットで実施された評価によると、WDMoEは、Llama 2のような既存のモデルに700億のパラメータで勝っているだけでなく、エンドツーエンドのレイテンシを大幅に削減している。
Large Language Models (LLMs) have achieved significant success in various natural language processing tasks, but how wireless communications can support LLMs has not been extensively studied. In this paper, we propose a wireless distributed LLMs paradigm based on Mixture of Experts (MoE), named WDMoE, deploying LLMs collaboratively across edge servers of base station (BS) and mobile devices in the wireless communications system. Specifically, we decompose the MoE layer in LLMs by deploying the gating network and the preceding neural network layer at BS, while distributing the expert networks across the devices. This arrangement leverages the parallel capabilities of expert networks on distributed devices. Moreover, to overcome the instability of wireless communications, we design an expert selection policy by taking into account both the performance of the model and the end-to-end latency, which includes both transmission delay and inference delay. Evaluations conducted across various LLMs and multiple datasets demonstrate that WDMoE not only outperforms existing models, such as Llama 2 with 70 billion parameters, but also significantly reduces end-to-end latency. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# Lory: 自己回帰型言語モデル事前学習のための完全微分可能なミックス・オブ・エクササイズ
Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training ( http://arxiv.org/abs/2405.03133v1 ) ライセンス: Link先を確認 | Zexuan Zhong, Mengzhou Xia, Danqi Chen, Mike Lewis, | (参考訳) Mixture-of-experts (MoE) モデルは効率的なスケーリングを容易にするが、ルータネットワークのトレーニングでは、微分不可能で離散的な目的を最適化するという課題が紹介されている。
近年,パラメータ空間のエキスパートをソフトにマージする完全微分可能なMOEアーキテクチャSMEAR(Muqeeth et al , 2023)が提案されている。
本稿では,このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介する。
Lory氏は,(1)言語モデルの自己回帰性を保ちながら,専門家のマージ作業において高い効率を達成する因果セグメントルーティング戦略,(2)類似性に基づくデータバッチ化手法,の2つを紹介した。
私たちは、最大32人のエキスパートと30B(アクティブ)パラメータを持つ150Bトークンで、一連のLoryモデルをスクラッチからトレーニングしました。
実験の結果、パラメータマッチングされた高密度モデル(+13.9%)と様々な下流タスク(+1.5%-11.1%)において、大きな性能向上を示した。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
さらに、Larryの訓練を受けた専門家が、監督なしにドメインレベルの専門化を捉えていることを実証する。
我々の研究は、言語モデル事前学習のための完全微分可能なMoEアーキテクチャの可能性を強調し、この分野における将来の研究を提唱する。
Mixture-of-experts (MoE) models facilitate efficient scaling; however, training the router network introduces the challenge of optimizing a non-differentiable, discrete objective. Recently, a fully-differentiable MoE architecture, SMEAR, was proposed (Muqeeth et al., 2023), which softly merges experts in the parameter space; nevertheless, its effectiveness was only demonstrated in downstream fine-tuning on classification tasks. In this paper, we present Lory, the first approach that scales such architectures to autoregressive language model pre-training. Lory introduces two key techniques: (1) a causal segment routing strategy that achieves high efficiency for expert merging operations while preserving the autoregressive nature of language models; (2) a similarity-based data batching method that encourages expert specialization by grouping similar documents in training instances. We pre-train a series of Lory models on 150B tokens from scratch, with up to 32 experts and 30B (1.5B active) parameters. Experimental results show significant performance gains over parameter-matched dense models on both perplexity (+13.9%) and a variety of downstream tasks (+1.5%-11.1%). Despite segment-level routing, Lory models achieve competitive performance compared to state-of-the-art MoE models with token-level routing. We further demonstrate that the trained experts in Lory capture domain-level specialization without supervision. Our work highlights the potential of fully-differentiable MoE architectures for language model pre-training and advocates future research in this area. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# FOBNN: 高速なバイナリ化されたニューラルネットワーク推論
FOBNN: Fast Oblivious Binarized Neural Network Inference ( http://arxiv.org/abs/2405.03136v1 ) ライセンス: Link先を確認 | Xin Chen, Zhili Chen, Benchang Dong, Shiwen Wei, Lin Chen, Daojing He, | (参考訳) ディープラーニングの優れたパフォーマンスは、ディープラーニング・アズ・ア・サービス(Deep Learning as a Service)の台頭を促し、ユーザがプライベートデータをサービスプロバイダに送信し、モデルの実行と推論の検索を可能にした。
それでも、主要な懸念事項は、セキュアなプロトコルの効率を最適化しながら、機密性の高いユーザデータの機密性を保護することである。
そこで我々は,高速な二項化ニューラルネットワーク推論フレームワークFOBNNを開発した。
具体的には、二項化畳み込みニューラルネットワークをカスタマイズして、難解な推論を強化し、二項化畳み込みのための2つの高速アルゴリズムを設計し、制約されたコストで実験的にネットワーク構造を最適化する。
まず,二項化畳み込みにおける中間値の範囲を慎重に解析してビット表現を最小化し,ビット長バウンディング(BLB)アルゴリズムを実現する。
その後、BLBにおけるビットワイズ演算の効率を活用し、各二進数位置に対して純粋ビットワイズ演算を用いることで性能をさらに向上し、Layer-wise Bit Accumulation (LBA)アルゴリズムを得る。
理論的解析は、FOBNNのセキュリティを検証し、最先端の手法と比較して計算と通信のコストが最大で$2 \timesであることを示している。
バイオインフォマティクスにおけるRNA機能予測における我々のフレームワークの有効性を実証する。
厳密な実験的評価により、我々の難解な推論ソリューションは維持されるだけでなく、しばしば元の精度を超え、以前の努力を上回ることが確認された。
The superior performance of deep learning has propelled the rise of Deep Learning as a Service, enabling users to transmit their private data to service providers for model execution and inference retrieval. Nevertheless, the primary concern remains safeguarding the confidentiality of sensitive user data while optimizing the efficiency of secure protocols. To address this, we develop a fast oblivious binarized neural network inference framework, FOBNN. Specifically, we customize binarized convolutional neural networks to enhance oblivious inference, design two fast algorithms for binarized convolutions, and optimize network structures experimentally under constrained costs. Initially, we meticulously analyze the range of intermediate values in binarized convolutions to minimize bit representation, resulting in the Bit Length Bounding (BLB) algorithm. Subsequently, leveraging the efficiency of bitwise operations in BLB, we further enhance performance by employing pure bitwise operations for each binary digit position, yielding the Layer-wise Bit Accumulation (LBA) algorithm. Theoretical analysis validates FOBNN's security and indicates up to $2 \times$ improvement in computational and communication costs compared to the state-of-the-art method. We demonstrates our framework's effectiveness in RNA function prediction within bioinformatics. Rigorous experimental assessments confirm that our oblivious inference solutions not only maintain but often exceed the original accuracy, surpassing prior efforts. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# CRAFT:野生からの文化教育の抽出・調整
CRAFT: Extracting and Tuning Cultural Instructions from the Wild ( http://arxiv.org/abs/2405.03138v1 ) ライセンス: Link先を確認 | Bin Wang, Geyu Lin, Zhengyuan Liu, Chengwei Wei, Nancy F. Chen, | (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)アプリケーションの基礎として急速に進化してきた。
広く使われているにもかかわらず、文化的な概念や推論に対する理解は依然として限られている。
時が経つと、これらのモデルの文化的推論能力、特に表現不足の地域について、大幅に強化する必要性がある。
本稿では,未構造化コーパスから高品質で文化的に関連のある命令チューニングデータセットを抽出するための新しいパイプラインを提案する。
自己指示生成パイプラインを用いて、文化的概念を特定し、指導をトリガーする。
汎用的な指導調律データセットと統合することにより,地域文化のニュアンスを認識し理解する能力が向上し,推論能力が向上することを示す。
シンガポール、フィリピン、アメリカという3つの地域で実験を行い、最大6%のパフォーマンス向上を実現しました。
本研究は、非構造化データから直接文化的指導用チューニングセットを抽出する新たな道を開き、今後のイノベーションの先駆けとなる。
Large language models (LLMs) have rapidly evolved as the foundation of various natural language processing (NLP) applications. Despite their wide use cases, their understanding of culturally-related concepts and reasoning remains limited. Meantime, there is a significant need to enhance these models' cultural reasoning capabilities, especially concerning underrepresented regions. This paper introduces a novel pipeline for extracting high-quality, culturally-related instruction tuning datasets from vast unstructured corpora. We utilize a self-instruction generation pipeline to identify cultural concepts and trigger instruction. By integrating with a general-purpose instruction tuning dataset, our model demonstrates enhanced capabilities in recognizing and understanding regional cultural nuances, thereby enhancing its reasoning capabilities. We conduct experiments across three regions: Singapore, the Philippines, and the United States, achieving performance improvement of up to 6%. Our research opens new avenues for extracting cultural instruction tuning sets directly from unstructured data, setting a precedent for future innovations in the field. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# TimeMIL: 時間認識型マルチインスタンス学習による多変量時系列分類の改善
TimeMIL: Advancing Multivariate Time Series Classification via a Time-aware Multiple Instance Learning ( http://arxiv.org/abs/2405.03140v1 ) ライセンス: Link先を確認 | Xiwen Chen, Peijie Qiu, Wenhui Zhu, Huayu Li, Hao Wang, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi, | (参考訳) 変換器や畳み込みニューラルネットワークを含むディープニューラルネットワークは、多変量時系列分類(MTSC)を大幅に改善した。
しかし、これらの手法はしばしば教師あり学習に依存しており、時系列データ(ECGの疾患関連異常点など)におけるパターンの空間性と局所性を十分に考慮していない。
この課題に対処するため、MTSCを弱教師付き問題として形式的に再構築し、時系列内の関心のパターンとモデリング時間依存性のより優れたローカライズのための新しいマルチインスタンスラーニング(MIL)フレームワークを導入する。
我々の新しいアプローチであるTimeMILは、タイムアウェアなMILプール内で時間的相関と順序を定式化し、トークン化トランスフォーマーと特別な学習可能なウェーブレット位置トークンを活用する。
提案手法は26種類の最先端手法を超越し,MTSCにおける弱教師付きTimeMILの有効性を実証した。
Deep neural networks, including transformers and convolutional neural networks, have significantly improved multivariate time series classification (MTSC). However, these methods often rely on supervised learning, which does not fully account for the sparsity and locality of patterns in time series data (e.g., diseases-related anomalous points in ECG). To address this challenge, we formally reformulate MTSC as a weakly supervised problem, introducing a novel multiple-instance learning (MIL) framework for better localization of patterns of interest and modeling time dependencies within time series. Our novel approach, TimeMIL, formulates the temporal correlation and ordering within a time-aware MIL pooling, leveraging a tokenized transformer with a specialized learnable wavelet positional token. The proposed method surpassed 26 recent state-of-the-art methods, underscoring the effectiveness of the weakly supervised TimeMIL in MTSC. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# 若年性特発性強皮症に対する親和性クラスタリングによる超音波カーブ角自動計測
Automatic Ultrasound Curve Angle Measurement via Affinity Clustering for Adolescent Idiopathic Scoliosis Evaluation ( http://arxiv.org/abs/2405.03141v1 ) ライセンス: Link先を確認 | Yihao Zhou, Timothy Tin-Yan Lee, Kelly Ka-Lee Lai, Chonglin Wu, Hin Ting Lau, De Yang, Chui-Yi Chan, Winnie Chiu-Wing Chu, Jack Chun-Yiu Cheng, Tsz-Ping Lam, Yong-Ping Zheng, | (参考訳) 思春期特発性強皮症(AIS)を評価するための現在の臨床金基準は、コブ角測定を用いたX線X線撮影である。
しかしながら、X線を用いたAIS進行の頻繁なモニタリングは、累積放射露光による課題となる。
3次元超音波検査は, 脊柱管狭窄評価のための信頼性と放射線のない代替手段として評価されているが, 脊椎曲率測定のプロセスはまだ手作業で行われている。
したがって、ボニーランドマークを見つけ、角度測定を行うことができる完全自動システムにはかなりの需要がある。
そこで本稿では,自動超音波曲線角測定(UCA)のための推定モデルを提案する。
このモデルでは、二重ブランチネットワークを用いて、候補のランドマークを検出し、超音波コロナ画像の椎骨分割を行う。
脊椎領域内のアフィニティクラスタリング戦略を利用して、候補ランドマーク間のアフィニティ関係を示す。
その後、UCA測定のためのクラスタ化親和性マップから線分線を効率的に行うことができる。
本手法は,UCA計算に特化して設計されているため,ランドマークおよびライン検出タスクにおいて,他の最先端手法よりも優れている。
R$^2$=0.858という自動UCA角とコブ角の相関が強いことから,本手法は超音波検診において手動UCA測定を代替できる可能性が示唆された。
The current clinical gold standard for evaluating adolescent idiopathic scoliosis (AIS) is X-ray radiography, using Cobb angle measurement. However, the frequent monitoring of the AIS progression using X-rays poses a challenge due to the cumulative radiation exposure. Although 3D ultrasound has been validated as a reliable and radiation-free alternative for scoliosis assessment, the process of measuring spinal curvature is still carried out manually. Consequently, there is a considerable demand for a fully automatic system that can locate bony landmarks and perform angle measurements. To this end, we introduce an estimation model for automatic ultrasound curve angle (UCA) measurement. The model employs a dual-branch network to detect candidate landmarks and perform vertebra segmentation on ultrasound coronal images. An affinity clustering strategy is utilized within the vertebral segmentation area to illustrate the affinity relationship between candidate landmarks. Subsequently, we can efficiently perform line delineation from a clustered affinity map for UCA measurement. As our method is specifically designed for UCA calculation, this method outperforms other state-of-the-art methods for landmark and line detection tasks. The high correlation between the automatic UCA and Cobb angle (R$^2$=0.858) suggests that our proposed method can potentially replace manual UCA measurement in ultrasound scoliosis assessment. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# PTQ4SAM:セグメンテーションの後の量子化
PTQ4SAM: Post-Training Quantization for Segment Anything ( http://arxiv.org/abs/2405.03144v1 ) ライセンス: Link先を確認 | Chengtao Lv, Hong Chen, Jinyang Guo, Yifu Ding, Xianglong Liu, | (参考訳) Segment Anything Model (SAM)は多くのコンピュータビジョンタスクにおいて素晴らしいパフォーマンスを達成している。
しかし、大規模なモデルとして、膨大なメモリと計算コストが実際の展開を妨げている。
本稿では,Segment Anything Modelのためのポストトレーニング量子化(PTQ)フレームワーク,すなわちPTQ4SAMを提案する。
まず,鍵-線形後のアクティベーションにおけるバイモーダル分布に起因するSAM量子化の固有のボトルネックについて検討する。
本稿では,その特性をテンソル単位とチャネル単位の両方の観点から解析し,数学的に等価な符号演算を用いて,比較的容易に量子化された正規分布に変換するバイモーダル積分法を提案する。
第2に、SAMは様々な注意機構(すなわち、自己注意と双方向の相互注意)を包含し、Softmax以降の分布に大きな変化をもたらす。
そこで本研究では,ハードウェアフレンドリな最適パワーオブツーベースを探索することで,Softmaxの適応粒度量子化を提案する。
様々な視覚タスク(インスタンスセグメンテーション、セマンティックセグメンテーション、オブジェクト検出)、データセット、モデル変異はPTQ4SAMの優位性を示している。
例えば、SAM-L を 6-bit に量子化する際、理論的な 3.9$\times$Acceleration を用いて、インスタンスセグメンテーションの損失のない精度を0.5\% のドロップで達成する。
コードは \url{https://github.com/chengtao-lv/PTQ4SAM} で公開されている。
Segment Anything Model (SAM) has achieved impressive performance in many computer vision tasks. However, as a large-scale model, the immense memory and computation costs hinder its practical deployment. In this paper, we propose a post-training quantization (PTQ) framework for Segment Anything Model, namely PTQ4SAM. First, we investigate the inherent bottleneck of SAM quantization attributed to the bimodal distribution in post-Key-Linear activations. We analyze its characteristics from both per-tensor and per-channel perspectives, and propose a Bimodal Integration strategy, which utilizes a mathematically equivalent sign operation to transform the bimodal distribution into a relatively easy-quantized normal distribution offline. Second, SAM encompasses diverse attention mechanisms (i.e., self-attention and two-way cross-attention), resulting in substantial variations in the post-Softmax distributions. Therefore, we introduce an Adaptive Granularity Quantization for Softmax through searching the optimal power-of-two base, which is hardware-friendly. Extensive experimental results across various vision tasks (instance segmentation, semantic segmentation and object detection), datasets and model variants show the superiority of PTQ4SAM. For example, when quantizing SAM-L to 6-bit, we achieve lossless accuracy for instance segmentation, about 0.5\% drop with theoretical 3.9$\times$ acceleration. The code is available at \url{https://github.com/chengtao-lv/PTQ4SAM}. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# LLMのスケールと精度における能力の定量化
Quantifying the Capabilities of LLMs across Scale and Precision ( http://arxiv.org/abs/2405.03146v1 ) ライセンス: Link先を確認 | Sher Badshah, Hassan Sajjad, | (参考訳) スケールはしばしば、LLMのパフォーマンスが向上する要因の1つと考えられており、結果として数十億のパラメータを持つモデルが生成される。
このような大きなモデルの制限の1つは、リソース制約のあるシナリオでの使用、デプロイ、デバッグを制限する高い計算要求である。
これらの制限を回避するための2つの一般的な代替手段は、LLMのより小さなバージョン(例えばLlama 70Bの代わりにLlama 7B)を使用することと、量子化によるメモリ要求の低減である。
これらのアプローチはリソースの制限に効果的に対処するが、モデルの性能への影響は徹底的な検査が必要である。
本研究では,モデルスケールと量子化が性能に与える影響を総合評価する。
我々は、70億から70億のパラメータからなるオープンソースのインストラクションモデルの2つの主要なファミリーを実験した。
自然言語理解、推論、誤情報検出、幻覚など、さまざまなタスクにわたる大規模なゼロショット実験により、より大きなモデルがより小さなモデルを上回ることが判明した。
より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、多くのタスクに対して4ビット量子化でも高い精度を維持することができ、同様のメモリ要件下での高精度でより小さなモデルを使用するよりも優れた解法として機能することを発見した。
Scale is often attributed as one of the factors that cause an increase in the performance of LLMs, resulting in models with billion and trillion parameters. One of the limitations of such large models is the high computational requirements that limit their usage, deployment, and debugging in resource-constrained scenarios. Two commonly used alternatives to bypass these limitations are to use the smaller versions of LLMs (e.g. Llama 7B instead of Llama 70B) and lower the memory requirements by using quantization. While these approaches effectively address the limitation of resources, their impact on model performance needs thorough examination. In this study, we perform a comprehensive evaluation to investigate the effect of model scale and quantization on the performance. We experiment with two major families of open-source instruct models ranging from 7 billion to 70 billion parameters. Our extensive zero-shot experiments across various tasks including natural language understanding, reasoning, misinformation detection, and hallucination reveal that larger models generally outperform their smaller counterparts, suggesting that scale remains an important factor in enhancing performance. We found that larger models show exceptional resilience to precision reduction and can maintain high accuracy even at 4-bit quantization for numerous tasks and they serve as a better solution than using smaller models at high precision under similar memory requirements. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# 共鳴相互作用におけるSマトリックス極流の観測:小型レーザー加速器における超低温原子の冷間衝突
Observing S-Matrix Pole Flow in Resonance Interplay: Cold Collisions of Ultracold Atoms in a Miniature Laser-based Accelerator ( http://arxiv.org/abs/2405.03149v1 ) ライセンス: Link先を確認 | Matthew Chilcott, Samyajit Gayen, James Croft, Ryan Thomas, Niels Kjærgaard, | (参考訳) 原子の超低温雲の衝突における共鳴実験の概要について概説する。
超低温の原子設定で得られるエネルギー分解能を活かしたレーザーベースの加速器を用いて、フェシュバッハや形状共鳴のような共鳴現象を、文字通り散在する散在する原子のハローを撮影することによって示している。
我々は、磁気フェシュバッハ共鳴のチューニング性を利用して、散乱共鳴間の相互作用を扇動する。
衝突エネルギーと磁場に代表されるパラメータ空間における散乱を実験的に記録することにより、複素エネルギー平面における$S$マトリクス極流のインプリントを捉える。
フェシュバッハ共鳴を形状共鳴と反境界状態の近傍に配置する再検討実験を行った後、2つのフェシュバッハ共鳴の間で$S$-matrix極の相互作用を用いて連続状態を生成する可能性について議論した。
We provide an overview of experiments exploring resonances in the collision of ultracold clouds of atoms. Using a laser-based accelerator that capitalizes on the energy resolution provided by the ultracold atomic setting, we unveil resonance phenomena such as Feshbach and shape resonances in their quintessential form by literally photographing the halo of outgoing scattered atoms. We exploit the tunability of magnetic Feshbach resonances to instigate an interplay between scattering resonances. By experimentally recording the scattering in a parameter space spanned by collision energy and magnetic field, we capture the imprint of the $S$-matrix pole flow in the complex energy plane. After revisiting experiments that place a Feshbach resonance in the proximity of a shape resonance and an anti-bound state, respectively, we discuss the possibility of using $S$-matrix pole interplay between two Feshbach resonances to create a bound-state-in-the-continuum. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# ビデオ拡散モデル:サーベイ
Video Diffusion Models: A Survey ( http://arxiv.org/abs/2405.03150v1 ) ライセンス: Link先を確認 | Andrew Melnik, Michal Ljubljanac, Cong Lu, Qi Yan, Weiming Ren, Helge Ritter, | (参考訳) 拡散生成モデルは、最近、コヒーレントで高品質なビデオを作成し、修正するための堅牢な技術となっている。
本調査では,映像生成における拡散モデルの重要な要素,アプリケーション,アーキテクチャの選択,時間的ダイナミクスのモデル化について概説する。
この分野の最近の進歩を要約し、開発トレンドにまとめる。
調査は、残る課題の概要と、この分野の将来展望で締めくくられている。
Webサイト: https://github.com/ndrwmlnk/Awesome-Video-Diffusion-Models
Diffusion generative models have recently become a robust technique for producing and modifying coherent, high-quality video. This survey offers a systematic overview of critical elements of diffusion models for video generation, covering applications, architectural choices, and the modeling of temporal dynamics. Recent advancements in the field are summarized and grouped into development trends. The survey concludes with an overview of remaining challenges and an outlook on the future of the field. Website: https://github.com/ndrwmlnk/Awesome-Video-Diffusion-Models | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# GA-Long Short-Term Memory Network (LSTM)最適化に基づく時系列株価予測
Time Series Stock Price Forecasting Based on Genetic Algorithm (GA)-Long Short-Term Memory Network (LSTM) Optimization ( http://arxiv.org/abs/2405.03151v1 ) ライセンス: Link先を確認 | Xinye Sha, | (参考訳) 本稿では,遺伝的アルゴリズム(GA)とLong Short-Term Memory Network(LSTM)の最適化に基づく時系列アルゴリズムを用いて,ビッグデータ時代の傾向を考慮し,株価を効果的に予測する。
データはまず記述統計によって分析され、次にモデルを構築し、トレーニングし、データセット上でテストする。
最適化および調整後、モデルの平均絶対誤差(MAE)は、徐々に0.11から0.01に減少し、安定する傾向にあり、モデル予測効果が実際の値に徐々に近いことを示す。
その結果,GA-Long Short-Term Memory Network (LSTM) に基づいて最適化された時系列アルゴリズムは,株価を正確に予測することができ,実際の価格動向や値と極めて整合性があり,高い一般化能力を有することがわかった。
試験セットのMAEは2.41、MSEは9.84、RMSEは3.13、R2は0.87である。
本研究は,新たな株価予測手法を提供するだけでなく,コンピュータ技術とビッグデータを用いた金融市場分析にも有用である。
In this paper, a time series algorithm based on Genetic Algorithm (GA) and Long Short-Term Memory Network (LSTM) optimization is used to forecast stock prices effectively, taking into account the trend of the big data era. The data are first analyzed by descriptive statistics, and then the model is built and trained and tested on the dataset. After optimization and adjustment, the mean absolute error (MAE) of the model gradually decreases from 0.11 to 0.01 and tends to be stable, indicating that the model prediction effect is gradually close to the real value. The results on the test set show that the time series algorithm optimized based on Genetic Algorithm (GA)-Long Short-Term Memory Network (LSTM) is able to accurately predict the stock prices, and is highly consistent with the actual price trends and values, with strong generalization ability. The MAE on the test set is 2.41, the MSE is 9.84, the RMSE is 3.13, and the R2 is 0.87. This research result not only provides a novel stock price prediction method, but also provides a useful reference for financial market analysis using computer technology and big data. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# 誤解を招くニュース見出しの同定における大規模言語モデル(LLM)の可能性を探る
Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines ( http://arxiv.org/abs/2405.03153v1 ) ライセンス: Link先を確認 | Md Main Uddin Rony, Md Mahfuzul Haque, Mohammad Ali, Ahmed Shatil Alam, Naeemul Hassan, | (参考訳) デジタル時代において、誤解を招くニュースの見出しの流行は、情報完全性、堅牢な検出メカニズムを必要とする重要な課題を提起している。
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。
健康、科学、技術、ビジネスドメインにわたる、信頼できる、疑わしいアウトレットから得られた60項目のデータセットを利用して、3つのLCM(ChatGPT-3.5、ChatGPT-4、Gemini-for)を採用。
分析の結果,ChatGPT-4は優れた精度を示し,特に誤解を招く見出しに対するアノテータ合意が一致している場合において,モデル性能に有意な差異が認められた。
この研究は、誤情報検出の複雑さをナビゲートできるLCMの開発において、人間中心の評価の重要性を強調し、技術的習熟度とニュアンスな人間の判断を一致させる。
我々の発見は、技術的に進歩しただけでなく、倫理的に整合し、人間の解釈の微妙さに敏感なモデルの必要性を強調し、AI倫理に関する議論に寄与する。
In the digital age, the prevalence of misleading news headlines poses a significant challenge to information integrity, necessitating robust detection mechanisms. This study explores the efficacy of Large Language Models (LLMs) in identifying misleading versus non-misleading news headlines. Utilizing a dataset of 60 articles, sourced from both reputable and questionable outlets across health, science & tech, and business domains, we employ three LLMs- ChatGPT-3.5, ChatGPT-4, and Gemini-for classification. Our analysis reveals significant variance in model performance, with ChatGPT-4 demonstrating superior accuracy, especially in cases with unanimous annotator agreement on misleading headlines. The study emphasizes the importance of human-centered evaluation in developing LLMs that can navigate the complexities of misinformation detection, aligning technical proficiency with nuanced human judgment. Our findings contribute to the discourse on AI ethics, emphasizing the need for models that are not only technically advanced but also ethically aligned and sensitive to the subtleties of human interpretation. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# General-Sum Stackelberg Gamesにおける分散オンライン学習
Decentralized Online Learning in General-Sum Stackelberg Games ( http://arxiv.org/abs/2405.03158v1 ) ライセンス: Link先を確認 | Yaolong Yu, Haipeng Chen, | (参考訳) プレイヤーが分散的かつ戦略的に行動する一般のStackelbergゲームにおいて,オンライン学習問題を研究する。
本研究では,フォロワーに対する情報の種類によって異なる2つの設定について検討する。(1)フォロワーが自分の報酬のみを観察する限定情報設定,(2)フォロワーがリーダーの報奨に関する情報を付加する側情報設定である。
追随者にとって、リーダーの行動に最善を尽くすのは、限られた情報設定にとって最良の戦略であるが、必ずしも側からの情報設定のためにはそうではない。
これらの知見に基づき,両選手を対象とした分散オンライン学習について検討した。
私たちの主な貢献は、両方の設定で最終項目の収束とサンプルの複雑さの結果を導き出すことです。
特に、後者の設定において、従者に対する新たな操作戦略を設計し、最良の応答戦略に対して本質的な優位性を示す。
私たちの理論も実証的な結果によって裏付けられている。
We study an online learning problem in general-sum Stackelberg games, where players act in a decentralized and strategic manner. We study two settings depending on the type of information for the follower: (1) the limited information setting where the follower only observes its own reward, and (2) the side information setting where the follower has extra side information about the leader's reward. We show that for the follower, myopically best responding to the leader's action is the best strategy for the limited information setting, but not necessarily so for the side information setting -- the follower can manipulate the leader's reward signals with strategic actions, and hence induce the leader's strategy to converge to an equilibrium that is better off for itself. Based on these insights, we study decentralized online learning for both players in the two settings. Our main contribution is to derive last-iterate convergence and sample complexity results in both settings. Notably, we design a new manipulation strategy for the follower in the latter setting, and show that it has an intrinsic advantage against the best response strategy. Our theories are also supported by empirical results. | 翻訳日:2024-05-07 14:54:58 公開日:2024-05-06 |
# DeepMpMRI:高速かつ高忠実なマルチパラメトリックMRIのためのテンソル分解正規化学習
DeepMpMRI: Tensor-decomposition Regularized Learning for Fast and High-Fidelity Multi-Parametric Microstructural MR Imaging ( http://arxiv.org/abs/2405.03159v1 ) ライセンス: Link先を確認 | Wenxin Fan, Jian Cheng, Cheng Li, Xinrui Ma, Jing Yang, Juan Zou, Ruoyou Wu, Zan Chen, Yuanjing Feng, Hairong Zheng, Shanshan Wang, | (参考訳) 深層学習は、拡散強調MRI画像と組織パラメータの非線形マッピングを学ぶための有望なアプローチとして現れ、脳の微細構造の自動的および深部理解を可能にしている。
しかし、従来の研究では、高密度サンプリングと孤立信号モデリングによるマルチパラメトリックマップを推定する傾向があったため、マルチパラメトリック推定の効率と精度はまだ限られている。
本稿では, スパースサンプリングq空間データを用いた拡散モデルから高速かつ高忠実なマルチパラメトリック推定を行う統合フレームワークであるDeepMpMRIを提案する。
DeepMpMRIは、パラメータ間の相関を利用して詳細を効果的に捉えるために、新しく設計されたテンソル分解ベースの正規化器を備えている。
さらに,Nesterovに基づく適応学習アルゴリズムを導入し,正規化パラメータを動的に最適化して性能を向上させる。
DeepMpMRIは柔軟なネットワークアーキテクチャを組み込むことができる拡張可能なフレームワークである。
実験により, 様々な拡散モデルに対するマルチパラメトリック写像を定量的に, 定性的に, 微粒度で同時に推定し, 4.5~22.5$\times$Accelerationを, 合計270の拡散勾配の高密度サンプリングと比較した。
Deep learning has emerged as a promising approach for learning the nonlinear mapping between diffusion-weighted MR images and tissue parameters, which enables automatic and deep understanding of the brain microstructures. However, the efficiency and accuracy in the multi-parametric estimations are still limited since previous studies tend to estimate multi-parametric maps with dense sampling and isolated signal modeling. This paper proposes DeepMpMRI, a unified framework for fast and high-fidelity multi-parametric estimation from various diffusion models using sparsely sampled q-space data. DeepMpMRI is equipped with a newly designed tensor-decomposition-based regularizer to effectively capture fine details by exploiting the correlation across parameters. In addition, we introduce a Nesterov-based adaptive learning algorithm that optimizes the regularization parameter dynamically to enhance the performance. DeepMpMRI is an extendable framework capable of incorporating flexible network architecture. Experimental results demonstrate the superiority of our approach over 5 state-of-the-art methods in simultaneously estimating multi-parametric maps for various diffusion models with fine-grained details both quantitatively and qualitatively, achieving 4.5 - 22.5$\times$ acceleration compared to the dense sampling of a total of 270 diffusion gradients. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# ジェミニのマルチモーダル医療能力の向上
Advancing Multimodal Medical Capabilities of Gemini ( http://arxiv.org/abs/2405.03162v1 ) ライセンス: Link先を確認 | Lin Yang, Shawn Xu, Andrew Sellergren, Timo Kohlberger, Yuchen Zhou, Ira Ktena, Atilla Kiraly, Faruk Ahmed, Farhad Hormozdiari, Tiam Jaroensri, Eric Wang, Ellery Wulczyn, Fayaz Jamil, Theo Guidroz, Chuck Lau, Siyuan Qiao, Yun Liu, Akshay Goel, Kendall Park, Arnav Agharwal, Nick George, Yang Wang, Ryutaro Tanno, David G. T. Barrett, Wei-Hung Weng, S. Sara Mahdavi, Khaled Saab, Tao Tu, Sreenivasa Raju Kalidindi, Mozziyar Etemadi, Jorge Cuadros, Gregory Sorensen, Yossi Matias, Katherine Chou, Greg Corrado, Joelle Barral, Shravya Shetty, David Fleet, S. M. Ali Eslami, Daniel Tse, Shruthi Prabhakara, Cory McLean, Dave Steiner, Rory Pilgrim, Christopher Kelly, Shekoofeh Azizi, Daniel Golden, | (参考訳) 多くの臨床的タスクは、医学画像やゲノム学のような専門的なデータを理解することを必要とし、一般的に汎用的な大規模マルチモーダルモデルでは見つからない。
Geminiのマルチモーダルモデルを構築し、Geminiのコア能力を継承し、2Dおよび3D放射線学、病理学、眼科、皮膚学、ゲノムデータによる微調整により医療用途に最適化された新しいMed-Geminiファミリー内にいくつかのモデルを開発する。
Med-Gemini-2Dは、専門家による評価に基づいて、AIベースの胸部X線(CXR)レポート生成の新しい標準を設定しており、2つの別々のデータセットで過去の最良の結果を1%と12%で上回り、通常の症例におけるAIレポートの57%と96%、異常症例の43%と65%は、元の放射線学者の報告よりも「同等かそれ以上」と評価されている。
我々は,Med-Gemini-3Dを用いた3次元CTボリュームの大規模マルチモーダルモデルベースレポート生成を初めて実施し,AIレポートの53%が臨床的に許容できると考えられた。
レポート生成の他に、Med-Gemini-2Dは、CXR視覚質問応答(VQA)における以前の最高のパフォーマンスを上回り、20タスク中17タスクのSoTAを超える、CXR分類と放射線学のVQAでよく機能する。
Med-Gemini-2Dは、病理、眼科、皮膚画像分類において、20タスク中18タスクのベースラインを超え、タスク固有のモデルパフォーマンスにアプローチする。
画像以外にも、Med-Gemini-Polygenicは、病気のリスク予測のための標準的な線形ポリジェニックリスクスコアに基づくアプローチを上回り、訓練されたことのない遺伝的に相関した疾患に一般化する。
安全上重要な医療領域では,さらなる開発と評価が必要であるが,本研究は幅広い医療課題におけるメドジェニーニの可能性を強調した。
Many clinical tasks require an understanding of specialized data, such as medical images and genomics, which is not typically found in general-purpose large multimodal models. Building upon Gemini's multimodal models, we develop several models within the new Med-Gemini family that inherit core capabilities of Gemini and are optimized for medical use via fine-tuning with 2D and 3D radiology, histopathology, ophthalmology, dermatology and genomic data. Med-Gemini-2D sets a new standard for AI-based chest X-ray (CXR) report generation based on expert evaluation, exceeding previous best results across two separate datasets by an absolute margin of 1% and 12%, where 57% and 96% of AI reports on normal cases, and 43% and 65% on abnormal cases, are evaluated as "equivalent or better" than the original radiologists' reports. We demonstrate the first ever large multimodal model-based report generation for 3D computed tomography (CT) volumes using Med-Gemini-3D, with 53% of AI reports considered clinically acceptable, although additional research is needed to meet expert radiologist reporting quality. Beyond report generation, Med-Gemini-2D surpasses the previous best performance in CXR visual question answering (VQA) and performs well in CXR classification and radiology VQA, exceeding SoTA or baselines on 17 of 20 tasks. In histopathology, ophthalmology, and dermatology image classification, Med-Gemini-2D surpasses baselines across 18 out of 20 tasks and approaches task-specific model performance. Beyond imaging, Med-Gemini-Polygenic outperforms the standard linear polygenic risk score-based approach for disease risk prediction and generalizes to genetically correlated diseases for which it has never been trained. Although further development and evaluation are necessary in the safety-critical medical domain, our results highlight the potential of Med-Gemini across a wide range of medical tasks. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# 身体的AIとロボット学習における予測的不確かさと多様性の役割
The Role of Predictive Uncertainty and Diversity in Embodied AI and Robot Learning ( http://arxiv.org/abs/2405.03164v1 ) ライセンス: Link先を確認 | Ransalu Senanayake, | (参考訳) 不確実性は、特にロボットが分析モデルを備えている場合、ロボット工学において長い間重要な研究領域であった。
研究環境における顕著なパフォーマンスを示すロボットにおけるディープニューラルネットワークの普及に向けて、不確実性のニュアンスを理解することが、現実の展開に不可欠である。
このガイドは不確実性の重要性の概要を提供し、アプリケーションの観点からそれを定量化し評価する方法を提供する。
Uncertainty has long been a critical area of study in robotics, particularly when robots are equipped with analytical models. As we move towards the widespread use of deep neural networks in robots, which have demonstrated remarkable performance in research settings, understanding the nuances of uncertainty becomes crucial for their real-world deployment. This guide offers an overview of the importance of uncertainty and provides methods to quantify and evaluate it from an applications perspective. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# 低エントロピーRSA鍵分解のための効率的な全対全GCDアルゴリズム
An Efficient All-to-All GCD Algorithm for Low Entropy RSA Key Factorization ( http://arxiv.org/abs/2405.03166v1 ) ライセンス: Link先を確認 | Elijah Pelofske, | (参考訳) RSAは驚くほど成功し、有用な非対称暗号化アルゴリズムである。
RSAにおける実装欠陥のタイプの一つは、鍵生成の低エントロピー、特に素数生成段階である。
これはランダム素数生成ライブラリの不足や、外部エントロピーの源がないコンピュータで発生する。
これらの実装欠陥により、いくつかのRSAキーが素因子を共有するため、素因子を共有する2つの公開鍵モジュラー間の計算GCDを実行することにより、公共率の完全因子化を極端に効率的に回収することができる。
しかし、複合モジュールのどれが素因子a-プリオリを共有しているかが分かっていないため、そのような共有素因子が存在するかどうかを判断するために、利用可能な公開鍵上で全対全GCD攻撃(バッチGCD攻撃またはバルクGCD攻撃)を行うことができる。
本研究は,従来の最良バッチGCDアルゴリズム(残りの木バッチGCDアルゴリズム)よりも効率的であるバイナリツリーバッチGCDアルゴリズムと呼ばれる新しい全対全バッチGCDアルゴリズムについて述べる。
既存の最良バッチGCD法との比較(積木に続く剰余木計算)は、いくつかのモジュライが素因子を共有するように構成されたランダムRSA変調のデータセットを用いて行われる。
この二分木バッチGCDアルゴリズムは、既存の残木バッチGCDアルゴリズムよりも実行時性がよいが、漸近的にほぼ同一のスケーリングを持ち、その複雑さはRSAキーの集合に共有された素因子の数に依存する。
実際には、提案したバイナリツリーバッチGCDアルゴリズムの実装は、標準の剰余木バッチGCD手法と比較して約6倍の高速化を実現している。
RSA is an incredibly successful and useful asymmetric encryption algorithm. One of the types of implementation flaws in RSA is low entropy of the key generation, specifically the prime number creation stage. This can occur due to flawed usage of random prime number generator libraries, or on computers where there is a lack of a source of external entropy. These implementation flaws result in some RSA keys sharing prime factors, which means that the full factorization of the public modulus can be recovered incredibly efficiently by performing a computation GCD between the two public key moduli that share the prime factor. However, since one does not know which of the composite moduli share a prime factor a-priori, to determine if any such shared prime factors exist, an all-to-all GCD attack (also known as a batch GCD attack, or a bulk GCD attack) can be performed on the available public keys so as to recover any shared prime factors. This study describes a novel all-to-all batch GCD algorithm, which will be referred to as the binary tree batch GCD algorithm, that is more efficient than the current best batch GCD algorithm (the remainder tree batch GCD algorithm). A comparison against the best existing batch GCD method (which is a product tree followed by a remainder tree computation) is given using a dataset of random RSA moduli that are constructed such that some of the moduli share prime factors. This proposed binary tree batch GCD algorithm has better runtime than the existing remainder tree batch GCD algorithm, although asymptotically it has nearly identical scaling and its complexity is dependent on how many shared prime factors exist in the set of RSA keys. In practice, the implementation of the proposed binary tree batch GCD algorithm has a roughly 6x speedup compared to the standard remainder tree batch GCD approach. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# 生成型大規模言語モデル評価のためのOracle-Checkerスキーム
Oracle-Checker Scheme for Evaluating a Generative Large Language Model ( http://arxiv.org/abs/2405.03170v1 ) ライセンス: Link先を確認 | Yueling Jenny Zeng, Li-C. Wang, Thomas Ibbetson, | (参考訳) この研究は、生成的大言語モデル(LLM)によって与えられる回答を評価するための、オラクル・チェッカースキームと呼ばれる新しいアプローチを示す。
2種類のチェッカーが提示されます。
最初のタイプのチェッカーは、プロパティテストのアイデアに従っている。
第2のチェッカーは、プログラムチェックの考え方に従っている。
それらの応用は、それぞれエンティティ抽出とパラフレーズ決定という2つの異なる文脈で示される。
This work presents a novel approach called oracle-checker scheme for evaluating the answer given by a generative large language model (LLM). Two types of checkers are presented. The first type of checker follows the idea of property testing. The second type of checker follows the idea of program checking. Their applications are demonstrated in two separate contexts, entity extraction and paraphrase decision, respectively. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# グラバーミクサー量子交互演算子アンザッツの性能上界
Performance Upper Bound of the Grover-Mixer Quantum Alternating Operator Ansatz ( http://arxiv.org/abs/2405.03173v1 ) ライセンス: Link先を確認 | Ningyi Xie, Jiahua Xu, Tiejin Chen, Yoshiyuki Saito, Nobuyoshi Asai, Dongsheng Cai, | (参考訳) QAOA(Quantum Alternating Operator Ansatz)は、組合せ最適化問題の解法として設計された量子アルゴリズムの一分野である。
特定の変種であるGrover-Mixer Quantum Alternating Operator Ansatz (GM-QAOA)は、等価な目的値を共有する状態間で均一な振幅を保証する。
この性質は、アルゴリズムを問題構造から独立させ、代わりに問題内の目的値の分布に焦点を当てる。
本研究では,所与の深さを持つGM-QAOA回路から計算基底状態を測定する確率上限を証明し,これはQAOAコストの重要な要因である。
このことから、最適解をサンプリングする確率と、目的値分布に基づく最大最適化問題の近似比の上限を導出する。
数値解析により,問題の大きさ,QAOA深度,性能上界を関連づけた回帰モデルを構築した。
この結果から, GM-QAOAはサンプリング確率を2次的に向上させ, 回路深度を問題サイズとともに指数関数的に拡大して一貫した性能を維持する必要があることが示唆された。
The Quantum Alternating Operator Ansatz (QAOA) represents a branch of quantum algorithms designed for solving combinatorial optimization problems. A specific variant, the Grover-Mixer Quantum Alternating Operator Ansatz (GM-QAOA), ensures uniform amplitude across states that share equivalent objective values. This property makes the algorithm independent of the problem structure, focusing instead on the distribution of objective values within the problem. In this work, we prove the probability upper bound for measuring a computational basis state from a GM-QAOA circuit with a given depth, which is a critical factor in QAOA cost. From this, we derive the upper bounds for the probability of sampling an optimal solution and for the approximation ratio of maximum optimization problems, based on the objective value distribution. Using numerical analysis, we link the distribution to the problem size and build the regression models that relate the problem size, QAOA depth, and performance upper bound. Our results suggest that the GM-QAOA provides a quadratic enhancement in sampling probability and requires circuit depth that scales exponentially with problem size to maintain consistent performance. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# FIMP-HGA:Min-Max Weighted Matching問題への新たなアプローチ
FIMP-HGA: A Novel Approach to Addressing the Partitioning Min-Max Weighted Matching Problem ( http://arxiv.org/abs/2405.03176v1 ) ライセンス: Link先を確認 | Yuxuan Wang, Jiongzhi Zheng, Jinyao Xie, Kun He, | (参考訳) 実践的なNPハード問題であるPMMWM問題は、二部グラフの頂点を、古典的な最大度完全マッチング(MPWM)問題と、限られた大きさの非連結集合に分割するタスクを統合する。
2015年に初めて導入され、PMMWMに対処する最先端のメソッドはMP$_{\text{LS}}$である。
本稿では,PMMWM に対する高速反復マッチング分割ハイブリッド遺伝的アルゴリズム (FIMP-HGA) を提案する。
MP$_{\text{LS}}$と同様、FIMP-HGAは解をマッチとパーティションのステージに分割し、反復的に解を精製する。
マッチング段階では,漸進的な調整によってマッチング複雑性を低減し,実行効率を大幅に向上するKM-Mアルゴリズムを提案する。
分割段階では,エリート戦略を取り入れたHybrid Genetic Algorithm (HGA)を導入し,多段階局所探索(MLS)と共にGreedy Partition Crossover (GPX)演算子を設計し,人口の個人を最適化する。
人口初期化には、マルチウェイカーマーカーカルプ(KK)アルゴリズムなど、様々な手法が使われており、品質と多様性が保証されている。
各イテレーションにおいて、二部グラフは現在のソリューションに基づいて調整され、継続的な改善を目指している。
総合的な実験を行うため,既存手法と互換性のある新しいインスタンス生成手法を開発し,その結果,4つのベンチマーク群が得られた。
大規模な実験は様々なアルゴリズムモジュールを評価し、各モジュールが改善に与える影響を正確に評価する。
ベンチマークの結果,提案したFIMP-HGAはMP$_{\text{LS}}$に比べてソリューションの品質を著しく向上する一方で,ランタイムを3~20倍削減することが示された。
The Partitioning Min-Max Weighted Matching (PMMWM) problem, being a practical NP-hard problem, integrates the task of partitioning the vertices of a bipartite graph into disjoint sets of limited size with the classical Maximum-Weight Perfect Matching (MPWM) problem. Initially introduced in 2015, the state-of-the-art method for addressing PMMWM is the MP$_{\text{LS}}$. In this paper, we present a novel approach, the Fast Iterative Match-Partition Hybrid Genetic Algorithm (FIMP-HGA), for addressing PMMWM. Similar to MP$_{\text{LS}}$, FIMP-HGA divides the solving into match and partition stages, iteratively refining the solution. In the match stage, we propose the KM-M algorithm, which reduces matching complexity through incremental adjustments, significantly enhancing runtime efficiency. For the partition stage, we introduce a Hybrid Genetic Algorithm (HGA) incorporating an elite strategy and design a Greedy Partition Crossover (GPX) operator alongside a Multilevel Local Search (MLS) to optimize individuals in the population. Population initialization employs various methods, including the multi-way Karmarkar-Karp (KK) algorithm, ensuring both quality and diversity. At each iteration, the bipartite graph is adjusted based on the current solution, aiming for continuous improvement. To conduct comprehensive experiments, we develop a new instance generation method compatible with existing approaches, resulting in four benchmark groups. Extensive experiments evaluate various algorithm modules, accurately assessing each module's impact on improvement. Evaluation results on our benchmarks demonstrate that the proposed FIMP-HGA significantly enhances solution quality compared to MP$_{\text{LS}}$, meanwhile reducing runtime by 3 to 20 times. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# チャネルと空間的特徴を融合した変圧器を用いたRGB-T追跡
Transformer-based RGB-T Tracking with Channel and Spatial Feature Fusion ( http://arxiv.org/abs/2405.03177v1 ) ライセンス: Link先を確認 | Yunfeng Li, Bo Wang, Ye Li, Zhiwen Yu, Liang Wang, | (参考訳) 補完的なRGBとTIRのモダリティにより、RGB-Tトラッキングは、挑戦的なシナリオで競合的なパフォーマンスを達成することができる。
したがって、RGB-Tトラッキングの中核となる課題は、クロスモーダル機能をどう融合させるかである。
従来の手法では、RGBとTIRの機能の融合が不十分であったり、両方のモダリティからの情報を含む仲介業者に依存していたりした。
前者は、チャネルと空間的特徴融合のためにテンプレートや検索領域のRGBおよびTIR情報のみを使用する可能性を十分に活用していないが、後者はテンプレートと検索領域間の直接的な相互作用が欠如しており、両方のモダリティのオリジナルのセマンティック情報を完全に活用する能力が制限されている。
これらの制約を緩和するために,クロスモーダルチャネルと空間的特徴を直接融合させることにより,視覚変換器の性能を向上させる方法について検討し,CSTNetを提案する。
CSTNet は ViT をバックボーンとして使用し、RGB と TIR の直接通信のために、クロスモーダルチャネル機能融合モジュール (CFM) とクロスモーダル空間機能融合モジュール (SFM) を挿入する。
CFMは、RGBおよびTIR特徴の並列ジョイントチャネル拡張とジョイントマルチレベル空間特徴モデリングを行い、特徴を総和し、元の特徴と総和特徴をグローバルに統合する。
SFMは、クロスアテンションを用いて、クロスモーダル特徴の空間的関係をモデル化し、マルチモーダル特徴の共用空間およびチャネル統合のための畳み込みフィードフォワードネットワークを導入する。
総合的な実験により、CSTNetは3つの公開RGB-T追跡ベンチマークで最先端のパフォーマンスを達成した。
コードはhttps://github.com/LiYunfengLYF/CSTNetで入手できる。
Complementary RGB and TIR modalities enable RGB-T tracking to achieve competitive performance in challenging scenarios. Therefore, how to better fuse cross-modal features is the core issue of RGB-T tracking. Some previous methods either insufficiently fuse RGB and TIR features, or depend on intermediaries containing information from both modalities to achieve cross-modal information interaction. The former does not fully exploit the potential of using only RGB and TIR information of the template or search region for channel and spatial feature fusion, and the latter lacks direct interaction between the template and search area, which limits the model's ability to fully exploit the original semantic information of both modalities. To alleviate these limitations, we explore how to improve the performance of a visual Transformer by using direct fusion of cross-modal channels and spatial features, and propose CSTNet. CSTNet uses ViT as a backbone and inserts cross-modal channel feature fusion modules (CFM) and cross-modal spatial feature fusion modules (SFM) for direct interaction between RGB and TIR features. The CFM performs parallel joint channel enhancement and joint multilevel spatial feature modeling of RGB and TIR features and sums the features, and then globally integrates the sum feature with the original features. The SFM uses cross-attention to model the spatial relationship of cross-modal features and then introduces a convolutional feedforward network for joint spatial and channel integration of multimodal features. Comprehensive experiments show that CSTNet achieves state-of-the-art performance on three public RGB-T tracking benchmarks. Code is available at https://github.com/LiYunfengLYF/CSTNet. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# 異常検出のためのブラインドフーリエ継続と回帰
Braced Fourier Continuation and Regression for Anomaly Detection ( http://arxiv.org/abs/2405.03180v1 ) ライセンス: Link先を確認 | Josef Sabuda, | (参考訳) 本研究では, ブラスフーリエ継続回帰(BFCR)の概念を導入する。
BFCRは、任意の1次元データセットにおいて非線形回帰やトレンド線を見つけるための、新しく、計算的に効率的な方法である。
Braced Fourier Continuation (BFC) と BFCR のアルゴリズムが最初に概説され、続いてBFCRの特性に関する議論と、任意の1次元データセットのエッジ内およびエッジにおいて、BFCR のトレンド線を効果的に検出する方法の実証が行われた。
最後に, 異常検出にBFCRを用いた場合の潜在的な問題点と緩和技術について概説する。
すべてのソースコードとサンプルデータセットはGitHub経由で参照または利用可能であり、関連するコードはすべてPythonで書かれている。
In this work, the concept of Braced Fourier Continuation and Regression (BFCR) is introduced. BFCR is a novel and computationally efficient means of finding nonlinear regressions or trend lines in arbitrary one-dimensional data sets. The Braced Fourier Continuation (BFC) and BFCR algorithms are first outlined, followed by a discussion of the properties of BFCR as well as demonstrations of how BFCR trend lines may be used effectively for anomaly detection both within and at the edges of arbitrary one-dimensional data sets. Finally, potential issues which may arise while using BFCR for anomaly detection as well as possible mitigation techniques are outlined and discussed. All source code and example data sets are either referenced or available via GitHub, and all associated code is written entirely in Python. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# Ethereumに対するEIP-4844の影響:Consensus Security、Ethereum Usage、ロールアップトランザクションダイナミクス、Blob Gas Fee Markets
Impact of EIP-4844 on Ethereum: Consensus Security, Ethereum Usage, Rollup Transaction Dynamics, and Blob Gas Fee Markets ( http://arxiv.org/abs/2405.03183v1 ) ライセンス: Link先を確認 | Seongwan Park, Bosul Mun, Seungyun Lee, Woojin Jeong, Jaewook Lee, Hyeonsang Eom, Huisu Jang, | (参考訳) 2024年3月13日、Ethereumはデータアベイラビリティー層としての役割を強化するためにEIP-4844を実装した。
このアップグレードはロールアップのデータ投稿コストを削減しますが、伝播サイズの増加によるコンセンサス層への影響に対する懸念も高めています。
さらに、Ethereumエコシステム全体に対する広範な影響は、まだ明らかにされていない。
本稿では,EIP-4844がコンセンサスセキュリティ,Ethereum利用,ロールアップトランザクションダイナミクス,ブロブガス料金機構に与える影響を実証分析する。
同期時間の変化を探求し,ロールアップとユーザ行動の定量的評価を行い,Blobガス料金メカニズムの理解を深め,改善と今後の関心事の領域を強調した。
On March 13, 2024, Ethereum implemented EIP-4844, designed to enhance its role as a data availability layer. While this upgrade reduces data posting costs for rollups, it also raises concerns about its impact on the consensus layer due to increased propagation sizes. Moreover, the broader effects on the overall Ethereum ecosystem remain largely unexplored. In this paper, we conduct an empirical analysis of the impact of EIP-4844 on consensus security, Ethereum usage, rollup transaction dynamics, and the blob gas fee mechanism. We explore changes in synchronization times, provide quantitative assessments of rollup and user behaviors, and deepen the understanding of the blob gas fee mechanism, highlighting both enhancements and areas of concern post-upgrade. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# Kolmogorovian Censorship, Predictive Incompleteness, and the locality loophole in Bell experiment
Kolmogorovian Censorship, Predictive Incompleteness, and the locality loophole in Bell experiments ( http://arxiv.org/abs/2405.03184v1 ) ライセンス: Link先を確認 | Philippe Grangier, | (参考訳) 量子力学の基礎において、KC(Kolmogorovian Censorship)は、特定の測定コンテキストを考慮した場合、量子確率は古典的なコルモゴロヴィア確率と同一視可能であることを規定している。
すると、任意の測定コンテキストにおいて、コルモゴロヴィア確率分布、あるいは同値な隠れ変数理論を構築することは可能であるが、この分布は選択された文脈と一致する必要がある。
ループホールのないベル試験において、測定のランダムな選択(偏光子配向)は、このマッチングが、ソースと検出器の間の相対論的因果的伝達から得られることを防ぐためである。
すると、マッチング(ベルの不等式に反すると考えられる)は、ソースと検出器の間の距離における即時の影響(非局所性)によって得られるか、または実際の実験(超決定論)が起こる前に事前に確立されていると仮定することによって得られる。
距離における影響と超決定論の両方が物理的根拠で受け入れられない場合、第3の方法は「予測的不完全性」と呼ばれ、通常の量子状態 $\psi$ が不完全であることを示す。
CSM (Contexts, Systems and Modalities) と呼ばれる一般的な量子フレームワークと一致して、予測的不完全性はベルの不等式を正しく理解するための量子的方法であると主張する。
In the foundations of quantum mechanics, the Kolmogorovian Censorship (KC) stipulates that quantum probabilities can be identified with classical, Kolmogorovian probabilities when considering a specified measurement context. Then in any given measurement context it is possible to build a Kolmogorovian probability distribution, or equivalently a hidden variable theory; however this distribution must be matched to the chosen context. In a loophole-free Bell test, the remote random choices of measurements (polarizers orientations) have the purpose to prevent that this matching can be obtained from any relativistically causal transmission between the source and the detectors. Then the matching (required to violate Bell's inequalities) may be obtained either by an instantaneous influence at a distance between the source and the detectors (explicit nonlocality), or by assuming that it is pre-established before the actual experiment takes place (super-determinism). If both influence at a distance and super-determinism are not accepted on physical grounds, a third way is still available, called "predictive incompleteness": it tells that the usual quantum state $\psi$ is incomplete, as long as the measurement context has not been specified. In agreement with the general quantum framework called CSM (Contexts, Systems and Modalities) we argue that predictive incompleteness is the correct quantum way to understand the violation of Bell's inequalities. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# 一般交通データ学習者としての時空間暗黙的ニューラル表現
Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner ( http://arxiv.org/abs/2405.03185v1 ) ライセンス: Link先を確認 | Tong Nie, Guoyang Qin, Wei Ma, Jian Sun, | (参考訳) 時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
既存の方法は、低次元モデルを用いてSTTDを再構成することを目的としている。
しかし、これらはデータ固有のディメンションやソース依存パターンに制限されており、統一された表現を制限している。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
低次元レシエーションの基盤となるダイナミクスを識別するために、高周波数構造を符号化可能な座標ベースニューラルネットワークを用いて、座標をトラフィック変数に直接マッピングする。
絡み合った時空間相互作用を解き放つために、変動性は別々のプロセスに分解される。
さらに、スペクトル埋め込みを用いたセンサグラフのような不規則空間でのモデリングを可能にする。
本手法は, 連続表現により, 多様なSTTDを統一的な入力でモデル化し, 基礎となる交通力学の一般化学習者として機能する。
また、データから暗黙的に低ランクの先行と滑らかな正規化を学習でき、異なる支配的なデータパターンを学習するのに汎用性があることが示されている。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
実験結果から,我々のモデルは従来の低ランクモデルよりも優れているだけでなく,アプローチの汎用性は異なるデータ領域,出力解像度,ネットワークトポロジにまで及んでいることが示唆された。
包括的モデル解析は、STTDの帰納バイアスに関するさらなる洞察を与える。
我々は、この先駆的なモデリングの観点から、様々な現実世界のタスクにおいて、STTDの普遍的な表現の基礎となることを期待する。
Spatiotemporal Traffic Data (STTD) measures the complex dynamical behaviors of the multiscale transportation system. Existing methods aim to reconstruct STTD using low-dimensional models. However, they are limited to data-specific dimensions or source-dependent patterns, restricting them from unifying representations. Here, we present a novel paradigm to address the STTD learning problem by parameterizing STTD as an implicit neural representation. To discern the underlying dynamics in low-dimensional regimes, coordinate-based neural networks that can encode high-frequency structures are employed to directly map coordinates to traffic variables. To unravel the entangled spatial-temporal interactions, the variability is decomposed into separate processes. We further enable modeling in irregular spaces such as sensor graphs using spectral embedding. Through continuous representations, our approach enables the modeling of a variety of STTD with a unified input, thereby serving as a generalized learner of the underlying traffic dynamics. It is also shown that it can learn implicit low-rank priors and smoothness regularization from the data, making it versatile for learning different dominating data patterns. We validate its effectiveness through extensive experiments in real-world scenarios, showcasing applications from corridor to network scales. Empirical results not only indicate that our model has significant superiority over conventional low-rank models, but also highlight that the versatility of the approach extends to different data domains, output resolutions, and network topologies. Comprehensive model analyses provide further insight into the inductive bias of STTD. We anticipate that this pioneering modeling perspective could lay the foundation for universal representation of STTD in various real-world tasks. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# グラフ生成のための双曲幾何学潜在拡散モデル
Hyperbolic Geometric Latent Diffusion Model for Graph Generation ( http://arxiv.org/abs/2405.03188v1 ) ライセンス: Link先を確認 | Xingcheng Fu, Yisen Gao, Yuecen Wei, Qingyun Sun, Hao Peng, Jianxin Li, Xianxian Li, | (参考訳) 拡散モデルはコンピュータビジョンに多大な貢献をしており、最近、グラフ生成への応用に関するコミュニティの関心が高まっている。
既存の離散グラフ拡散モデルは、計算複雑性の増大と訓練効率の低下を示す。
好ましく自然な方法は、グラフを潜在空間内で直接拡散させることである。
しかし、グラフの非ユークリッド構造は潜在空間において等方的ではないため、既存の潜在拡散モデルはグラフの位相情報を捕捉し保存することを効果的に困難にしている。
以上の課題に対処するために,幾何学的に潜伏する新しい拡散フレームワークHypDiffを提案する。
具体的には、まず、双曲幾何学に基づく解釈可能性測度を持つ幾何学的潜在空間を確立し、グラフの異方性潜在拡散過程を定義する。
そこで我々は, 放射状および角状両方の幾何学的性質に制約された幾何学的潜在拡散過程を提案し, 生成グラフにおける原位相特性の保存を確実にする。
様々なトポロジを持つグラフ生成におけるHypDiffの優れた有効性を示した。
Diffusion models have made significant contributions to computer vision, sparking a growing interest in the community recently regarding the application of them to graph generation. Existing discrete graph diffusion models exhibit heightened computational complexity and diminished training efficiency. A preferable and natural way is to directly diffuse the graph within the latent space. However, due to the non-Euclidean structure of graphs is not isotropic in the latent space, the existing latent diffusion models effectively make it difficult to capture and preserve the topological information of graphs. To address the above challenges, we propose a novel geometrically latent diffusion framework HypDiff. Specifically, we first establish a geometrically latent space with interpretability measures based on hyperbolic geometry, to define anisotropic latent diffusion processes for graphs. Then, we propose a geometrically latent diffusion process that is constrained by both radial and angular geometric properties, thereby ensuring the preservation of the original topological properties in the generative graphs. Extensive experimental results demonstrate the superior effectiveness of HypDiff for graph generation with various topologies. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# パラフレーズ検索のためのデュアルエンコーダ視覚言語モデルの適用
Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval ( http://arxiv.org/abs/2405.03190v1 ) ライセンス: Link先を確認 | Jiacheng Cheng, Hijung Valentina Shin, Nuno Vasconcelos, Bryan Russell, Fabian Caba Heilbron, | (参考訳) 近年,デュアルエンコーダ・ビジョン言語モデル (\eg CLIP) は,テキスト・画像検索性能が著しく向上している。
しかし、これらのモデルは通常、一対のパラフレーズクエリに対して非常に異なる検索結果をもたらす。
このような振る舞いは、検索システムを予測しにくくし、ユーザのフラストレーションにつながる可能性がある。
そこで本研究では,一対のパラフレーズクエリを考慮し,モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト・画像検索の課題について考察する。
まず,このタスクの定量的評価を容易にするために,言い換えられた画像記述のデータセットを収集する。
次に、既存の二重エンコーダモデルの望ましくない振る舞いは、画像と文のペアに基づいて訓練され、パラフレーズクエリ間のセマンティックな類似性を捉える能力に欠けるテキストタワーによるものであると仮定する。
そこで本研究では,大規模なテキストコーパス上で事前学習した言語モデルから始まる,デュアルエンコーダモデルのトレーニング戦略について検討する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、同様のゼロショット分類と検索精度を維持しつつ、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
In the recent years, the dual-encoder vision-language models (\eg CLIP) have achieved remarkable text-to-image retrieval performance. However, we discover that these models usually results in very different retrievals for a pair of paraphrased queries. Such behavior might render the retrieval system less predictable and lead to user frustration. In this work, we consider the task of paraphrased text-to-image retrieval where a model aims to return similar results given a pair of paraphrased queries. To start with, we collect a dataset of paraphrased image descriptions to facilitate quantitative evaluation for this task. We then hypothesize that the undesired behavior of existing dual-encoder model is due to their text towers which are trained on image-sentence pairs and lack the ability to capture the semantic similarity between paraphrased queries. To improve on this, we investigate multiple strategies for training a dual-encoder model starting from a language model pretrained on a large text corpus. Compared to public dual-encoder models such as CLIP and OpenCLIP, the model trained with our best adaptation strategy achieves a significantly higher ranking similarity for paraphrased queries while maintaining similar zero-shot classification and retrieval accuracy. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# QuadraNet V2: 二次適応型高次ニューラルネットワークの効率的かつ持続的な訓練
QuadraNet V2: Efficient and Sustainable Training of High-Order Neural Networks with Quadratic Adaptation ( http://arxiv.org/abs/2405.03192v1 ) ライセンス: Link先を確認 | Chenhui Xu, Xinyao Wang, Fuxun Yu, JInjun Xiong, Xiang Chen, | (参考訳) 機械学習は、大規模なデータセットで事前トレーニングを必要とする高次のモデルへと進化している。
従来のモデルは、事前訓練された重量を持つにもかかわらず、これらの重量の効果的な移動と初期化を妨げるアーキテクチャ上の違いのために、時代遅れになっている。
これらの課題に対処するために,2次ニューラルネットワークを活用して効率的で持続可能な高次学習モデルを構築する,新しいフレームワークであるQuadraNet V2を導入する。
本手法は、標準ニューラルネットワークを用いて二次ニューロンの一次項を初期化し、二次項を用いて非線形性やシフトの学習を適応的に強化する。
事前訓練された一次項と高度なモデリング能力を持つ二次項の統合により、高次ネットワークの情報特徴づけ能力が著しく向上する。
既存のトレーニング済み重量を利用することで、QuadraNet V2は、スクラッチからのトレーニングと比較して、トレーニングに必要なGPU時間を90\%から98.4\%削減し、効率と有効性を実証する。
Machine learning is evolving towards high-order models that necessitate pre-training on extensive datasets, a process associated with significant overheads. Traditional models, despite having pre-trained weights, are becoming obsolete due to architectural differences that obstruct the effective transfer and initialization of these weights. To address these challenges, we introduce a novel framework, QuadraNet V2, which leverages quadratic neural networks to create efficient and sustainable high-order learning models. Our method initializes the primary term of the quadratic neuron using a standard neural network, while the quadratic term is employed to adaptively enhance the learning of data non-linearity or shifts. This integration of pre-trained primary terms with quadratic terms, which possess advanced modeling capabilities, significantly augments the information characterization capacity of the high-order network. By utilizing existing pre-trained weights, QuadraNet V2 reduces the required GPU hours for training by 90\% to 98.4\% compared to training from scratch, demonstrating both efficiency and effectiveness. | 翻訳日:2024-05-07 14:45:09 公開日:2024-05-06 |
# 特徴混合とメタラーニングによる相互伝達性向上のための周波数探索
Exploring Frequencies via Feature Mixing and Meta-Learning for Improving Adversarial Transferability ( http://arxiv.org/abs/2405.03193v1 ) ライセンス: Link先を確認 | Juanjuan Weng, Zhiming Luo, Shaozi Li, | (参考訳) 近年の研究では、Deep Neural Networks (DNN) は敵対的攻撃を受けやすいことが示されており、周波数領域分析により、モデル予測に影響を与える高周波成分の重要性が示されている。
逆に、低周波成分を標的にすることで、ブラックボックスモデルの攻撃伝達性を高めることができる。
本研究では,これらの周波数特性を利用した周波数分解型特徴混合法を提案する。
本研究は, 敵のサンプルから抽出した敵の成分にクリーンな試料の特徴を組み込むことにより, 正常に訓練されたモデルに対する攻撃がより効果的であることを示すとともに, 敵のサンプルから分解した低周波部分から抽出した敵の成分とクリーンな特徴を組み合わせることにより, 防御モデルに対するより良い結果が得られることを示唆している。
しかし、この2つの混合アプローチを同時に使用すると、競合問題が発生する。
この問題に対処するため,メタトレインステップ,メタテストステップ,最終更新を含むクロス周波数メタ最適化手法を提案する。
メタトレインのステップでは、敵のサンプルの低周波成分を活用し、防御モデルに対する攻撃の伝達可能性を高める。
一方,メタテストでは,対向サンプルを用いて勾配を安定させ,通常訓練されたモデルに対する攻撃の伝達性を高める。
最終更新では,メタトレインとメタテストの両方の段階から得られた勾配に基づいて,逆向きのサンプルを更新する。
提案手法は、ImageNet-Compatible データセットの広範囲な実験により評価され、通常訓練されたCNNと防衛モデルの両方に対する攻撃の伝達性を向上させる効果が確認された。
ソースコードはhttps://github.com/WJLL/MetaSSAで入手できる。
Recent studies have shown that Deep Neural Networks (DNNs) are susceptible to adversarial attacks, with frequency-domain analysis underscoring the significance of high-frequency components in influencing model predictions. Conversely, targeting low-frequency components has been effective in enhancing attack transferability on black-box models. In this study, we introduce a frequency decomposition-based feature mixing method to exploit these frequency characteristics in both clean and adversarial samples. Our findings suggest that incorporating features of clean samples into adversarial features extracted from adversarial examples is more effective in attacking normally-trained models, while combining clean features with the adversarial features extracted from low-frequency parts decomposed from the adversarial samples yields better results in attacking defense models. However, a conflict issue arises when these two mixing approaches are employed simultaneously. To tackle the issue, we propose a cross-frequency meta-optimization approach comprising the meta-train step, meta-test step, and final update. In the meta-train step, we leverage the low-frequency components of adversarial samples to boost the transferability of attacks against defense models. Meanwhile, in the meta-test step, we utilize adversarial samples to stabilize gradients, thereby enhancing the attack's transferability against normally trained models. For the final update, we update the adversarial sample based on the gradients obtained from both meta-train and meta-test steps. Our proposed method is evaluated through extensive experiments on the ImageNet-Compatible dataset, affirming its effectiveness in improving the transferability of attacks on both normally-trained CNNs and defense models. The source code is available at https://github.com/WJJLL/MetaSSA. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# CityLLaVA: 都市シナリオにおけるVLMの効率的なファインチューニング
CityLLaVA: Efficient Fine-Tuning for VLMs in City Scenario ( http://arxiv.org/abs/2405.03194v1 ) ライセンス: Link先を確認 | Zhizhao Duan, Hao Cheng, Duo Xu, Xi Wu, Xiangxie Zhang, Xi Ye, Zhen Xie, | (参考訳) 都市環境の広大かつダイナミックな状況において、交通安全記述・分析は、保険検査から事故防止に至るまで、アプリケーションにおいて重要な役割を担っている。
本稿では,都市シナリオ用に設計されたビジュアル言語モデル(VLM)のための新しい微調整フレームワークであるCityLLaVAを紹介する。
CityLLaVA は,(1) 最適視覚データ前処理のためのバウンディングボックス,(2) 訓練および試験段階におけるビデオベストビュー選択と視覚的プロンプトエンジニアリング,(2) 簡潔な質問応答シーケンスの構築,および命令の理解を洗練するためのテキストプロンプトの設計,(3) 大規模VLM へのブロック拡張の効率向上,(4) 独自のシーケンシャル質問に基づく予測拡張による予測精度の向上により,モデル理解と予測精度を向上する。
トップレベル性能を示すベンチマークスコア33.4308を達成し,リーダボード上でのリードポジションを確保した。
https://github.com/alibaba/AICITY2024_Track2_AliOpenTrek_CityLLaVA
In the vast and dynamic landscape of urban settings, Traffic Safety Description and Analysis plays a pivotal role in applications ranging from insurance inspection to accident prevention. This paper introduces CityLLaVA, a novel fine-tuning framework for Visual Language Models (VLMs) designed for urban scenarios. CityLLaVA enhances model comprehension and prediction accuracy through (1) employing bounding boxes for optimal visual data preprocessing, including video best-view selection and visual prompt engineering during both training and testing phases; (2) constructing concise Question-Answer sequences and designing textual prompts to refine instruction comprehension; (3) implementing block expansion to fine-tune large VLMs efficiently; and (4) advancing prediction accuracy via a unique sequential questioning-based prediction augmentation. Demonstrating top-tier performance, our method achieved a benchmark score of 33.4308, securing the leading position on the leaderboard. The code can be found: https://github.com/alibaba/AICITY2024_Track2_AliOpenTrek_CityLLaVA | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# StyleSeg V2:最適化不要登録誤り認識による脳組織のロバストワンショット分割に向けて
StyleSeg V2: Towards Robust One-shot Segmentation of Brain Tissue via Optimization-free Registration Error Perception ( http://arxiv.org/abs/2405.03197v1 ) ライセンス: Link先を確認 | Zhiwei Wang, Xiaoyu Zeng, Chongwei Wu, Jinxin lv, Xu Zhang, Wei Fang, Qiang Li, | (参考訳) 脳組織の1ショットのセグメンテーションでは、トレーニング登録セグメンテーション(reg-seg)二重モデルが反復的に必要となる。
しかし、不完全なreg-モデルがイメージマスクの異常を誘発し、セグ-モデルに毒を盛る。
最近のStyleSegは、ラベルのないイメージを歪んだatlasのコピーに置き換えることで、このボトルネックを回避しているが、スタイル変換を通じてさまざまなイメージパターンを借用する必要がある。
ここでは、StyleSegから継承されたStyleSeg V2を提示するが、登録エラーを認識する能力を認めた。
その動機は、良好な登録がミラー化された画像に対してミラー化された方法で振る舞うことである。
したがって、StyleSeg V2 は入力を単純にミラーリング(対称的に脳を反転させる)することで、reg-model 自体が正しく一致しない領域を "speak out" でき、登録エラーは元の入力とミラーされた入力の出力の対称的な矛盾である。
このため、StyleSeg V2は、セグモデルを未ラベル画像の正しく整列された領域の使用を可能にし、また、登録誤差に応じて局所変換強度を重み付けすることで、スタイル変換されたアトラス画像の忠実度を高める。
3つの公開データセットの実験結果から、提案したStyleSeg V2は、他の最先端技術よりもかなり優れており、平均Diceを2.4%以上増やすことでStyleSegを上回っていることが示された。
One-shot segmentation of brain tissue requires training registration-segmentation (reg-seg) dual-model iteratively, where reg-model aims to provide pseudo masks of unlabeled images for seg-model by warping a carefully-labeled atlas. However, the imperfect reg-model induces image-mask misalignment, poisoning the seg-model subsequently. Recent StyleSeg bypasses this bottleneck by replacing the unlabeled images with their warped copies of atlas, but needs to borrow the diverse image patterns via style transformation. Here, we present StyleSeg V2, inherited from StyleSeg but granted the ability of perceiving the registration errors. The motivation is that good registration behaves in a mirrored fashion for mirrored images. Therefore, almost at no cost, StyleSeg V2 can have reg-model itself "speak out" incorrectly-aligned regions by simply mirroring (symmetrically flipping the brain) its input, and the registration errors are symmetric inconsistencies between the outputs of original and mirrored inputs. Consequently, StyleSeg V2 allows the seg-model to make use of correctly-aligned regions of unlabeled images and also enhances the fidelity of style-transformed warped atlas image by weighting the local transformation strength according to registration errors. The experimental results on three public datasets demonstrate that our proposed StyleSeg V2 outperforms other state-of-the-arts by considerable margins, and exceeds StyleSeg by increasing the average Dice by at least 2.4%. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# 分布摂動解析による安定性評価
Stability Evaluation via Distributional Perturbation Analysis ( http://arxiv.org/abs/2405.03198v1 ) ライセンス: Link先を確認 | Jose Blanchet, Peng Cui, Jiajin Li, Jiashuo Liu, | (参考訳) 学習モデルの性能は、サンプル外の環境にデプロイすると劣化することが多い。
信頼性の高い配置を実現するため,分布摂動に基づく安定性評価基準を提案する。
概念的には、我々の安定性評価基準は、リスク評価の所定の劣化を誘発するために観測データセットに必要となる最小の摂動として定義される。
本稿では、この摂動を定量化するために、最適輸送(OT)の差分をtextit{(sample, density)空間上のモーメント制約で利用する。
したがって、我々の安定性評価基準は、現実のシナリオにおいて最も一般的な2種類の分散シフトである \emph{data corruptions} と \emph{sub-population shifts} の両方に対処できる。
さらに実用的利益を達成するために,様々な損失関数のクラスに合わせて,一連のトラクタブル凸定式化と計算手法を提案する。
これを実現するための重要な技術ツールは、この論文で提供される強い双対性定理である。
実証実験により,現実のアプリケーションにまたがる安定性評価基準の実用性を検証する。
これらの実証的研究は、異なる学習モデルと特徴の安定性を比較するだけでなく、モデルをさらに改善するための貴重なガイドラインと戦略を提供するための基準の能力を示している。
The performance of learning models often deteriorates when deployed in out-of-sample environments. To ensure reliable deployment, we propose a stability evaluation criterion based on distributional perturbations. Conceptually, our stability evaluation criterion is defined as the minimal perturbation required on our observed dataset to induce a prescribed deterioration in risk evaluation. In this paper, we utilize the optimal transport (OT) discrepancy with moment constraints on the \textit{(sample, density)} space to quantify this perturbation. Therefore, our stability evaluation criterion can address both \emph{data corruptions} and \emph{sub-population shifts} -- the two most common types of distribution shifts in real-world scenarios. To further realize practical benefits, we present a series of tractable convex formulations and computational methods tailored to different classes of loss functions. The key technical tool to achieve this is the strong duality theorem provided in this paper. Empirically, we validate the practical utility of our stability evaluation criterion across a host of real-world applications. These empirical studies showcase the criterion's ability not only to compare the stability of different learning models and features but also to provide valuable guidelines and strategies to further improve models. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# 長期連続予測のための粗大化戦略によるMLPの強化
Boosting MLPs with a Coarsening Strategy for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2405.03199v1 ) ライセンス: Link先を確認 | Nannan Bian, Minhong Zhu, Li Chen, Weiran Cai, | (参考訳) ディープラーニング手法は,長期連続予測においてその強みを発揮してきた。
しかし、表現力と計算効率のバランスをとるのに苦労することが多い。
本稿では,線形計算複雑性を維持しつつ,MLPの予測能力を効率的に向上する新しいアーキテクチャであるCoarsened Perceptron Network (CP-Net)を提案する。
これは、2段階の畳み込みに基づくサンプリングブロックを利用するバックボーンとして粗い戦略を利用する。
純粋に畳み込みに基づいて、MLP層のグローバルポイントワイド投影において比較的不十分な短期意味パターンと文脈パターンを抽出する機能を提供する。
アーキテクチャの単純さとランタイムの低さから, CP-NetがSOTA法に比べて4.1%向上したことを示す7つの時系列予測ベンチマーク実験を行った。
さらに、ルックバックウィンドウが拡大するにつれて、露出した情報の有効利用と一貫した改善が示される。
Deep learning methods have been exerting their strengths in long-term time series forecasting. However, they often struggle to strike a balance between expressive power and computational efficiency. Here, we propose the Coarsened Perceptron Network (CP-Net), a novel architecture that efficiently enhances the predictive capability of MLPs while maintains a linear computational complexity. It utilizes a coarsening strategy as the backbone that leverages two-stage convolution-based sampling blocks. Based purely on convolution, they provide the functionality of extracting short-term semantic and contextual patterns, which is relatively deficient in the global point-wise projection of the MLP layer. With the architectural simplicity and low runtime, our experiments on seven time series forecasting benchmarks demonstrate that CP-Net achieves an improvement of 4.1% compared to the SOTA method. The model further shows effective utilization of the exposed information with a consistent improvement as the look-back window expands. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# マイクロ圧縮認識のための階層的空間時間アテンション
Hierarchical Space-Time Attention for Micro-Expression Recognition ( http://arxiv.org/abs/2405.03202v1 ) ライセンス: Link先を確認 | Haihong Hao, Shuo Wang, Huixia Ben, Yanbin Hao, Yansong Wang, Weiwei Wang, | (参考訳) Micro-Expression Recognition (MER) は、マイクロ・エプレッション(ME)ビデオクリップから顔の動きの短さと微妙さを認識し、実際の感情を明らかにすることを目的としている。
最近のMER法は、主にMEビデオクリップからの特別なフレームを利用するか、これらの特別なフレームから光の流れを抽出するのみである。
しかし、彼らは動きと時空の関係を無視し、顔の手がかりはこれらの関係の中に隠されている。
この問題を解決するために,階層的時空間注意(Hierarchical Space-Time Attention, HSTA)を提案する。
具体的には、まず、ケースド・ユニモーダル・スペース・タイム・アテンション(USTA)によって、MEビデオフレームと特別なフレームまたはデータを並列に処理し、微妙な顔の動きと特定の顔領域との接続を確立する。
次に、クロスモーダルデータに対する高品質な融合を実現するために、CSTA(Crossmodal Space-Time Attention)を設計する。
最後に,USTAとCSTAを階層的に統合し,より深い顔の手がかりを把握した。
本モデルでは,特殊データの処理を無視することなく時間的モデリングを重要視し,それぞれの独自性を保ちながら,異なるモードでコンテンツを融合する。
4つのベンチマークの大規模な実験により,提案したHSTAの有効性が示された。
具体的には、CASME3データセットの最新手法と比較して、7カテゴリ分類で約3%のスコア改善を実現している。
Micro-expression recognition (MER) aims to recognize the short and subtle facial movements from the Micro-expression (ME) video clips, which reveal real emotions. Recent MER methods mostly only utilize special frames from ME video clips or extract optical flow from these special frames. However, they neglect the relationship between movements and space-time, while facial cues are hidden within these relationships. To solve this issue, we propose the Hierarchical Space-Time Attention (HSTA). Specifically, we first process ME video frames and special frames or data parallelly by our cascaded Unimodal Space-Time Attention (USTA) to establish connections between subtle facial movements and specific facial areas. Then, we design Crossmodal Space-Time Attention (CSTA) to achieve a higher-quality fusion for crossmodal data. Finally, we hierarchically integrate USTA and CSTA to grasp the deeper facial cues. Our model emphasizes temporal modeling without neglecting the processing of special data, and it fuses the contents in different modalities while maintaining their respective uniqueness. Extensive experiments on the four benchmarks show the effectiveness of our proposed HSTA. Specifically, compared with the latest method on the CASME3 dataset, it achieves about 3% score improvement in seven-category classification. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# アンコール回答:GPT-2の多項目質問における位置バイアスの強調
Anchored Answers: Unravelling Positional Bias in GPT-2's Multiple-Choice Questions ( http://arxiv.org/abs/2405.03205v1 ) ライセンス: Link先を確認 | Ruizhe Li, Yanjun Gao, | (参考訳) GPT-4やLLaMAファミリーのような大規模言語モデル(LLM)は、マルチチョイス質問(MCQ)を含む様々なタスクでかなりの成功を収めている。
しかしながら、これらのモデルは位置バイアスを示し、特にGPT-2ファミリーではより悪いアンカーバイアスを示し、推論中にMCQで最初に選択する「A」を常に好んでいる。
このバイアスは、GCT-2の意思決定プロセスの完全性に挑戦し、MCQにおける選択の内容ではなく、その位置に基づいて性能を損なう。
本研究では,このバイアスの原因となるGPT-2モデルの内部モジュールを同定するために,機械的解釈可能性アプローチを利用する。
本稿では,マルチ層パーセプトロン(MLP)層とアテンションヘッドに着目し,そのバイアスに寄与する特定の値ベクトルを"logit Lens"法を用いて追跡・修正する。
これらのベクトルをMLP内で更新し、注意パターンを調整して第1選択「A」の好みを中和することにより、アンカーバイアスを効果的に軽減する。
我々の介入はバイアスを補正するだけでなく、様々なデータセットにわたるGPT-2ファミリーの全体的なMCQ予測精度を向上させる。
この研究は、GMT-2モデルにおけるMCQのアンカードバイアスを包括的に解析し、MCQにおけるGPT2モデルのロバスト性と精度を大幅に向上させる最小限の介入戦略を導入した。
私たちのコードはhttps://github.com/ruizheliUOA/Anchored_Bias_GPT2で利用可能です。
Large Language Models (LLMs), such as the GPT-4 and LLaMA families, have demonstrated considerable success across diverse tasks, including multiple-choice questions (MCQs). However, these models exhibit a positional bias, particularly an even worse anchored bias in the GPT-2 family, where they consistently favour the first choice 'A' in MCQs during inference. This anchored bias challenges the integrity of GPT-2's decision-making process, as it skews performance based on the position rather than the content of the choices in MCQs. In this study, we utilise the mechanistic interpretability approach to identify the internal modules within GPT-2 models responsible for this bias. We focus on the Multi-Layer Perceptron (MLP) layers and attention heads, using the "logit lens" method to trace and modify the specific value vectors that contribute to the bias. By updating these vectors within MLP and recalibrating attention patterns to neutralise the preference for the first choice 'A', we effectively mitigate the anchored bias. Our interventions not only correct the bias but also improve the overall MCQ prediction accuracy for the GPT-2 family across various datasets. This work represents the first comprehensive mechanistic analysis of anchored bias in MCQs within the GPT-2 models, introducing targeted, minimal-intervention strategies that significantly enhance GPT2 model robustness and accuracy in MCQs. Our code is available at https://github.com/ruizheliUOA/Anchored_Bias_GPT2. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# ベトナムのAIによるテキスト検出
Vietnamese AI Generated Text Detection ( http://arxiv.org/abs/2405.03206v1 ) ライセンス: Link先を確認 | Quang-Dan Tran, Van-Quan Nguyen, Quang-Huy Pham, K. B. Thang Nguyen, Trong-Hop Do, | (参考訳) 近年,Large Language Models (LLMs) が私たちの日常生活に統合され,タスクの完了に有用なアシスタントとして機能している。
ユーザによって広く受け入れられているLLMの悪用は、特に様々な目的のためにテキストコンテンツを生成する際に必然的であり、LLMが生成したテキストと人間によって書かれたテキストとを区別することが困難である。
本研究では、ベトナム語エッセイの6.800サンプルと、人間によって書かれた3.400サンプルと、LLMによって生成された残りの3.400サンプルからなるViDetectというデータセットを、AIによって生成されたテキストを検出する目的で提示する。
ViT5, BartPho, PhoBERT, mDeberta V3, mBERTなどの最先端手法を用いて評価を行った。
これらの結果は、AIが生成するテキストの検出に関する研究の活発化に寄与するだけでなく、ベトナム語の文脈における異なる手法の適応性と有効性も示している。
この研究は、AIによるテキスト検出の今後の進歩の基礎を定め、自然言語処理分野の研究者に貴重な洞察を提供する。
In recent years, Large Language Models (LLMs) have become integrated into our daily lives, serving as invaluable assistants in completing tasks. Widely embraced by users, the abuse of LLMs is inevitable, particularly in using them to generate text content for various purposes, leading to difficulties in distinguishing between text generated by LLMs and that written by humans. In this study, we present a dataset named ViDetect, comprising 6.800 samples of Vietnamese essay, with 3.400 samples authored by humans and the remainder generated by LLMs, serving the purpose of detecting text generated by AI. We conducted evaluations using state-of-the-art methods, including ViT5, BartPho, PhoBERT, mDeberta V3, and mBERT. These results contribute not only to the growing body of research on detecting text generated by AI but also demonstrate the adaptability and effectiveness of different methods in the Vietnamese language context. This research lays the foundation for future advancements in AI-generated text detection and provides valuable insights for researchers in the field of natural language processing. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# 言語モデルへの哲学的導入 -その2:その方向-
A Philosophical Introduction to Language Models - Part II: The Way Forward ( http://arxiv.org/abs/2405.03207v1 ) ライセンス: Link先を確認 | Raphaël Millière, Cameron Buckner, | (参考訳) 本稿では,2つのコンパニオンピースの2番目として,大言語モデル(LLM)の最近の進歩によって提起された新しい哲学的問題について考察する。
我々は特に,LLMの内部表現と計算の性質に関する因果介入手法の証拠を検証し,解釈可能性に関する問題に焦点をあてる。
また,LLMのマルチモーダル拡張やモジュール拡張がもたらす意味や,そのようなシステムが意識の最小限の基準を満たすかどうか,LLM研究における機密性や再現性に関する懸念についても論じる。
最後に、LLMのようなシステムが人間の認知のモデル化に関係しているかどうか、アーキテクチャ特性や学習シナリオが適切に制約されているかどうかを論じる。
In this paper, the second of two companion pieces, we explore novel philosophical questions raised by recent progress in large language models (LLMs) that go beyond the classical debates covered in the first part. We focus particularly on issues related to interpretability, examining evidence from causal intervention methods about the nature of LLMs' internal representations and computations. We also discuss the implications of multimodal and modular extensions of LLMs, recent debates about whether such systems may meet minimal criteria for consciousness, and concerns about secrecy and reproducibility in LLM research. Finally, we discuss whether LLM-like systems may be relevant to modeling aspects of human cognition, if their architectural characteristics and learning scenario are adequately constrained. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# PCG:プリフェッチによる競合ベースのキャッシュサイドチャネル攻撃の軽減
PCG: Mitigating Conflict-based Cache Side-channel Attacks with Prefetching ( http://arxiv.org/abs/2405.03217v1 ) ライセンス: Link先を確認 | Fang Jiang, Fei Tong, Hongyu Wang, Xiaoyu Cheng, Zhe Zhou, Ming Ling, Yuxing Mao, | (参考訳) コンフリクトベースのキャッシュサイドチャネル攻撃を防御するために、異なるセキュリティドメイン間のコンフリクトの防止や、そのようなコンフリクトの場所の曖昧化を目的として、キャッシュパーティショニングまたはリマッピング技術が提案された。
しかし、このような技術はキャッシュ設計を複雑にし、パフォーマンス上の重大なペナルティをもたらす可能性がある。
そのため、攻撃者の観察を混乱させるため、ノイズを導入するための軽量なプリフェッチ方式が提案されている。
しかし、攻撃者は依然として被害者のキャッシュアクセスを確実に区別できるため、ノイズの導入のみにプリフェッチに頼ることは不十分であると実験的に検証した。
本稿ではPCGと呼ばれる新しいプリフェッチ方式を提案する。
被害者関係のキャッシュ占有率の変更を追加し、被害者関連のキャッシュ占有率の変更を減らすことで、騒々しいキャッシュアクセスパターンを生成して攻撃者を妨害する。
さらに、PCGは独立して動作するか、一般的に使用されるプリフェッチのほとんどとシームレスに統合できる。
我々は、gem5とオープンソースのRISC-VコアBOOMv3の両方でPCGを実装し、評価した。
評価の結果,PCGのセキュリティは既存のソリューションよりも優れているが,性能は著しく低下しないことがわかった。
SPEC CPU 2017ベンチマークスイートに基づく評価によると、PCGは平均パフォーマンスが1.64%向上したことも示している。
さらに、ハードウェアリソース消費の1.26%のオーバーヘッドしか発生しない。
To defend against conflict-based cache side-channel attacks, cache partitioning or remapping techniques were proposed to prevent set conflicts between different security domains or obfuscate the locations of such conflicts. But such techniques complicate cache design and may result in significant performance penalties. Therefore, there have been lightweight prefetching-based schemes proposed to introduce noise to confuse attackers' observation. However, we have validated experimentally that relying on prefetching to only introduce noise is insufficient, as attackers can still reliably distinguish the victim's cache accesses. This paper proposes a novel prefetching-based scheme, called PCG. It combines adding victim-irrelevant cache occupancy changes and reducing victim-relevant cache occupancy changes to disrupt attackers by generating noisy and indistinguishable cache access patterns. Additionally, PCG can either work independently or seamlessly be integrated with most of the commonly used prefetchers. We have implemented and evaluated PCG in both gem5 and the open-source RISC-V core BOOMv3. The evaluation results show the PCG's robust security superior to the existing solutions, while without resulting in significant performance degradation. According to the evaluation based on the SPEC CPU 2017 benchmark suite, PCG even shows an average performance improvement of about 1.64%. Moreover, it incurs only 1.26% overhead on hardware resource consumption. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# エレベータ、エスカレーター、その他?慣性航法システムを用いた歩行者コンベヤ状態の分類
Elevator, Escalator or Neither? Classifying Pedestrian Conveyor State Using Inertial Navigation System ( http://arxiv.org/abs/2405.03218v1 ) ライセンス: Link先を確認 | Tianlang He, Zhiqiu Xia, S. -H. Gary Chan, | (参考訳) 歩行者を「エスカレーター」と「エスカレーター」の3つのコンベア状態の1つに分類することは、屋内のローカライゼーションや人フロー分析といった多くの応用に不可欠である。
携帯電話から採取した加速度計,ジャイロスコープ,磁力計の慣性航法システム(INS)の読みから,初めて歩行者コンベア状態を推定した。
コンベア状態のINS信号は予測不能な任意の人間の行動によって結合・摂動され、決定過程を混乱させるため、この問題は困難である。
歩行者がエレベーターやエスカレーターにいるかどうかを分類するための,新しい,効果的で軽量なINSベースのディープラーニング手法であるELESONを提案する。
ELESONは、この特徴空間における人間の作用からコンベア状態を分離する運動特徴抽出器と、エレベータとエスカレーターの速度差を考慮に入れた磁気特徴抽出器とを用いる。
抽出器の結果から、歩行者状態の信頼度を推定するために明らかな状態分類器を用いる。
20時間にわたる実歩行者データを用いた大規模な実験の結果、ELESONは、コンベア状態と人的行動の両方のINS信号が同時に処理される)、F1スコアの15%の分類改善、AUROC(Area Under the Receiver Operating Characteristics)の10%増加による信頼性識別性の向上、スマートフォンにおける計算およびメモリ要件の低下など、最先端のアプローチを著しく上回ることを示した。
Classifying a pedestrian in one of the three conveyor states of "elevator," "escalator" and "neither" is fundamental to many applications such as indoor localization and people flow analysis. We estimate, for the first time, the pedestrian conveyor state given the inertial navigation system (INS) readings of accelerometer, gyroscope and magnetometer sampled from the phone. Our problem is challenging because the INS signals of the conveyor state are coupled and perturbed by unpredictable arbitrary human actions, confusing the decision process. We propose ELESON, a novel, effective and lightweight INS-based deep learning approach to classify whether a pedestrian is in an elevator, escalator or neither. ELESON utilizes a motion feature extractor to decouple the conveyor state from human action in the feature space, and a magnetic feature extractor to account for the speed difference between elevator and escalator. Given the results of the extractors, it employs an evidential state classifier to estimate the confidence of the pedestrian states. Based on extensive experiments conducted on twenty hours of real pedestrian data, we demonstrate that ELESON outperforms significantly the state-of-the-art approaches (where combined INS signals of both the conveyor state and human actions are processed together), with 15% classification improvement in F1 score, stronger confidence discriminability with 10% increase in AUROC (Area Under the Receiver Operating Characteristics), and low computational and memory requirements on smartphones. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# 相互作用伝達のための空間的および表面的対応場
Spatial and Surface Correspondence Field for Interaction Transfer ( http://arxiv.org/abs/2405.03221v1 ) ライセンス: Link先を確認 | Zeyu Huang, Honghao Xu, Haibin Huang, Chongyang Ma, Hui Huang, Ruizhen Hu, | (参考訳) 本稿では,インタラクション伝達のための新しい手法を提案する。
ソースオブジェクトとエージェントの例として,同一カテゴリ内のエージェントと対象オブジェクトの表面的および空間的関係を自動推論し,より正確かつ有効な転送を行う。
具体的には,空間表現と表面表現を組み合わせた例間相互作用を特徴付ける。
物体を変形・回転した符号付き距離場として表現する学習空間および表面対応場を用いて,対象対象空間の表現に関連するエージェント点とオブジェクト点を対応付ける。
対応点を用いて、空間的および表面的相互作用表現と追加正規化の制約の下で最適化を行う。
人・椅子・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・
In this paper, we introduce a new method for the task of interaction transfer. Given an example interaction between a source object and an agent, our method can automatically infer both surface and spatial relationships for the agent and target objects within the same category, yielding more accurate and valid transfers. Specifically, our method characterizes the example interaction using a combined spatial and surface representation. We correspond the agent points and object points related to the representation to the target object space using a learned spatial and surface correspondence field, which represents objects as deformed and rotated signed distance fields. With the corresponded points, an optimization is performed under the constraints of our spatial and surface interaction representation and additional regularization. Experiments conducted on human-chair and hand-mug interaction transfer tasks show that our approach can handle larger geometry and topology variations between source and target shapes, significantly outperforming state-of-the-art methods. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# Webデザインにおける感性工学的アプローチ:交通Webサイトを事例として
The Kansei Engineering Approach in Web Design:Case of Transportation Website ( http://arxiv.org/abs/2405.03223v1 ) ライセンス: Link先を確認 | Alisher Akram, Aray Kozhamuratova, Pakizar Shamoi, | (参考訳) Kansei Engineering(KE)は、ユーザエクスペリエンスの感情的な側面を強調する、ユーザ中心のデザインアプローチである。
本稿では、貨物所有者と交通機関の接続に焦点をあてた輸送会社におけるKEの統合について考察する。
本手法は, 設計プロセスと企業の戦略の整合性, 感性単語の収集と意味的スケーリング, 実験および統計分析によるWebサイト設計の評価を含む。
最初は、Webサイト機能について学ぶために、ユースケース図とエンティティ関係図を使って、彼らの戦略的目標を理解するために、同社とコラボレーションしました。
その後のステップは、会社のビジョンに反する感性語を収集することであった。
調査では、比較対象の交通機関のウェブサイトサンプルをX被験者で評価した。
参加者は5点SD尺度を用いて感情フィードバックに基づくサンプルの配置を依頼した。
主成分分析(PCA)を用いて,デザインに対するユーザの認識に影響を及ぼす重要な要因を同定した。
これらの結果に基づき,設計者と共同でWebサイトを再構築し,寛政の原則と整合したデザインを確実にした。
その結果、サイトのユーザエクスペリエンスを向上させるために、ユーザ中心のWebデザインが実現した。
本研究は,交通業界におけるユーザフレンドリーなWebインターフェース構築にKEが有効であることを示す。
Kansei Engineering (KE) is a user-centered design approach that emphasizes the emotional aspects of user experience. This paper explores the integration of KE in the case of a transportation company that focuses on connecting cargo owners with transportation providers. The methodology involves aligning the design process with the company's strategy, collecting and semantic scaling Kansei words, and evaluating website design through experimental and statistical analyses. Initially, we collaborated with the company to understand their strategic goals, using Use Case and Entity Relationship diagrams to learn about the website functionality. Subsequent steps involved collecting Kansei words that resonate with the company's vision. Website samples from comparable transportation companies were then evaluated by X subject in the survey. Participants were asked to arrange samples based on emotional feedback using a 5-point SD scale. We used Principal Component Analysis (PCA) to identify critical factors affecting users' perceptions of the design. Based on these results, we collaborated with designers to reformulate the website, ensuring the design features aligned with the Kansei principles. The outcome is a user-centric web design to enhance the site's user experience. This study shows that KE can be effective in creating more user-friendly web interfaces in the transportation industry. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# TED: 内部一般化によるモデルトレーニングの高速化
TED: Accelerate Model Training by Internal Generalization ( http://arxiv.org/abs/2405.03228v1 ) ライセンス: Link先を確認 | Jinying Xiao, Ping Li, Jie Nie, | (参考訳) 大規模言語モデルは近年,高いパフォーマンスを示しているが,トレーニングコストが高いため,データセットサイズを圧縮する効率的な方法の必要性が高まっている。
内部一般化(IG)と呼ばれる保持データに適合しながら、刈り取られたデータの性能を向上するモデルの能力を定量化することで、高い刈り取り率で過度に適合するという課題に対処するTEDプルーニングを提案する。
TEDでは、内部一般化距離(IGD)に基づく最適化目標を用いて、プルーニング前後のIGの変化を測定し、真の一般化性能と整合し、暗黙の正規化を実現する。
IGD最適化の目的は、モデルが一般化誤差の最小上限を達成するために検証された。
小型マスク変動がIGに与える影響をマスクとテイラー近似を用いて研究し、IGDの高速推定を可能にする。
連続訓練力学の解析において、IGDの事前効果が検証され、進行的刈り取り戦略が提案される。
画像分類、自然言語理解、大規模言語モデルの微調整実験により、TEDはデータの60~70倍のロスレス性能を達成した。
受け入れ次第、私たちのコードは公開されます。
Large language models have demonstrated strong performance in recent years, but the high cost of training drives the need for efficient methods to compress dataset sizes. We propose TED pruning, a method that addresses the challenge of overfitting under high pruning ratios by quantifying the model's ability to improve performance on pruned data while fitting retained data, known as Internal Generalization (IG). TED uses an optimization objective based on Internal Generalization Distance (IGD), measuring changes in IG before and after pruning to align with true generalization performance and achieve implicit regularization. The IGD optimization objective was verified to allow the model to achieve the smallest upper bound on generalization error. The impact of small mask fluctuations on IG is studied through masks and Taylor approximation, and fast estimation of IGD is enabled. In analyzing continuous training dynamics, the prior effect of IGD is validated, and a progressive pruning strategy is proposed. Experiments on image classification, natural language understanding, and large language model fine-tuning show TED achieves lossless performance with 60-70\% of the data. Upon acceptance, our code will be made publicly available. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# 時系列におけるヒューマン・イン・ザ・ループ異常検出のための信頼性の高いフレームワーク
A Reliable Framework for Human-in-the-Loop Anomaly Detection in Time Series ( http://arxiv.org/abs/2405.03234v1 ) ライセンス: Link先を確認 | Ziquan Deng, Xiwei Xuan, Kwan-Liu Ma, Zhaodan Kong, | (参考訳) 時系列異常検出は、金融、医療、産業システムなど、多くのアプリケーションにとって重要な機械学習タスクである。
しかし、ハイパフォーマンスモデルでさえバイアスのような潜在的な問題を生じさせ、信頼できない結果と不確実な自信をもたらす可能性がある。
モデル説明のテクニック、特に視覚的な説明は、意思決定のモデル属性を解明することによって、そのような問題を検出するための貴重な洞察を提供するが、多くの制限が残っている。
これらのギャップを満たすために、時系列における異常検出モデルを強化するために、人間とAIの動的かつ双方向の協調を促進するために設計された新しいフレームワークであるHILADを紹介する。
ビジュアルインターフェースを通じて、HILADはドメインの専門家に、大規模な予期せぬモデルの振る舞いを検出し、解釈し、修正する権限を与えます。
2つの時系列データセットとユーザスタディによる評価は、より深い人間の理解、即時的な修正行動、モデルの信頼性向上の促進におけるHILADの有効性を示す。
Time series anomaly detection is a critical machine learning task for numerous applications, such as finance, healthcare, and industrial systems. However, even high-performed models may exhibit potential issues such as biases, leading to unreliable outcomes and misplaced confidence. While model explanation techniques, particularly visual explanations, offer valuable insights to detect such issues by elucidating model attributions of their decision, many limitations still exist -- They are primarily instance-based and not scalable across dataset, and they provide one-directional information from the model to the human side, lacking a mechanism for users to address detected issues. To fulfill these gaps, we introduce HILAD, a novel framework designed to foster a dynamic and bidirectional collaboration between humans and AI for enhancing anomaly detection models in time series. Through our visual interface, HILAD empowers domain experts to detect, interpret, and correct unexpected model behaviors at scale. Our evaluation with two time series datasets and user studies demonstrates the effectiveness of HILAD in fostering a deeper human understanding, immediate corrective actions, and the reliability enhancement of models. | 翻訳日:2024-05-07 14:35:25 公開日:2024-05-06 |
# 脳疾患診断におけるクロスモーダルドメイン適応:最大離散性に基づく畳み込みニューラルネットワーク
Cross-Modal Domain Adaptation in Brain Disease Diagnosis: Maximum Mean Discrepancy-based Convolutional Neural Networks ( http://arxiv.org/abs/2405.03235v1 ) ライセンス: Link先を確認 | Xuran Zhu, | (参考訳) 脳障害は世界の健康にとって大きな課題であり、毎年何百万人もの死者を出している。
これらの疾患の正確な診断は、MRI(MRI)やCT(CT)などの高度な医療画像技術に大きく依存している。
しかし、注釈付きデータの不足は、医療診断のための機械学習モデルをデプロイする上で大きな課題となる。
この制限に対処するため、ディープラーニング技術はかなりの可能性を示してきた。
ドメイン適応技術は、あるドメイン(例えば、CT画像)から別のドメイン(例えば、MRI画像)に知識を移すことで、画像モダリティをまたいで一般化するモデルの能力を高める。
このようなクロスモダリティ適応は、異なる画像モダリティ間で一貫して一般化するモデルの能力を改善するために不可欠である。
本研究は,Kaggle Webサイトから関連資源を収集し,画像領域間の差異を低減するために,最大平均差法(MMD)を用いた。
MMDと畳み込みニューラルネットワーク(CNN)を組み合わせることで、モデルの精度と実用性は明らかに向上している。
優れた実験結果は、特にリソース制限環境において、診断精度と効率を向上させるために、データ駆動型ドメイン適応技術の大きな可能性を浮き彫りにした。
この研究は、異なる画像モダリティのギャップを埋めることによって、医師により信頼性の高い診断ツールを提供することを目的としている。
Brain disorders are a major challenge to global health, causing millions of deaths each year. Accurate diagnosis of these diseases relies heavily on advanced medical imaging techniques such as Magnetic Resonance Imaging (MRI) and Computed Tomography (CT). However, the scarcity of annotated data poses a significant challenge in deploying machine learning models for medical diagnosis. To address this limitation, deep learning techniques have shown considerable promise. Domain adaptation techniques enhance a model's ability to generalize across imaging modalities by transferring knowledge from one domain (e.g., CT images) to another (e.g., MRI images). Such cross-modality adaptation is essential to improve the ability of models to consistently generalize across different imaging modalities. This study collected relevant resources from the Kaggle website and employed the Maximum Mean Difference (MMD) method - a popular domain adaptation method - to reduce the differences between imaging domains. By combining MMD with Convolutional Neural Networks (CNNs), the accuracy and utility of the model is obviously enhanced. The excellent experimental results highlight the great potential of data-driven domain adaptation techniques to improve diagnostic accuracy and efficiency, especially in resource-limited environments. By bridging the gap between different imaging modalities, the study aims to provide clinicians with more reliable diagnostic tools. | 翻訳日:2024-05-07 14:25:39 公開日:2024-05-06 |
# 制約不均一性を考慮したフェデレーション強化学習
Federated Reinforcement Learning with Constraint Heterogeneity ( http://arxiv.org/abs/2405.03236v1 ) ライセンス: Link先を確認 | Hao Jin, Liangyu Zhang, Zhihua Zhang, | (参考訳) 制約不均一性を伴うフェデレーション強化学習(FedRL)問題について検討する。
本設定では,制約信号へのアクセスが制限されたN$の異なる環境にN$のトレーニングエージェントを配置し,制約信号をすべて満たしたポリシーを協調的に学習することが期待されている。
このような学習問題は、大規模言語モデル(LLM)の微調整や医療応用のシナリオでよく見られる。
そこで本研究では,従来のポリシー勾配法に基づくフェデレーション・プライマリ・デュアルポリシー最適化手法を提案する。
具体的には、ローカルなポリシー更新を行うエージェントに対して、N$ローカルなLagrange関数を導入し、それらのエージェントは、定期的にローカルなポリシーについて通信するようにスケジュールする。
自然政策勾配 (NPG) と近似政策最適化 (PPO) を政策最適化手法として用い, 主にアルゴリズムの2つの例, ie, {FedNPG} と {FedPPO} に着目した。
我々は,FedNPGが$\tilde{O}(1/\sqrt{T})$レートでグローバル収束を達成することを示す。
We study a Federated Reinforcement Learning (FedRL) problem with constraint heterogeneity. In our setting, we aim to solve a reinforcement learning problem with multiple constraints while $N$ training agents are located in $N$ different environments with limited access to the constraint signals and they are expected to collaboratively learn a policy satisfying all constraint signals. Such learning problems are prevalent in scenarios of Large Language Model (LLM) fine-tuning and healthcare applications. To solve the problem, we propose federated primal-dual policy optimization methods based on traditional policy gradient methods. Specifically, we introduce $N$ local Lagrange functions for agents to perform local policy updates, and these agents are then scheduled to periodically communicate on their local policies. Taking natural policy gradient (NPG) and proximal policy optimization (PPO) as policy optimization methods, we mainly focus on two instances of our algorithms, ie, {FedNPG} and {FedPPO}. We show that FedNPG achieves global convergence with an $\tilde{O}(1/\sqrt{T})$ rate, and FedPPO efficiently solves complicated learning tasks with the use of deep neural networks. | 翻訳日:2024-05-07 14:25:39 公開日:2024-05-06 |
# スピログラム時系列による慢性閉塞性肺疾患の検出と早期予測のための深層学習:英国のバイオバンク研究
Deep Learning for Detecting and Early Predicting Chronic Obstructive Pulmonary Disease from Spirogram Time Series: A UK Biobank Study ( http://arxiv.org/abs/2405.03239v1 ) ライセンス: Link先を確認 | Shuhao Mei, Yuxi Zhou, Jiahao Xu, Yuxuan Wan, Shan Cao, Qinghao Zhao, Shijia Geng, Junqing Xie, Shenda Hong, | (参考訳) 慢性閉塞性肺疾患(慢性閉塞性肺疾患、COPD)は、慢性の炎症性肺疾患である。
既存の検査法では, 心電図に示される明らかな特徴に基づいて, COPD を既に検出している患者のみを検出できる(本論文では, 心電図は, 特にボリュームフロー曲線時系列を計測する)。
COPDリスクの早期予測は、PD病の進行をモニターしたり、減速させたり、発症を防いだりするのに不可欠である。
しかし, これらの手法は, スピログラムの微妙な特徴に基づいて, 将来のPDの確率を早期に予測することができない。
このギャップに対処するため,我々はDeepSpiroを提案する。DeepSpiroは,将来のCOPDリスクの早期予測のためのディープラーニングに基づく手法である。
DeepSpiroは4つの部分で構成される。
まず、時間-体積不安定平滑化(SpiroSmoother)によって導かれる体積-フロー曲線を構築し、元の体積-フロー曲線の安定性を正確に向上する。
第2に、可変長キーパッチ(SpiroEncoder)の進化から重要な特徴を抽出し、元の高次元の動的シーケンスから統一低次元の時間的表現へとキーの時間的進化を捉える。
第3に, 時間的注意と不均一な特徴融合(SpiroExplainer)に基づくモデルを説明し, スピログラムや人口統計情報などの異種データからの情報を統合する。
第4に,まだ診断されていない高リスク患者(最大1, 2, 3, 4, 5年)の疾患リスクの正確な予測を可能にするキーパッチ凹凸(Spiro Predictor)の進化に基づいて,PDのリスクを予測する。
英国バイオバンクのデータセットを用いて実験を行った。
その結果,DeepSpiro は COPD 検出作業において AUC 値 0.8328 を達成することがわかった。
早期予測タスクでは, 高リスク群と低リスク群では, p-値が0.001。
Chronic Obstructive Pulmonary Disease (COPD) is a chronic inflammatory lung condition that causes airflow obstruction. The existing methods can only detect patients who already have COPD based on obvious features shown in the spirogram (In this article, the spirogram specifically involves measuring Volume-Flow curve time series). Early prediction of COPD risk is vital for monitoring COPD disease progression, slowing it down, or even preventing its onset. However, these methods fail to early predict an individual's probability of COPD in the future based on subtle features in the spirogram. To address this gap, for the first time, we propose DeepSpiro, a method based on deep learning for early prediction of future COPD risk. DeepSpiro consists of four parts. First, we construct Volume-Flow curves guided by Time-Volume instability smoothing (SpiroSmoother) to enhance the stability of the original Volume-Flow curves precisely. Second, we extract critical features from the evolution of varied-length key patches (SpiroEncoder) to capture the key temporal evolution from original high-dimensional dynamic sequences to a unified low-dimensional temporal representation. Third, we explain the model based on temporal attention and heterogeneous feature fusion (SpiroExplainer), which integrates information from heterogeneous data such as spirogram and demographic information. Fourth, we predict the risk of COPD based on the evolution of key patch concavity (SpiroPredictor), enabling accurate prediction of the risk of disease in high-risk patients who are not yet diagnosed, for up to 1, 2, 3, 4, 5 years, and beyond. We conduct experiments on the UK Biobank dataset. Results show that DeepSpiro achieves an AUC value of 0.8328 in the task of detecting COPD. In early prediction tasks, high-risk and low-risk groups show significant differences in the future, with a p-value of <0.001. | 翻訳日:2024-05-07 14:25:39 公開日:2024-05-06 |
# 合成と実のギャップを意識する:転移学習を利用して安定拡散データの境界を探索する
Mind the Gap Between Synthetic and Real: Utilizing Transfer Learning to Probe the Boundaries of Stable Diffusion Generated Data ( http://arxiv.org/abs/2405.03243v1 ) ライセンス: Link先を確認 | Leonhard Hennicke, Christian Medeiros Adriano, Holger Giese, Jan Mathias Koehler, Lukas Schott, | (参考訳) 安定拡散(Stable Diffusion)のような生成的基礎モデルは、コンピュータビジョンにおける様々な知識からなり、例えば、下流タスクのための生徒モデルのトレーニングを行うデータを生成することによって、トランスファーラーニング(transfer learning)の可能性を秘めている。
これは、ラベル付き実世界のデータを集める必要性を回避し、データフリーな知識蒸留の形式を提示する可能性がある。
しかし、結果として得られた学生モデルは、実際のデータで訓練されたモデルに比べて精度が著しく低下している。
この低下の原因について検討し、学生モデルの異なる層の役割に焦点を当てる。
実データまたは合成データを用いてこれらのレイヤをトレーニングすることにより、ドロップが主にモデルの最終的なレイヤに由来することを明らかにする。
さらに、合成と実のデータ正規化の違い、データ強化の影響、テクスチャとテクスチャの違いなど、他の要因についても簡単に検討する。
形状学習を図り、神託を仮定する。
これらの要因のいくつかは影響を受け得るが、実際のデータに対するギャップを埋めるには不十分である。
後続のレイヤがドロップの原因であるという私たちの洞察に基づいて、これらの最後のレイヤにのみ適用される実際のデータを用いて、合成的にトレーニングされたモデルを微調整する、データ効率について調査する。
この結果から,実際のトレーニングデータの量とモデルの精度とのトレードオフの改善が示唆された。
本研究は, 合成データと実データとのギャップの理解に寄与し, ラベル付き実データの不足を軽減するための解決策を示す。
Generative foundation models like Stable Diffusion comprise a diverse spectrum of knowledge in computer vision with the potential for transfer learning, e.g., via generating data to train student models for downstream tasks. This could circumvent the necessity of collecting labeled real-world data, thereby presenting a form of data-free knowledge distillation. However, the resultant student models show a significant drop in accuracy compared to models trained on real data. We investigate possible causes for this drop and focus on the role of the different layers of the student model. By training these layers using either real or synthetic data, we reveal that the drop mainly stems from the model's final layers. Further, we briefly investigate other factors, such as differences in data-normalization between synthetic and real, the impact of data augmentations, texture vs.\ shape learning, and assuming oracle prompts. While we find that some of those factors can have an impact, they are not sufficient to close the gap towards real data. Building upon our insights that mainly later layers are responsible for the drop, we investigate the data-efficiency of fine-tuning a synthetically trained model with real data applied to only those last layers. Our results suggest an improved trade-off between the amount of real training data used and the model's accuracy. Our findings contribute to the understanding of the gap between synthetic and real data and indicate solutions to mitigate the scarcity of labeled real data. | 翻訳日:2024-05-07 14:25:39 公開日:2024-05-06 |
# テンソル分解による連続学習モデルの内部表現の変化の検討
Examining Changes in Internal Representations of Continual Learning Models Through Tensor Decomposition ( http://arxiv.org/abs/2405.03244v1 ) ライセンス: Link先を確認 | Nishant Suresh Aswani, Amira Guesmi, Muhammad Abdullah Hanif, Muhammad Shafique, | (参考訳) 連続学習(CL)は、逐次学習にまたがる過去の知識の統合を目的としたいくつかの手法の開発を加速させた。
しかし、これらの手法の評価は、予測クラスの精度の変化やモデル内の表現的忘れの問題など、最終的な出力に重点を置いている。
本稿では,CLモデルのための表現に基づく新しい評価フレームワークを提案する。
このアプローチでは、連続的な学習プロセス全体から内部表現を収集し、3次元テンソルを定式化する。
テンソルは、いくつかの入力から生成される層アクティベーションや学習プロセス全体を通してモデル「スナップショット」などの表現を積み重ねることによって形成される。
テンソル成分分析 (TCA) により, 内部表現の進化に関する有意義なパターンを明らかにすることを目的として, CL戦略のメリットや欠点を明らかにすることを期待する。
我々は、異なるモデルアーキテクチャと重要度に基づく継続的学習戦略を、キュレートされたタスク選択を用いて分析する。
提案手法は,各種CL戦略の性能の相違を反映するものであるが,本手法は特定のニューロン群を直接強調せず,フィルタの進化を即座に理解するものではない。
当社のアプローチのスケールダウンバージョンは、継続的学習のダイナミクスを研究するためにTCAを使用することのメリットと落とし穴について、洞察を与えてくれると思います。
Continual learning (CL) has spurred the development of several methods aimed at consolidating previous knowledge across sequential learning. Yet, the evaluations of these methods have primarily focused on the final output, such as changes in the accuracy of predicted classes, overlooking the issue of representational forgetting within the model. In this paper, we propose a novel representation-based evaluation framework for CL models. This approach involves gathering internal representations from throughout the continual learning process and formulating three-dimensional tensors. The tensors are formed by stacking representations, such as layer activations, generated from several inputs and model `snapshots', throughout the learning process. By conducting tensor component analysis (TCA), we aim to uncover meaningful patterns about how the internal representations evolve, expecting to highlight the merits or shortcomings of examined CL strategies. We conduct our analyses across different model architectures and importance-based continual learning strategies, with a curated task selection. While the results of our approach mirror the difference in performance of various CL strategies, we found that our methodology did not directly highlight specialized clusters of neurons, nor provide an immediate understanding the evolution of filters. We believe a scaled down version of our approach will provide insight into the benefits and pitfalls of using TCA to study continual learning dynamics. | 翻訳日:2024-05-07 14:25:39 公開日:2024-05-06 |
# 動的帯域幅を考慮した適応圧縮によるコミュニケーション効率の良いフェデレーション学習
Communication-Efficient Federated Learning with Adaptive Compression under Dynamic Bandwidth ( http://arxiv.org/abs/2405.03248v1 ) ライセンス: Link先を確認 | Ying Zhuansun, Dandan Li, Xiaohong Huang, Caijun Sun, | (参考訳) フェデレーション学習は、ローカルデータをサーバに直接提供せずにモデルをトレーニングすることができる。
しかし、ローカルモデルの頻繁な更新は、通信オーバーヘッドの大きな問題を引き起こす。
近年,モデル圧縮を中心に,フェデレート学習のコミュニケーション効率が向上している。
しかし、彼らは2つの問題を無視する。
1) 各クライアントのネットワーク状態は動的に変化する。
2)クライアント間のネットワーク状態は同じではない。
帯域幅の低いクライアントは、ローカルモデルをゆっくりと更新する。
この課題に対処するために,動的帯域幅(AdapComFL)下で適応圧縮された通信効率の高いフェデレーション学習アルゴリズムを提案する。
具体的には、各クライアントは帯域幅の認識と帯域幅の予測を行う。
そして、各クライアントは、予測帯域幅に基づいて、改良されたスケッチ機構を介して、そのローカルモデルを適応的に圧縮する。
さらにサーバは、異なるサイズでスケッチされたモデルを集約する。
提案手法の有効性を検証するため,提案手法は,構築したネットワークトポロジから収集した実帯域データと,オープンリポジトリから取得したベンチマークデータセットに基づく。
本稿では,AdapComFLアルゴリズムの性能を示し,既存のアルゴリズムと比較する。
実験結果から,我々のAdapComFLは既存のアルゴリズムと比較して,より効率的な通信を実現するとともに,競争精度も向上することが示された。
Federated learning can train models without directly providing local data to the server. However, the frequent updating of the local model brings the problem of large communication overhead. Recently, scholars have achieved the communication efficiency of federated learning mainly by model compression. But they ignore two problems: 1) network state of each client changes dynamically; 2) network state among clients is not the same. The clients with poor bandwidth update local model slowly, which leads to low efficiency. To address this challenge, we propose a communication-efficient federated learning algorithm with adaptive compression under dynamic bandwidth (called AdapComFL). Concretely, each client performs bandwidth awareness and bandwidth prediction. Then, each client adaptively compresses its local model via the improved sketch mechanism based on his predicted bandwidth. Further, the server aggregates sketched models with different sizes received. To verify the effectiveness of the proposed method, the experiments are based on real bandwidth data which are collected from the network topology we build, and benchmark datasets which are obtained from open repositories. We show the performance of AdapComFL algorithm, and compare it with existing algorithms. The experimental results show that our AdapComFL achieves more efficient communication as well as competitive accuracy compared to existing algorithms. | 翻訳日:2024-05-07 14:25:38 公開日:2024-05-06 |
# モビリティ選択に影響を与える認知バイアスを測定するための調査
A survey to measure cognitive biases influencing mobility choices ( http://arxiv.org/abs/2405.03250v1 ) ライセンス: Link先を確認 | Carole Adam, | (参考訳) 本稿では,4つの移動モード(車,バス,自転車,歩行)の知覚と6つのモード選択要因に対するユーザの嗜好について述べる。
この調査は2023年に650の回答を集め、公開データとして公開された。
本研究では,これらの結果を分析し,ハロバイアス,選択支持バイアス,反応の3つの認知バイアスがモビリティ決定に与える影響を明らかにする。
これらの認知バイアスは、ソフトモビリティを志向する都市政策にもかかわらず、人口が個々の車に留まる傾向にある観察行動のもっともらしい説明として提案されている。
このモデルは仮想都市におけるモビリティ決定のシミュレーターの基盤として機能し、収集されたデータは現実的な属性でこの人口を初期化するのに使うことができる。
プレイヤーが都市をより持続可能なものにするための計画的な選択に直面している都市マネジャーの役割を担うシミュレーションベースの真剣なゲームの設計が進行中である。
In this paper, we describe a survey about the perceptions of 4 mobility modes (car, bus, bicycle, walking) and the preferences of users for 6 modal choice factors. This survey has gathered 650 answers in 2023, that are published as open data. In this study, we analyse these results to highlight the influence of 3 cognitive biases on mobility decisions: halo bias, choice-supportive bias, and reactance. These cognitive biases are proposed as plausible explanations of the observed behaviour, where the population tends to stick to individual cars despite urban policies aiming at favouring soft mobility. This model can serve as the basis for a simulator of mobility decisions in a virtual town, and the gathered data can be used to initialise this population with realistic attributes. Work is ongoing to design a simulation-based serious game where the player takes the role of an urban manager faced with planning choices to make their city more sustainable. | 翻訳日:2024-05-07 14:25:38 公開日:2024-05-06 |
# Softmaxのフロンティアを探る: 予測可能な最適化、拡散モデルへの応用
Exploring the Frontiers of Softmax: Provable Optimization, Applications in Diffusion Model, and Beyond ( http://arxiv.org/abs/2405.03251v1 ) ライセンス: Link先を確認 | Jiuxiang Gu, Chenyang Li, Yingyu Liang, Zhenmei Shi, Zhao Song, | (参考訳) ソフトマックスアクティベーション関数は,大規模言語モデル(LLM)の成功,特に広く採用されているTransformerアーキテクチャの自己保持機構において重要な役割を果たす。
しかし、ソフトマックスの有効性に寄与する基礎となる学習力学はほとんど未解明のままである。
本稿では,2層型ソフトマックスニューラルネットワークの最適化と一般化特性に関する理論的研究を行い,ReLUや指数関数といった他のアクティベーション関数よりも優れた性能に関する理論的知見を提供する。
ニューラルタンジェントカーネル (NTK) を用いた解析により, ソフトマックス関数の正規化効果が誘導されたNTK行列の摂動特性に寄与し, ロスランドスケープの凸部が良好であることがわかった。
これにより、ソフトマックスニューラルネットワークはオーバーパラメトリゼーション方式でターゲット関数を学習することができる。
提案手法を拡散モデルにおけるスコア推定関数の学習タスクに適用し,その有効性を示す。
解析により、勾配に基づくアルゴリズムは、証明可能な精度でスコア関数を学習できることを示す。
我々の研究は、ソフトマックスニューラルネットワークの有効性と様々な領域におけるその可能性についてより深く理解し、自然言語処理などにおけるさらなる進歩の道を開いた。
The softmax activation function plays a crucial role in the success of large language models (LLMs), particularly in the self-attention mechanism of the widely adopted Transformer architecture. However, the underlying learning dynamics that contribute to the effectiveness of softmax remain largely unexplored. As a step towards better understanding, this paper provides a theoretical study of the optimization and generalization properties of two-layer softmax neural networks, providing theoretical insights into their superior performance as other activation functions, such as ReLU and exponential. Leveraging the Neural Tangent Kernel (NTK) framework, our analysis reveals that the normalization effect of the softmax function leads to a good perturbation property of the induced NTK matrix, resulting in a good convex region of the loss landscape. Consequently, softmax neural networks can learn the target function in the over-parametrization regime. To demonstrate the broad applicability of our theoretical findings, we apply them to the task of learning score estimation functions in diffusion models, a promising approach for generative modeling. Our analysis shows that gradient-based algorithms can learn the score function with a provable accuracy. Our work provides a deeper understanding of the effectiveness of softmax neural networks and their potential in various domains, paving the way for further advancements in natural language processing and beyond. | 翻訳日:2024-05-07 14:25:38 公開日:2024-05-06 |
# 自己監督型学習による多モード時空間予測
Multi-Modality Spatio-Temporal Forecasting via Self-Supervised Learning ( http://arxiv.org/abs/2405.03255v1 ) ライセンス: Link先を確認 | Jiewen Deng, Renhe Jiang, Jiaqi Zhang, Xuan Song, | (参考訳) マルチモダリティ時空間データ(Multi-modality Spatio-temporal、MST)は、様々な交通需要と空気質の評価を含む監視システムで広く使われている複数のモダリティを組み込むことにより、時空間データを拡張する。
近年STモデリングの進歩は著しいが、様々なモダリティからの情報を活用することを強調する必要がある。
MoSTのロバストな予測はもっと難しい
一)高次元かつ複雑な内部構造及び
(II)時間的・空間的・モダリティの変動による動的不均一性
本研究では,動的不均一性を定量化しつつ,時間的・空間的・モダリティ的な視点から潜在パターンを明らかにすることを目的とした,自己監督学習による新しいMoST学習フレームワークであるMoSSLを提案する。
2つの実世界のMOSTデータセットによる実験結果は、最先端のベースラインと比較して、我々のアプローチの優位性を検証する。
モデルの実装はhttps://github.com/beginner-sketch/MoSSLで確認できる。
Multi-modality spatio-temporal (MoST) data extends spatio-temporal (ST) data by incorporating multiple modalities, which is prevalent in monitoring systems, encompassing diverse traffic demands and air quality assessments. Despite significant strides in ST modeling in recent years, there remains a need to emphasize harnessing the potential of information from different modalities. Robust MoST forecasting is more challenging because it possesses (i) high-dimensional and complex internal structures and (ii) dynamic heterogeneity caused by temporal, spatial, and modality variations. In this study, we propose a novel MoST learning framework via Self-Supervised Learning, namely MoSSL, which aims to uncover latent patterns from temporal, spatial, and modality perspectives while quantifying dynamic heterogeneity. Experiment results on two real-world MoST datasets verify the superiority of our approach compared with the state-of-the-art baselines. Model implementation is available at https://github.com/beginner-sketch/MoSSL. | 翻訳日:2024-05-07 14:25:38 公開日:2024-05-06 |
# MARE:要求工学のためのマルチエージェントコラボレーションフレームワーク
MARE: Multi-Agents Collaboration Framework for Requirements Engineering ( http://arxiv.org/abs/2405.03256v1 ) ライセンス: Link先を確認 | Dongming Jin, Zhi Jin, Xiaohong Chen, Chunhui Wang, | (参考訳) 要件工学(RE)は、ステークホルダーのニーズから要求仕様を生成するソフトウェア開発プロセスにおいて重要なフェーズである。
近年,いくつかのREタスクにおいてディープラーニング技術が成功している。
しかし、高品質な要求仕様を得るには、複数のタスクと役割をまたいで協調する必要があります。
本稿では,大規模な言語モデル(LLM)間の協調をREプロセス全体を通して活用する,MAREと呼ばれる革新的なフレームワークを提案する。
MAREはREプロセスを4つのタスクに分割する。
それぞれのタスクは1つまたは2つの特定のエージェントによって実行され、各エージェントはいくつかのアクションを実行することができる。
MAREには5つのエージェントと9つのアクションがある。
エージェント間のコラボレーションを容易にするため、MAREはエージェントが生成した中間要件のアーティファクトをアップロードし、必要な情報を取得するためのワークスペースを設計した。
この研究によって作成された5つのパブリックケース、1つのデータセット、4つの新しいケースで実験を行います。
生成した要求モデルに対して,3つの広く使用されている指標を用いて,MAREを3つの基準線と比較した。
実験の結果、MAREはより正確な要求モデルを生成し、最先端のアプローチを15.4%上回る結果となった。
生成された要求仕様について、3つの側面で人的評価を行い、品質に関する洞察を提供する。
Requirements Engineering (RE) is a critical phase in the software development process that generates requirements specifications from stakeholders' needs. Recently, deep learning techniques have been successful in several RE tasks. However, obtaining high-quality requirements specifications requires collaboration across multiple tasks and roles. In this paper, we propose an innovative framework called MARE, which leverages collaboration among large language models (LLMs) throughout the entire RE process. MARE divides the RE process into four tasks: elicitation, modeling, verification, and specification. Each task is conducted by engaging one or two specific agents and each agent can conduct several actions. MARE has five agents and nine actions. To facilitate collaboration between agents, MARE has designed a workspace for agents to upload their generated intermediate requirements artifacts and obtain the information they need. We conduct experiments on five public cases, one dataset, and four new cases created by this work. We compared MARE with three baselines using three widely used metrics for the generated requirements models. Experimental results show that MARE can generate more correct requirements models and outperform the state-of-the-art approaches by 15.4%. For the generated requirements specifications, we conduct a human evaluation in three aspects and provide insights about the quality | 翻訳日:2024-05-07 14:25:38 公開日:2024-05-06 |
# 高次元多部絡みを特徴付ける非線形規準
A nonlinear criterion for characterizing high-dimensional multipartite entanglement ( http://arxiv.org/abs/2405.03261v1 ) ライセンス: Link先を確認 | Shuheng Liu, Qiongyi He, Marcus Huber, Giuseppe Vitagliano, | (参考訳) 潜在的に高次元多部量子系の絡み合いを理解することは、量子科学の様々な分野において不可欠である。
我々は、共分散行列に基づく手法から着想を得て、混合量子状態の次元ベクトルの境界を低くすることができる非線形基準を導出し、量子状態における多粒子性のレベルとエンタングルメントの次元性の両方を明らかにする。
この手法は、線形プログラミングによってチェックできる与えられた絡み合い次元ベクトルを持つ全ての量子状態が満たさなければならない不等式のシステムに基づいている。
我々は不完全グリーンベルガー=ホルン=ゼーリンガー状態(GHZ)状態のような高次元多粒子交絡状態のパラダイムクラスで条件を検証し、他の利用可能な基準と比較すると、我々の手法は大きな利点をもたらし、特に個々の粒子の次元が互いに異なる場合において強化される。
Understanding entanglement of potentially high-dimensional multipartite quantum systems is crucial across different disciplines in quantum sciences. We take inspiration from covariance matrix based techniques to derive a nonlinear criterion that can be used to lower bound the dimensionality vector of mixed quantum states, revealing both the level of multipartiteness and the dimensionality of the entanglement in the quantum states. The technique is based on a system of inequalities that has to be satisfied by all quantum states with a given entanglement dimensionality vector, which can be checked via linear programming. We test our condition on paradigmatic classes of high-dimensional multipartite entangled states like imperfect Greenberger-Horne-Zeilinger (GHZ) states and find that, in comparison with other available criteria our method provides a significant advantage, which is enhanced especially in the case that the dimensions of the individual particles are different from each other. | 翻訳日:2024-05-07 14:25:38 公開日:2024-05-06 |
# 部分的測定能力を有するカリキュラムのエンドツーエンド強化学習
End-to-End Reinforcement Learning of Curative Curtailment with Partial Measurement Availability ( http://arxiv.org/abs/2405.03262v1 ) ライセンス: Link先を確認 | Hinrikus Wolf, Luis Böttcher, Sarra Bouchkati, Philipp Lutat, Jens Breitung, Bastian Jung, Tina Möllemann, Viktor Todosijević, Jan Schiefelbein-Lach, Oliver Pohl, Andreas Ulbig, Martin Grohe, | (参考訳) エネルギー移行の過程では、発電と消費の拡大が変化し、PVシステム、電気自動車、ヒートポンプなど多くの技術が、特に配電網において電力の流れに影響を与える。
各グリッド接続に対して決定を下すことのできるスケーラブルなメソッドは、分散グリッドにおける混雑のないグリッド操作を可能にするために必要である。
本稿では,配電系統の混雑解消のための新しいエンドツーエンドアプローチを提案する。
我々のアーキテクチャは、電力を削減し、非混雑かつ実現可能なグリッド状態を決定するために適切なリアクティブパワーを設定することを学びます。
最適電力フロー(OPF)のような最先端の手法では、グリッド内の全てのバスの詳細な測定と計算コストが要求される。
対照的に,提案手法は,グリッド内で観測可能なバス数台で,スパース情報に基づく決定を可能にする。
配電網は、一般にはまだ完全にデジタル化されておらず、観測可能であるため、この方法は低電圧グリッドの大部分の意思決定に使用できる。
実際の低電圧グリッドでは、この手法は電圧帯の100 %の違反と98.8 %の資産過負荷を解消する。
その結果, 渋滞のないグリッド操作に十分な品質を確保するために, 実際のグリッド上で決定を下すことが可能であることが示唆された。
In the course of the energy transition, the expansion of generation and consumption will change, and many of these technologies, such as PV systems, electric cars and heat pumps, will influence the power flow, especially in the distribution grids. Scalable methods that can make decisions for each grid connection are needed to enable congestion-free grid operation in the distribution grids. This paper presents a novel end-to-end approach to resolving congestion in distribution grids with deep reinforcement learning. Our architecture learns to curtail power and set appropriate reactive power to determine a non-congested and, thus, feasible grid state. State-of-the-art methods such as the optimal power flow (OPF) demand high computational costs and detailed measurements of every bus in a grid. In contrast, the presented method enables decisions under sparse information with just some buses observable in the grid. Distribution grids are generally not yet fully digitized and observable, so this method can be used for decision-making on the majority of low-voltage grids. On a real low-voltage grid the approach resolves 100\% of violations in the voltage band and 98.8\% of asset overloads. The results show that decisions can also be made on real grids that guarantee sufficient quality for congestion-free grid operation. | 翻訳日:2024-05-07 14:25:38 公開日:2024-05-06 |
# WorldQA: 長鎖推論によるビデオにおけるマルチモーダルな世界知識
WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning ( http://arxiv.org/abs/2405.03272v1 ) ライセンス: Link先を確認 | Yuanhan Zhang, Kaichen Zhang, Bo Li, Fanyi Pu, Christopher Arif Setiadharma, Jingkang Yang, Ziwei Liu, | (参考訳) マルチモーダル情報は、私たちの知識とともに、複雑で動的な世界を理解するのに役立ちます。
しかし、LMM(Large Language Model)やLMM(Large Multimodal Model)は、この能力のエミュレートに苦慮している。
本稿では,(1)マルチモーダル入力:1007組の質問応答対と303組の動画からなるマルチモーダル世界モデルのバウンダリを押し上げるために設計された映像理解データセットWorldQAを提案する。
2)世界知識: 質問の定式化に欠かせない5つの世界知識を同定する。
このアプローチでは、モデルが単に知覚を超えた能力を拡張することを課題にしている。
(3)Long-Chain Reasoning: 我々のデータセットは、他のビデオQAデータセットを上回る平均4.45の推論ステップを導入しています。
さらに、専門家の知識をコヒーレントな推論チェーンに合成し、WorldQAクエリに対する正確な応答を容易にするために設計されたエージェントであるWorldRetrieverを紹介する。
13の卓越したLLMとLMMの大規模な評価により、WorldRetrieverは最も効果的なモデルであるが、複数の質問において人間レベルのパフォーマンスの70%しか達成していないことが判明した。
この発見は、モデルの推論と理解能力のさらなる進歩の必要性を浮き彫りにしている。
私たちの実験は、いくつかの重要な洞察ももたらします。
例えば、人間がフレームの増加でパフォーマンスが向上する一方で、WorldRetrieverを含む現在のLMMでは、同様の条件下でのパフォーマンスが低下している。
我々は、WorldQA、私たちの方法論、そしてこれらの洞察が、将来のマルチモーダルワールドモデルの発展に寄与することを期待している。
Multimodal information, together with our knowledge, help us to understand the complex and dynamic world. Large language models (LLM) and large multimodal models (LMM), however, still struggle to emulate this capability. In this paper, we present WorldQA, a video understanding dataset designed to push the boundaries of multimodal world models with three appealing properties: (1) Multimodal Inputs: The dataset comprises 1007 question-answer pairs and 303 videos, necessitating the analysis of both auditory and visual data for successful interpretation. (2) World Knowledge: We identify five essential types of world knowledge for question formulation. This approach challenges models to extend their capabilities beyond mere perception. (3) Long-Chain Reasoning: Our dataset introduces an average reasoning step of 4.45, notably surpassing other videoQA datasets. Furthermore, we introduce WorldRetriever, an agent designed to synthesize expert knowledge into a coherent reasoning chain, thereby facilitating accurate responses to WorldQA queries. Extensive evaluations of 13 prominent LLMs and LMMs reveal that WorldRetriever, although being the most effective model, achieved only 70% of humanlevel performance in multiple-choice questions. This finding highlights the necessity for further advancement in the reasoning and comprehension abilities of models. Our experiments also yield several key insights. For instance, while humans tend to perform better with increased frames, current LMMs, including WorldRetriever, show diminished performance under similar conditions. We hope that WorldQA,our methodology, and these insights could contribute to the future development of multimodal world models. | 翻訳日:2024-05-07 14:25:38 公開日:2024-05-06 |
# 検索型連続プロンプト学習によるLLMの生涯知識編集
Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning ( http://arxiv.org/abs/2405.03279v1 ) ライセンス: Link先を確認 | Qizhou Chen, Taolin Zhang, Dongyang Li, Longtao Huang, Hui Xue, Chengyu Wang, Xiaofeng He, | (参考訳) モデル編集は、大規模言語モデル(LLM)における古い知識や誤った知識を、コストのかかる再トレーニングを必要とせずに修正することを目的としている。
LLMの継続的な編集要件を満たす最も難しいタスクは、生涯モデル編集である。
それにもかかわらず、これらの手法は破滅的な知識の忘れとモデル性能の劣化により、生涯にわたる編集シナリオでは不足している。
検索に基づく手法はこれらの問題を緩和するが、検索した知識をモデルに組み込むのが遅くて面倒なプロセスによって妨げられる。
本研究では,RetriEval-augmented ContInuous Prompt lEarning法であるRECIPEを導入し,生涯学習における編集効率と推論効率を向上させる。
RECIPEはまず、知識文をLLMの入力クエリを埋め込んだ短い情報的連続的なプロンプトに変換し、知識に基づく応答を効率的に洗練する。
さらに、動的しきい値を計算する仲介役として機能する知識センタネル(KS)を統合し、検索リポジトリに関連する知識が含まれているかどうかを判断する。
我々のレトリバーとプロンプトエンコーダは、編集特性、すなわち信頼性、一般性、局所性を達成するために共同で訓練されている。
我々の実験では、RECIPEは複数のLCMにまたがって広範囲に評価され、編集性能が向上する。
RECIPEはまた、高速な編集と推論速度を示すとともに、LLMの全体的な性能を維持する能力を示している。
Model editing aims to correct outdated or erroneous knowledge in large language models (LLMs) without the need for costly retraining. Lifelong model editing is the most challenging task that caters to the continuous editing requirements of LLMs. Prior works primarily focus on single or batch editing; nevertheless, these methods fall short in lifelong editing scenarios due to catastrophic knowledge forgetting and the degradation of model performance. Although retrieval-based methods alleviate these issues, they are impeded by slow and cumbersome processes of integrating the retrieved knowledge into the model. In this work, we introduce RECIPE, a RetriEval-augmented ContInuous Prompt lEarning method, to boost editing efficacy and inference efficiency in lifelong learning. RECIPE first converts knowledge statements into short and informative continuous prompts, prefixed to the LLM's input query embedding, to efficiently refine the response grounded on the knowledge. It further integrates the Knowledge Sentinel (KS) that acts as an intermediary to calculate a dynamic threshold, determining whether the retrieval repository contains relevant knowledge. Our retriever and prompt encoder are jointly trained to achieve editing properties, i.e., reliability, generality, and locality. In our experiments, RECIPE is assessed extensively across multiple LLMs and editing datasets, where it achieves superior editing performance. RECIPE also demonstrates its capability to maintain the overall performance of LLMs alongside showcasing fast editing and inference speed. | 翻訳日:2024-05-07 14:25:38 公開日:2024-05-06 |
# スロー脳活動による動的自然視の非結合的再構築
Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity ( http://arxiv.org/abs/2405.03280v1 ) ライセンス: Link先を確認 | Yizhuo Lu, Changde Du, Chong Wang, Xuanliu Zhu, Liuyun Jiang, Huiguang He, | (参考訳) 脳活動から人間のダイナミックビジョンを再構築することは、科学的に重要な課題である。
1) 脳の視覚処理機構は高度に複雑であり、完全には明らかになっていないため、fMRIとビデオのマッピングを直接学習することは困難である; 2)fMRIの時間分解能は自然ビデオよりも著しく低い。
本稿では,3つの公開データセット上での最先端性能を実現する2段階モデルであるMind-Animatorを提案する。
具体的には、fMRIからfMRIまでの段階において、意味、構造、運動の特徴をfMRIから、fMRIの3モーダル・コントラスト学習と疎因性注意(sparse causal attention)を通じて分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)によってビデオにマージされる。
我々は、再構成されたビデオ力学は、置換試験によって生成モデルの幻覚ではなく、fMRIから導出されるものであることを裏付ける。
さらに, Voxel-wise と ROI-wise important map の可視化により, 本モデルの神経生物学的解釈可能性を確認した。
Reconstructing human dynamic vision from brain activity is a challenging task with great scientific significance. The difficulty stems from two primary issues: (1) vision-processing mechanisms in the brain are highly intricate and not fully revealed, making it challenging to directly learn a mapping between fMRI and video; (2) the temporal resolution of fMRI is significantly lower than that of natural videos. To overcome these issues, this paper propose a two-stage model named Mind-Animator, which achieves state-of-the-art performance on three public datasets. Specifically, during the fMRI-to-feature stage, we decouple semantic, structural, and motion features from fMRI through fMRI-vision-language tri-modal contrastive learning and sparse causal attention. In the feature-to-video stage, these features are merged to videos by an inflated Stable Diffusion. We substantiate that the reconstructed video dynamics are indeed derived from fMRI, rather than hallucinations of the generative model, through permutation tests. Additionally, the visualization of voxel-wise and ROI-wise importance maps confirms the neurobiological interpretability of our model. | 翻訳日:2024-05-07 14:25:38 公開日:2024-05-06 |
# 宇宙ベイズ推論高速化のための深層学習と遺伝的アルゴリズム
Deep Learning and genetic algorithms for cosmological Bayesian inference speed-up ( http://arxiv.org/abs/2405.03293v1 ) ライセンス: Link先を確認 | Isidro Gómez-Vargas, J. Alberto Vázquez, | (参考訳) 本稿では,ネストサンプリングアルゴリズムに着目し,ベイズ推論を高速化する新しい手法を提案する。
ベイズ推定は、観測データから理論的な洞察を抽出する堅牢な枠組みを提供する宇宙的パラメータ推定において重要な役割を果たす。
しかし、その計算要求は、おもに多数の可能性関数評価を必要とするため、かなり大きい。
提案手法は,ベイズ推論過程における確率関数を動的に近似するために,フィードフォワードニューラルネットワークを用いてディープラーニングのパワーを利用する。
従来の手法とは異なり,本手法では,事前トレーニングを必要とせず,現在のライブポイントをトレーニングデータとしてニューラルネットワークをオンザフライでトレーニングする。
この柔軟性は、様々な理論モデルやデータセットへの適応を可能にする。
遺伝的アルゴリズムを用いて簡単なハイパーパラメータ最適化を行い,各確率関数を学習するためのニューラルネットワークアーキテクチャを提案する。
十分な精度が得られたら、ニューラルネットワークは元の可能性関数を置き換える。
この実装はネストサンプリングアルゴリズムと統合され、単純な宇宙学のダークエネルギーモデルと多様な観測データセットの両方を用いて徹底的に評価されている。
さらに、ネストサンプリング推論における初期生存点生成のための遺伝的アルゴリズムの可能性について検討し、ベイズ推論手法の効率性と有効性を高めるための新たな道を開く。
In this paper, we present a novel approach to accelerate the Bayesian inference process, focusing specifically on the nested sampling algorithms. Bayesian inference plays a crucial role in cosmological parameter estimation, providing a robust framework for extracting theoretical insights from observational data. However, its computational demands can be substantial, primarily due to the need for numerous likelihood function evaluations. Our proposed method utilizes the power of deep learning, employing feedforward neural networks to approximate the likelihood function dynamically during the Bayesian inference process. Unlike traditional approaches, our method trains neural networks on-the-fly using the current set of live points as training data, without the need for pre-training. This flexibility enables adaptation to various theoretical models and datasets. We perform simple hyperparameter optimization using genetic algorithms to suggest initial neural network architectures for learning each likelihood function. Once sufficient accuracy is achieved, the neural network replaces the original likelihood function. The implementation integrates with nested sampling algorithms and has been thoroughly evaluated using both simple cosmological dark energy models and diverse observational datasets. Additionally, we explore the potential of genetic algorithms for generating initial live points within nested sampling inference, opening up new avenues for enhancing the efficiency and effectiveness of Bayesian inference methods. | 翻訳日:2024-05-07 14:15:51 公開日:2024-05-06 |
# スペクトルグラフ畳み込みのための係数分解
Coefficient Decomposition for Spectral Graph Convolution ( http://arxiv.org/abs/2405.03296v1 ) ライセンス: Link先を確認 | Feng Huang, Wen Zhang, | (参考訳) スペクトルグラフ畳み込みネットワーク(英: Spectral graph convolutional Network, SGCN)は、グラフ信号フィルタに基づくグラフニューラルネットワークの一種であり、グラフ構造化データのモデリングに魅力的な表現性を示している。
ほとんどのSGCNは多項式フィルタを採用し、トレーニングデータから係数を学習する。
それらの多くは、どの多項式基底が最適な表現力をもたらすかに焦点を当てており、モデルのアーキテクチャはほとんど議論されていない。
本稿では,多項式基底の係数を3階テンソルに格納するスペクトルグラフ畳み込みの一般形式を提案する。
そこで,既存のSGCNの畳み込みブロックは,係数テンソル上で一定の係数分解演算を行うことで導出可能であることを示す。
一般化された見解に基づき、係数テンソル上のテンソル分解CPとタッカーによる新しいスペクトルグラフ畳み込みCoDeSGC-CPと-Tuckerを開発する。
大規模な実験結果から,提案した畳み込みは良好な性能向上を実現することが示された。
Spectral graph convolutional network (SGCN) is a kind of graph neural networks (GNN) based on graph signal filters, and has shown compelling expressivity for modeling graph-structured data. Most SGCNs adopt polynomial filters and learn the coefficients from the training data. Many of them focus on which polynomial basis leads to optimal expressive power and models' architecture is little discussed. In this paper, we propose a general form in terms of spectral graph convolution, where the coefficients of polynomial basis are stored in a third-order tensor. Then, we show that the convolution block in existing SGCNs can be derived by performing a certain coefficient decomposition operation on the coefficient tensor. Based on the generalized view, we develop novel spectral graph convolutions CoDeSGC-CP and -Tucker by tensor decomposition CP and Tucker on the coefficient tensor. Extensive experimental results demonstrate that the proposed convolutions achieve favorable performance improvements. | 翻訳日:2024-05-07 14:15:51 公開日:2024-05-06 |
# 既知のマルウェア家族のオンラインクラスタリング
Online Clustering of Known and Emerging Malware Families ( http://arxiv.org/abs/2405.03298v1 ) ライセンス: Link先を確認 | Olha Jurečková, Martin Jureček, Mark Stamp, | (参考訳) 近年、マルウェア攻撃はますます頻繁で高度化している。
したがって、マルウェアの検出と分類は情報セキュリティの重要な構成要素である。
大量のマルウェアサンプルが利用可能であるため、有害な特徴に応じてマルウェアサンプルを分類することが不可欠である。
そのため、クラスタリングアルゴリズムは、マルウェアの変種を解析し、新しいマルウェアファミリーを発見するために、コンピュータセキュリティにおいてより広く使われている。
オンラインクラスタリングアルゴリズムは、マルウェアの振る舞いを理解し、新たな脅威に対する迅速な応答を生み出すのに役立ちます。
本稿では,悪意のあるサンプルをオンラインクラスタリングしてマルウェア群に分類する,新しい機械学習モデルを提案する。
ストリーミングデータは、クラスタリング決定ルールに従って、既知の新しいマルウェアファミリーと新しいマルウェアファミリーのサンプルに分割される。
ストリーミングデータは、重み付きk平均近傍分類器を用いて既知のファミリーに分類され、オンラインk平均アルゴリズムは残りのストリーミングデータをクラスタ化し、4つのクラスタで90.20%から10つのクラスタで93.34%までのクラスタの純度を達成する。
この作業は、Windowsオペレーティングシステム用のポータブル実行ファイルの静的解析に基づいている。
実験結果から,提案したオンラインクラスタリングモデルにより,マルウェア群に対応する高純度クラスタを作成できることが示唆された。
これにより、マルウェアアナリストは同様のマルウェアサンプルを受け取り、分析を高速化できる。
Malware attacks have become significantly more frequent and sophisticated in recent years. Therefore, malware detection and classification are critical components of information security. Due to the large amount of malware samples available, it is essential to categorize malware samples according to their malicious characteristics. Clustering algorithms are thus becoming more widely used in computer security to analyze the behavior of malware variants and discover new malware families. Online clustering algorithms help us to understand malware behavior and produce a quicker response to new threats. This paper introduces a novel machine learning-based model for the online clustering of malicious samples into malware families. Streaming data is divided according to the clustering decision rule into samples from known and new emerging malware families. The streaming data is classified using the weighted k-nearest neighbor classifier into known families, and the online k-means algorithm clusters the remaining streaming data and achieves a purity of clusters from 90.20% for four clusters to 93.34% for ten clusters. This work is based on static analysis of portable executable files for the Windows operating system. Experimental results indicate that the proposed online clustering model can create high-purity clusters corresponding to malware families. This allows malware analysts to receive similar malware samples, speeding up their analysis. | 翻訳日:2024-05-07 14:15:51 公開日:2024-05-06 |
# DarkFed:フェデレートラーニングにおけるデータフリーのバックドア攻撃
DarkFed: A Data-Free Backdoor Attack in Federated Learning ( http://arxiv.org/abs/2405.03299v1 ) ライセンス: Link先を確認 | Minghui Li, Wei Wan, Yuxuan Ning, Shengshan Hu, Lulu Xue, Leo Yu Zhang, Yichen Wang, | (参考訳) フェデレートラーニング(FL)は、バックドア攻撃の影響を受けやすいことが示されている。
しかし、FLバックドア攻撃に関する既存の学術研究は、主要なタスク関連データを持つ実際のクライアントの多さに依存しており、これは現実的ではない。
現実の産業シナリオの文脈では、最も単純な防御でも最先端の攻撃に対して防御するのに十分です。
現実的なFLバックドア攻撃は、まだ開発の初期段階にある。
このギャップを埋めるために、私たちはDarkFedを紹介します。
当初、我々は一連のフェイククライアントをエミュレートし、学術研究のシナリオに典型的な攻撃者の比率を達成した。
これらのエミュレートされたフェイククライアントには真のトレーニングデータがないため、バックドアFLに対するデータフリーアプローチをさらに提案する。
具体的には、シャドウデータセットを使用してバックドアを注入する可能性について検討する。
私たちの調査では、シャドウデータセットとメインタスクデータセットの間に大きなギャップがある場合でも、印象的なアタックパフォーマンスを実現することが可能であることを明らかにしています。
これは、シャドウデータセットとして意味情報を欠いた合成データを使用する場合であっても当てはまる。
続いて,良質な更新の特性を模倣した一連の隠蔽バックドア更新を最適化して戦略的に構築し,防御による検出を回避する。
かなりの量の実証的な証拠がダークフッドの具体的な効果を証明している。
Federated learning (FL) has been demonstrated to be susceptible to backdoor attacks. However, existing academic studies on FL backdoor attacks rely on a high proportion of real clients with main task-related data, which is impractical. In the context of real-world industrial scenarios, even the simplest defense suffices to defend against the state-of-the-art attack, 3DFed. A practical FL backdoor attack remains in a nascent stage of development. To bridge this gap, we present DarkFed. Initially, we emulate a series of fake clients, thereby achieving the attacker proportion typical of academic research scenarios. Given that these emulated fake clients lack genuine training data, we further propose a data-free approach to backdoor FL. Specifically, we delve into the feasibility of injecting a backdoor using a shadow dataset. Our exploration reveals that impressive attack performance can be achieved, even when there is a substantial gap between the shadow dataset and the main task dataset. This holds true even when employing synthetic data devoid of any semantic information as the shadow dataset. Subsequently, we strategically construct a series of covert backdoor updates in an optimized manner, mimicking the properties of benign updates, to evade detection by defenses. A substantial body of empirical evidence validates the tangible effectiveness of DarkFed. | 翻訳日:2024-05-07 14:15:51 公開日:2024-05-06 |
# 解釈可能なネットワーク可視化:CNNによる画像分類のポストホック説明可能性に対する人間によるアプローチ
Interpretable Network Visualizations: A Human-in-the-Loop Approach for Post-hoc Explainability of CNN-based Image Classification ( http://arxiv.org/abs/2405.03301v1 ) ライセンス: Link先を確認 | Matteo Bianchi, Antonio De Santis, Andrea Tocchetti, Marco Brambilla, | (参考訳) 画像分類における透明性と説明可能性は、機械学習モデルの信頼性を確立し、バイアスやエラーを検出するために不可欠である。
State-of-the-art explainability method は、モデルの決定過程を詳細に説明することなく、特定のクラスがどこにあるかを示すために、サリエンシマップを生成する。
このようなニーズに対処するために、畳み込みニューラルネットワークの機能抽出プロセス全体を説明するポストホック手法を導入する。
これらの説明には、モデルが入力から抽出する特徴を階層的に表現することが含まれる。
このような特徴は、クラスタリングと類似の特徴写像のマージによって生成されたサリエンシマップとして表現され、提案手法のためにGrad-CAMを一般化した重みを関連付ける。
これらの説明をさらに強化するため、ゲーミフィケーションクラウドソーシング活動を通じて収集されたテキストラベルをNLP技術とSentence-BERTを用いて処理する。
最後に,複数の画像にラベルを集約することで,グローバルな説明を生成する手法を提案する。
Transparency and explainability in image classification are essential for establishing trust in machine learning models and detecting biases and errors. State-of-the-art explainability methods generate saliency maps to show where a specific class is identified, without providing a detailed explanation of the model's decision process. Striving to address such a need, we introduce a post-hoc method that explains the entire feature extraction process of a Convolutional Neural Network. These explanations include a layer-wise representation of the features the model extracts from the input. Such features are represented as saliency maps generated by clustering and merging similar feature maps, to which we associate a weight derived by generalizing Grad-CAM for the proposed methodology. To further enhance these explanations, we include a set of textual labels collected through a gamified crowdsourcing activity and processed using NLP techniques and Sentence-BERT. Finally, we show an approach to generate global explanations by aggregating labels across multiple images. | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# 血管インターベンションの自律ナビゲーションにおける人工知能 : システムレビュー
Artificial Intelligence in the Autonomous Navigation of Endovascular Interventions: A Systematic Review ( http://arxiv.org/abs/2405.03305v1 ) ライセンス: Link先を確認 | Harry Robertshaw, Lennart Karstensen, Benjamin Jackson, Hadi Sadati, Kawal Rhode, Sebastien Ourselin, Alejandro Granados, Thomas C Booth, | (参考訳) 目的: 血管内手術における装置の自律ナビゲーションは, 手術時間の短縮, 手術中の意思決定の改善, 治療アクセスの増加とともに作業者への放射線被曝を低減できる。
この体系的なレビューは、自律的な血管内介入ナビゲーションにおける人工知能(AI)の影響、課題、および機会を評価するために、最近の文献を探求する。
メソッド:PubMedとIEEEXploreデータベースがクエリされた。
資格基準には、血管内手術におけるカテーテル/ガイドワイヤの自律ナビゲーションを可能にするAIの使用に関する研究が含まれていた。
PRISMA に続いて QUADAS-2 を用いて記事の評価を行った。
CRD42023392259。
結果: 462例中14例が内包基準を満たした。
自律ナビゲーションのためのデータ駆動モデルとして、強化学習(9/14、64%)とデモからの学習(7/14、650%)が使用された。
主に物理ファントム(10/14, 71%)とシリコ(4/14, 29%)モデルを用いている。
心臓血管内および周辺の実験は, 多数研究(10/14, 71%)で報告され, 単純非解剖学的血管プラットフォームは3つの研究(3/14, 21%)で, ブタ肝静脈系は1つの研究で使用された。
偏見のリスクと一般可能性の低さが研究全体で見出された。
いずれの研究においても, 手術は実施されなかった。
研究は患者選択基準、基準基準、再現性に欠けており、その結果、臨床証拠のレベルは低かった。
結論: 自律型血管内ナビゲーションにおけるAIの可能性は有望だが、概念実証の段階では、技術準備のレベルは3.5%である。
十分に識別されたパフォーマンス指標を持つ参照標準は、今後数年間に提案されるデータ駆動アルゴリズムの比較を可能にするために不可欠である、と強調する。
Purpose: Autonomous navigation of devices in endovascular interventions can decrease operation times, improve decision-making during surgery, and reduce operator radiation exposure while increasing access to treatment. This systematic review explores recent literature to assess the impact, challenges, and opportunities artificial intelligence (AI) has for the autonomous endovascular intervention navigation. Methods: PubMed and IEEEXplore databases were queried. Eligibility criteria included studies investigating the use of AI in enabling the autonomous navigation of catheters/guidewires in endovascular interventions. Following PRISMA, articles were assessed using QUADAS-2. PROSPERO: CRD42023392259. Results: Among 462 studies, fourteen met inclusion criteria. Reinforcement learning (9/14, 64%) and learning from demonstration (7/14, 50%) were used as data-driven models for autonomous navigation. Studies predominantly utilised physical phantoms (10/14, 71%) and in silico (4/14, 29%) models. Experiments within or around the blood vessels of the heart were reported by the majority of studies (10/14, 71%), while simple non-anatomical vessel platforms were used in three studies (3/14, 21%), and the porcine liver venous system in one study. We observed that risk of bias and poor generalisability were present across studies. No procedures were performed on patients in any of the studies reviewed. Studies lacked patient selection criteria, reference standards, and reproducibility, resulting in low clinical evidence levels. Conclusions: AI's potential in autonomous endovascular navigation is promising, but in an experimental proof-of-concept stage, with a technology readiness level of 3. We highlight that reference standards with well-identified performance metrics are crucial to allow for comparisons of data-driven algorithms proposed in the years to come. | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# Sachdev-Ye-Kitaev相互作用のための電池の量子優位性
Quantum advantage in batteries for Sachdev-Ye-Kitaev interactions ( http://arxiv.org/abs/2405.03306v1 ) ライセンス: Link先を確認 | Gianluca Francica, | (参考訳) セルが相互作用している場合、量子電池のユニタリ充電において量子アドバンテージが達成される。
ここでは、この量子優位性がスパースSachdev-Ye-Kitaev相互作用に対してどのように達成されるのかを解析計算で明らかにする。
単純なモデル化を行うことで、$q$-point rescaled sparse SYK 相互作用に対して、量子上の優位性は $\Gamma\sim N^{\frac{\alpha}{q}-\frac{1}{2}}$ となる。
A quantum advantage can be achieved in the unitary charging of quantum batteries if their cells are interacting. Here, we try to clarify with some analytical calculations whether and how this quantum advantage is achieved for sparse Sachdev-Ye-Kitaev interactions. By performing a simple modelization, we find that for $q$-point rescaled sparse SYK interactions the quantum advantage goes as $\Gamma\sim N^{\frac{\alpha}{q}-\frac{1}{2}}$, where $\alpha$ is related to the connectivity and $N$ is the number of cells. | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# 連結車両の眠気検知のためのフェデレーション学習
Federated Learning for Drowsiness Detection in Connected Vehicles ( http://arxiv.org/abs/2405.03311v1 ) ライセンス: Link先を確認 | William Lindskog, Valentin Spannagl, Christian Prehofer, | (参考訳) 運転準備の確保は課題を生じさせるが、運転監視システムは運転者の状態を判断するのに役立つ。
視覚的手がかりを観察することにより、これらのシステムは様々な行動を認識し、それらを特定の条件に関連付ける。
例えば、あくびや目まきは運転者の眠気を示すことがある。
これにより、運転監視用の分散データが大量に生成される。
ドライバーの眠気検出などの機械学習技術を採用することで、潜在的な解決策が提示される。
しかし、大規模なデータサイズとプライバシの懸念のため、モデルをトレーニングするために中央マシンにデータを送信することは現実的ではない。
逆に、1台の車両での訓練は利用可能なデータを制限し、性能が低下する可能性がある。
これらの問題に対処するために,YawDDデータセットを活用して,車両ネットワーク内での眠気検知のための連合学習フレームワークを提案する。
提案手法は99.2%の精度を達成し,従来の深層学習技術への期待と適合性を実証した。
最後に、さまざまなフェデレーションクライアントを用いてモデルがどのようにスケールするかを示す。
Ensuring driver readiness poses challenges, yet driver monitoring systems can assist in determining the driver's state. By observing visual cues, such systems recognize various behaviors and associate them with specific conditions. For instance, yawning or eye blinking can indicate driver drowsiness. Consequently, an abundance of distributed data is generated for driver monitoring. Employing machine learning techniques, such as driver drowsiness detection, presents a potential solution. However, transmitting the data to a central machine for model training is impractical due to the large data size and privacy concerns. Conversely, training on a single vehicle would limit the available data and likely result in inferior performance. To address these issues, we propose a federated learning framework for drowsiness detection within a vehicular network, leveraging the YawDD dataset. Our approach achieves an accuracy of 99.2%, demonstrating its promise and comparability to conventional deep learning techniques. Lastly, we show how our model scales using various number of federated clients | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# 拡張現実誘導手術のための深層学習に基づくポイントクラウド登録
Deep Learning-based Point Cloud Registration for Augmented Reality-guided Surgery ( http://arxiv.org/abs/2405.03314v1 ) ライセンス: Link先を確認 | Maximilian Weber, Daniel Wild, Jens Kleesiek, Jan Egger, Christina Gsaxner, | (参考訳) 点雲登録は空間変換を用いて3次元点雲を整列させる。
これはコンピュータビジョンにおいて重要なタスクであり、拡張現実(AR)や医療画像などの分野で応用されている。
この研究は、画像誘導手術へのARの統合と、ポイントクラウド登録のためのディープラーニングの利用という、2つの研究トレンドの交差点を探索する。
本研究の目的は,拡張現実誘導手術における深層学習に基づくポイントクラウド登録手法の適用可能性を評価することである。
医用画像とそれに対応する点雲から、人気のあるARデバイスであるHoloLens 2.0でキャプチャした点雲のデータセットを作成しました。
これらのデータペアを登録する際に、確立された3つのディープラーニングモデルを評価する。
ディープラーニングの手法には将来性を示すものもありますが、従来の登録パイプラインでは、難しいデータセットでは依然としてパフォーマンスが優れています。
Point cloud registration aligns 3D point clouds using spatial transformations. It is an important task in computer vision, with applications in areas such as augmented reality (AR) and medical imaging. This work explores the intersection of two research trends: the integration of AR into image-guided surgery and the use of deep learning for point cloud registration. The main objective is to evaluate the feasibility of applying deep learning-based point cloud registration methods for image-to-patient registration in augmented reality-guided surgery. We created a dataset of point clouds from medical imaging and corresponding point clouds captured with a popular AR device, the HoloLens 2. We evaluate three well-established deep learning models in registering these data pairs. While we find that some deep learning methods show promise, we show that a conventional registration pipeline still outperforms them on our challenging dataset. | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# あり得ない例
Provably Unlearnable Examples ( http://arxiv.org/abs/2405.03316v1 ) ライセンス: Link先を確認 | Derui Wang, Minhui Xue, Bo Li, Seyit Camtepe, Liming Zhu, | (参考訳) 公開データの利用は、人工知能時代のデータプライバシと知的財産権侵害(IP)に関する懸念をエスカレートさせた。
データプライバシとIP関連のドメイン知識の両方を保護する戦略として、未許可のモデルにおいて、共有データを学習不能にレンダリングする取り組みが行われている。
既存の方法は、入力と対応するラベルの相関を乱すことを期待して、データに経験的に最適化された摂動を適用し、データサンプルを非学習可能な例(UE)に変換する。
それでも、UEが未知の未承認モデルに対してどれほど堅牢かを検証するメカニズムが存在しないことや、列車時のテクニックがいくつかの問題を引き起こしている。
まず、経験的に最適化された摂動は、クロスモデル一般化の問題に悩まされる可能性がある。
第2に、UEはデータ強化や対向訓練といった列車時のテクニックによって緩和することができる。
さらに、簡単なリカバリ攻撃により、学習した重みをわずかに摂動させることで、UEで訓練された分類器のクリーンタスク性能を回復できることがわかった。
本稿では、上記の問題を緩和するため、パラメトリックスムーシングにより、いわゆる$(q, \eta)$-Learnabilityを証明するためのメカニズムを提案する。
認証の低い$(q, \eta)$-Learnabilityは、データセットに対するより堅牢な保護を示している。
最後に、私たちは
1)証明された$(q, \eta)$-Learnabilityの厳格性の改善。
2 Design Provably Unlearnable Examples (PUEs) which has reduce $(q, \eta)$-Learnability。
実験結果によると、PUEは既存のUEと比較して、証明された$(q, \eta)$-Learnabilityと拡張された経験的堅牢性の両方を示している。
The exploitation of publicly accessible data has led to escalating concerns regarding data privacy and intellectual property (IP) breaches in the age of artificial intelligence. As a strategy to safeguard both data privacy and IP-related domain knowledge, efforts have been undertaken to render shared data unlearnable for unauthorized models in the wild. Existing methods apply empirically optimized perturbations to the data in the hope of disrupting the correlation between the inputs and the corresponding labels such that the data samples are converted into Unlearnable Examples (UEs). Nevertheless, the absence of mechanisms that can verify how robust the UEs are against unknown unauthorized models and train-time techniques engenders several problems. First, the empirically optimized perturbations may suffer from the problem of cross-model generalization, which echoes the fact that the unauthorized models are usually unknown to the defender. Second, UEs can be mitigated by train-time techniques such as data augmentation and adversarial training. Furthermore, we find that a simple recovery attack can restore the clean-task performance of the classifiers trained on UEs by slightly perturbing the learned weights. To mitigate the aforementioned problems, in this paper, we propose a mechanism for certifying the so-called $(q, \eta)$-Learnability of an unlearnable dataset via parametric smoothing. A lower certified $(q, \eta)$-Learnability indicates a more robust protection over the dataset. Finally, we try to 1) improve the tightness of certified $(q, \eta)$-Learnability and 2) design Provably Unlearnable Examples (PUEs) which have reduced $(q, \eta)$-Learnability. According to experimental results, PUEs demonstrate both decreased certified $(q, \eta)$-Learnability and enhanced empirical robustness compared to existing UEs. | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# 改善されたコンテンツクエリと類似クエリアグリゲーションによるDETR変数の強化
Enhancing DETRs Variants through Improved Content Query and Similar Query Aggregation ( http://arxiv.org/abs/2405.03318v1 ) ライセンス: Link先を確認 | Yingying Zhang, Chuangji Shi, Xin Guo, Jiangwei Lao, Jian Wang, Jiaotuan Wang, Jingdong Chen, | (参考訳) クエリの設計は、DETRとその変種の性能に不可欠である。
各クエリは、コンテンツ部分と位置部分の2つのコンポーネントで構成される。
伝統的に、コンテンツクエリはゼロまたは学習可能な埋め込みで初期化され、必須のコンテンツ情報が欠如し、サブ最適性能をもたらす。
本稿では,この制限に対処する新しいプラグイン・アンド・プレイモジュールであるSelf-Adaptive Content Query (SACQ)を紹介する。
SACQモジュールはトランスフォーマーエンコーダの機能を利用して、自己アテンションプーリングを通じてコンテンツクエリを生成する。
これにより、候補クエリが入力イメージに適応し、より包括的なコンテンツが事前に提供され、ターゲットオブジェクトにもっとフォーカスできるようになる。
しかし、この改善された濃度は、単一の候補のみを選択し、他の類似の候補を抑圧するハンガリーのマッチングを利用する訓練プロセスに挑戦する。
そこで本研究では,SACQと協調するクエリアグリゲーション戦略を提案する。
類似の予測候補を異なるクエリからマージし、最適化を緩和する。
COCOデータセットに関する広範な実験により、複数の構成を持つ6種類のDETRの変種に対する提案手法の有効性が実証され、1.0 AP以上の平均的な改善が達成された。
The design of the query is crucial for the performance of DETR and its variants. Each query consists of two components: a content part and a positional one. Traditionally, the content query is initialized with a zero or learnable embedding, lacking essential content information and resulting in sub-optimal performance. In this paper, we introduce a novel plug-and-play module, Self-Adaptive Content Query (SACQ), to address this limitation. The SACQ module utilizes features from the transformer encoder to generate content queries via self-attention pooling. This allows candidate queries to adapt to the input image, resulting in a more comprehensive content prior and better focus on target objects. However, this improved concentration poses a challenge for the training process that utilizes the Hungarian matching, which selects only a single candidate and suppresses other similar ones. To overcome this, we propose a query aggregation strategy to cooperate with SACQ. It merges similar predicted candidates from different queries, easing the optimization. Our extensive experiments on the COCO dataset demonstrate the effectiveness of our proposed approaches across six different DETR's variants with multiple configurations, achieving an average improvement of over 1.0 AP. | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# 時空間グラフニューラルネットを用いた測地時系列の復調:スリップイベント抽出への応用
Denoising of Geodetic Time Series Using Spatiotemporal Graph Neural Networks: Application to Slow Slip Event Extraction ( http://arxiv.org/abs/2405.03320v1 ) ライセンス: Link先を確認 | Giuseppe Costantino, Sophie Giffard-Roisin, Mauro Dalla Mura, Anne Socquet, | (参考訳) 地球空間データは、地球を観測するために変換されてきたが、(地球)物理観測の場合のように、測定値は、空間的および時間的に異なるサンプリングを持ち、信号の品質を低下させるかなりのレベルの摂動と関連付けられる可能性がある。
そのため、地理空間データのデノベーションは必須であるが、環境信号と楽器の人工物の両方を含む様々な起源から発生するノイズを伴っていて、空間的・時間的に相関しているため、解離しにくいため、しばしば困難である。
本研究では,不規則に分散したセンサネットワークによって得られる多変量時系列の復調に対処し,ノイズと信号の時空間的相関を扱うための具体的な方法を必要とする。
具体的には, 測地位置時系列のデノナイズに着目し, 地上の変位をセンチメートルからミリメートルの精度でモニタリングする。
GNSSデータに影響を与える信号のうち、緩やかなすべり現象(SSE)は地震学者にとって興味深いものである。
これらは他の信号と比べて弱い変形のトランジェントである。
本稿では,GNSSノイズの潜時特性を学習し,SSE関連変位をサブミリ精度で明らかにするマルチステーション時空間グラフベース減衰デノイザであるSSEdenoiserを設計する。
グラフリカレントネットワークと時空間変換器のキーの組み合わせに基づいている。
提案手法はカスカディア沈み込み帯に適用され,SSEは独立地震記録から同定された地震波である地殻変動のバーストと共に発生する。
抽出された事象は、地震の時空間進化と一致する。
この優れた時空間GNSS信号と震動との相関は,提案法の有効性を検証している。
Geospatial data has been transformative for the monitoring of the Earth, yet, as in the case of (geo)physical monitoring, the measurements can have variable spatial and temporal sampling and may be associated with a significant level of perturbations degrading the signal quality. Denoising geospatial data is, therefore, essential, yet often challenging because the observations may comprise noise coming from different origins, including both environmental signals and instrumental artifacts, which are spatially and temporally correlated, thus hard to disentangle. This study addresses the denoising of multivariate time series acquired by irregularly distributed networks of sensors, requiring specific methods to handle the spatiotemporal correlation of the noise and the signal of interest. Specifically, our method focuses on the denoising of geodetic position time series, used to monitor ground displacement worldwide with centimeter- to-millimeter precision. Among the signals affecting GNSS data, slow slip events (SSEs) are of interest to seismologists. These are transients of deformation that are weakly emerging compared to other signals. Here, we design SSEdenoiser, a multi-station spatiotemporal graph-based attentive denoiser that learns latent characteristics of GNSS noise to reveal SSE-related displacement with sub-millimeter precision. It is based on the key combination of graph recurrent networks and spatiotemporal Transformers. The proposed method is applied to the Cascadia subduction zone, where SSEs occur along with bursts of tectonic tremors, a seismic rumbling identified from independent seismic recordings. The extracted events match the spatiotemporal evolution of tremors. This good space-time correlation of the denoised GNSS signals with the tremors validates the proposed denoising procedure. | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# PAFOT: 自動運転車の最適テストを見つけるための位置ベースアプローチ
PAFOT: A Position-Based Approach for Finding Optimal Tests of Autonomous Vehicles ( http://arxiv.org/abs/2405.03326v1 ) ライセンス: Link先を確認 | Victor Crespo-Rodriguez, Neelofar, Aldeida Aleti, | (参考訳) 自律走行車(AV)は交通産業に革命をもたらす傾向にある。
しかし、それらは安全違反を避けるために徹底的にテストされなければならない。
シミュレーションテストは、自動運転システム(ADS)の安全違反を見つける上で重要な役割を果たす。
本稿では,ADSの安全違反を暴露する対向運転シナリオを生成する位置ベースアプローチテストフレームワークであるPAFOTを提案する。
本研究では,Ego Vehicle (EV) 周辺に仮想的に描画される9ポジショングリッドを導入し,NPC(Non-Playable Characters) の駆動動作を変更してグリッド内を移動させる。
PAFOTは、単目的の遺伝的アルゴリズムを使用して、敵対的なテストシナリオを探索する。
我々は、よく知られた高忠実度シミュレータCARLAでPAFOTを実演する。
実験の結果, PAFOTはADSをクラッシュさせる安全クリティカルなシナリオを効果的に生成し, 短時間で衝突を発見できることがわかった。
さらに、より効率的なシミュレーション時間内で、同じ運転条件下でより安全クリティカルなシナリオを見つけることで、他の検索ベースのテスト手法よりも優れています。
Autonomous Vehicles (AVs) are prone to revolutionise the transportation industry. However, they must be thoroughly tested to avoid safety violations. Simulation testing plays a crucial role in finding safety violations of Automated Driving Systems (ADSs). This paper proposes PAFOT, a position-based approach testing framework, which generates adversarial driving scenarios to expose safety violations of ADSs. We introduce a 9-position grid which is virtually drawn around the Ego Vehicle (EV) and modify the driving behaviours of Non-Playable Characters (NPCs) to move within this grid. PAFOT utilises a single-objective genetic algorithm to search for adversarial test scenarios. We demonstrate PAFOT on a well-known high-fidelity simulator, CARLA. The experimental results show that PAFOT can effectively generate safety-critical scenarios to crash ADSs and is able to find collisions in a short simulation time. Furthermore, it outperforms other search-based testing techniques by finding more safety-critical scenarios under the same driving conditions within less effective simulation time. | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# 説明可能な機械学習による病的軌跡のクラスタリング:術後のせん妄現象を事例として
Clustering of Disease Trajectories with Explainable Machine Learning: A Case Study on Postoperative Delirium Phenotypes ( http://arxiv.org/abs/2405.03327v1 ) ライセンス: Link先を確認 | Xiaochen Zheng, Manuel Schürch, Xingyu Chen, Maria Angeliki Komninou, Reto Schüpbach, Ahmed Allam, Jan Bartussek, Michael Krauthammer, | (参考訳) 複雑な疾患や症候群における表現型の同定は、個々の患者の特徴に医療を適応させることを目的とした、精密医療の基本的な構成要素である。
術後脱毛症 (POD) は, 臨床症状と病態に有意な異質性を有する複雑な神経精神疾患である。
我々はPODがいくつかの異なる表現型から構成されており、臨床で直接観察できないと仮定する。
これらの表現型を同定することで、PODの病因の理解を深め、標的とする予防・治療戦略の開発を促進することができる。
本稿では,パーソナライズされたPODリスク予測のための教師付き機械学習と,潜在的POD表現型を明らかにするための教師なしクラスタリング技術を組み合わせたアプローチを提案する。
まず, 患者コホートを異なる情報的特徴セットに基づいて, 事前に定義された表現型でシミュレートする合成データを用いて, アプローチを実証する。
人工データ生成法で臨床疾患を模倣することを目的としている。
予測モデルをトレーニングし,SHAPを応用することにより,SHAP特徴量空間におけるクラスタリング患者が真の表現型を回復し,生の特徴空間におけるクラスタリングよりも優れることを示す。
次に,高齢者手術患者のコホートからの実世界データを用いた症例スタディを提案する。
以上の結果から,PODなどの臨床関連疾患のサブタイプを明らかにし,より正確かつパーソナライズされた治療戦略への道を開いた。
The identification of phenotypes within complex diseases or syndromes is a fundamental component of precision medicine, which aims to adapt healthcare to individual patient characteristics. Postoperative delirium (POD) is a complex neuropsychiatric condition with significant heterogeneity in its clinical manifestations and underlying pathophysiology. We hypothesize that POD comprises several distinct phenotypes, which cannot be directly observed in clinical practice. Identifying these phenotypes could enhance our understanding of POD pathogenesis and facilitate the development of targeted prevention and treatment strategies. In this paper, we propose an approach that combines supervised machine learning for personalized POD risk prediction with unsupervised clustering techniques to uncover potential POD phenotypes. We first demonstrate our approach using synthetic data, where we simulate patient cohorts with predefined phenotypes based on distinct sets of informative features. We aim to mimic any clinical disease with our synthetic data generation method. By training a predictive model and applying SHAP, we show that clustering patients in the SHAP feature importance space successfully recovers the true underlying phenotypes, outperforming clustering in the raw feature space. We then present a case study using real-world data from a cohort of elderly surgical patients. The results showcase the utility of our approach in uncovering clinically relevant subtypes of complex disorders like POD, paving the way for more precise and personalized treatment strategies. | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# 潜時拡散と事前知識による時空間疾患進行モデルの強化
Enhancing Spatiotemporal Disease Progression Models via Latent Diffusion and Prior Knowledge ( http://arxiv.org/abs/2405.03328v1 ) ライセンス: Link先を確認 | Lemuel Puglisi, Daniel C. Alexander, Daniele Ravì, | (参考訳) 本稿では,潜伏拡散に基づく新しい時空間疾患進行モデルであるBrain Latent Progression (BrLP)を紹介する。
BrLPは、個々のレベルでの病気の進化を3D脳MRIで予測するように設計されている。
このタスクのために開発された既存の深層生成モデルは、主にデータ駆動であり、疾患の進行を学習する際の課題に直面している。
BrLPは、予測の精度を高めるために、疾患モデルからの事前の知識を取り入れることで、これらの課題に対処する。
そこで本研究では,脳領域の容積変化を推定する補助モデルを提案する。
さらに,予測進行の時空間整合性を改善する新しい手法であるLatent Average Stabilization (LAS)を導入する。
BrLPは、2,805名の被験者から11,730個のT1強調脳MRIからなる大規模なデータセットでトレーニングされ、評価されている。
実験では, BrLPが生成したMRIスキャンと被験者から取得した実際の追跡MRIとを, 横断的, 縦断的に比較した。
BrLPは既存の手法よりも大幅に改善され、AD関連脳領域における体積精度は22%、画像類似度は43%向上した。
BrLPが被験者レベルで条件付き3Dスキャンを生成する能力と、精度を高めるために事前知識を統合することの新規性は、疾患進行モデリングの著しい進歩を示し、精密医療のための新たな道を開いた。
BrLPのコードは https://github.com/LemuelPuglisi/BrLP のリンクで公開されている。
In this work, we introduce Brain Latent Progression (BrLP), a novel spatiotemporal disease progression model based on latent diffusion. BrLP is designed to predict the evolution of diseases at the individual level on 3D brain MRIs. Existing deep generative models developed for this task are primarily data-driven and face challenges in learning disease progressions. BrLP addresses these challenges by incorporating prior knowledge from disease models to enhance the accuracy of predictions. To implement this, we propose to integrate an auxiliary model that infers volumetric changes in various brain regions. Additionally, we introduce Latent Average Stabilization (LAS), a novel technique to improve spatiotemporal consistency of the predicted progression. BrLP is trained and evaluated on a large dataset comprising 11,730 T1-weighted brain MRIs from 2,805 subjects, collected from three publicly available, longitudinal Alzheimer's Disease (AD) studies. In our experiments, we compare the MRI scans generated by BrLP with the actual follow-up MRIs available from the subjects, in both cross-sectional and longitudinal settings. BrLP demonstrates significant improvements over existing methods, with an increase of 22% in volumetric accuracy across AD-related brain regions and 43% in image similarity to the ground-truth scans. The ability of BrLP to generate conditioned 3D scans at the subject level, along with the novelty of integrating prior knowledge to enhance accuracy, represents a significant advancement in disease progression modeling, opening new avenues for precision medicine. The code of BrLP is available at the following link: https://github.com/LemuelPuglisi/BrLP. | 翻訳日:2024-05-07 14:15:50 公開日:2024-05-06 |
# 短期的・長期的リワードのバランスをとるための政策学習
Policy Learning for Balancing Short-Term and Long-Term Rewards ( http://arxiv.org/abs/2405.03329v1 ) ライセンス: Link先を確認 | Peng Wu, Ziyu Shen, Feng Xie, Zhongyao Wang, Chunchen Liu, Yan Zeng, | (参考訳) 様々な領域にまたがる実証的な研究者や意思決定者は、介入の長期的な影響について深い洞察を求めることが多い。
長期的な成果の重要性は否定できないが、それらに対する過度の強調は必然的に短期的な利益を覆す可能性がある。
そこで本研究では,長期的報酬と短期的報酬を効果的にバランスする最適な政策を学習するための新たな枠組みを定式化する。
特に、まず、軽度の仮定で両報酬の同一性を示す。
次に、半パラメトリック効率境界を、それらの推定器の整合性と漸近正規性とともに導出する。
また、短期的な成果が関連する場合、長期的な報奨の見積りの改善に寄与することを明らかにする。
提案した推定値に基づいて,原則的政策学習手法を開発し,さらに,学習した方針に付随する後悔と推定誤差の収束率を導出する。
提案手法の有効性を検証し,その有効性を実証するための実験を行った。
Empirical researchers and decision-makers spanning various domains frequently seek profound insights into the long-term impacts of interventions. While the significance of long-term outcomes is undeniable, an overemphasis on them may inadvertently overshadow short-term gains. Motivated by this, this paper formalizes a new framework for learning the optimal policy that effectively balances both long-term and short-term rewards, where some long-term outcomes are allowed to be missing. In particular, we first present the identifiability of both rewards under mild assumptions. Next, we deduce the semiparametric efficiency bounds, along with the consistency and asymptotic normality of their estimators. We also reveal that short-term outcomes, if associated, contribute to improving the estimator of the long-term reward. Based on the proposed estimators, we develop a principled policy learning approach and further derive the convergence rates of regret and estimation errors associated with the learned policy. Extensive experiments are conducted to validate the effectiveness of the proposed method, demonstrating its practical applicability. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# Light-VQA+:視線誘導による露出補正のための映像品質評価モデル
Light-VQA+: A Video Quality Assessment Model for Exposure Correction with Vision-Language Guidance ( http://arxiv.org/abs/2405.03333v1 ) ライセンス: Link先を確認 | Xunchu Zhou, Xiaohong Liu, Yunlong Dong, Tengchuan Kou, Yixuan Gao, Zicheng Zhang, Chunyi Li, Haoning Wu, Guangtao Zhai, | (参考訳) 近年,ユーザ生成コンテンツ(UGC)ビデオが日常的に普及している。
しかし、UGCビデオは、撮影機器や技術に制限があるため、露出不良に悩まされることが多い。
そのため、ビデオ露光補正(VEC)アルゴリズム、低照度映像強調(LLVE)アルゴリズム、OEVR(Over-Exposed Video Recovery)アルゴリズムが提案されている。
ビデオ品質アセスメント(VQA)は、ビデオ品質アセスメント(VQA)である。
残念ながら、既存のVQAモデルのほとんどは一般的に構築されており、包括的な視点からビデオの品質を測定している。
その結果、LLVE-QAでトレーニングされたLight-VQAがLLVEの評価のために提案されている。
LLVE-QAデータセットをビデオ露出補正品質アセスメント(VEC-QA)データセットに拡張することで、Light-VQAの作業を拡張する。
また,VEC評価に特化したVQAモデルであるLight-VQA+を提案する。
Light-VQA+は、主にCLIPモデルの使用と特徴抽出時の視覚言語指導、さらにより正確な評価のためにHVS(Human Visual System)を参照する新しいモジュールとの違いがある。
VEC-QAデータセットおよび他の公開データセット上で,本モデルが現状のSOTA(State-Of-The-Art)VQAモデルに対して最高の性能を達成することを示す。
Recently, User-Generated Content (UGC) videos have gained popularity in our daily lives. However, UGC videos often suffer from poor exposure due to the limitations of photographic equipment and techniques. Therefore, Video Exposure Correction (VEC) algorithms have been proposed, Low-Light Video Enhancement (LLVE) and Over-Exposed Video Recovery (OEVR) included. Equally important to the VEC is the Video Quality Assessment (VQA). Unfortunately, almost all existing VQA models are built generally, measuring the quality of a video from a comprehensive perspective. As a result, Light-VQA, trained on LLVE-QA, is proposed for assessing LLVE. We extend the work of Light-VQA by expanding the LLVE-QA dataset into Video Exposure Correction Quality Assessment (VEC-QA) dataset with over-exposed videos and their corresponding corrected versions. In addition, we propose Light-VQA+, a VQA model specialized in assessing VEC. Light-VQA+ differs from Light-VQA mainly from the usage of the CLIP model and the vision-language guidance during the feature extraction, followed by a new module referring to the Human Visual System (HVS) for more accurate assessment. Extensive experimental results show that our model achieves the best performance against the current State-Of-The-Art (SOTA) VQA models on the VEC-QA dataset and other public datasets. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# 1次元拡張Bose-Hubbardモデルにおける非局所順序の基本的役割
Fundamental role of nonlocal orders in 1D Extended Bose-Hubbard Model ( http://arxiv.org/abs/2405.03336v1 ) ライセンス: Link先を確認 | Nitya Cuzzuol, Arianna Montorsi, | (参考訳) 非局所的な順序パラメータは、特定の自由度の間の相関するゆらぎの存在を捉える。
ここでは、それらの基本的役割のさらなる例を示し、その順序付けに関してのみ拡張された1つのボース・ハバードモデルの基底状態位相図を導出する。
密度行列再正規化群解析により、モット絶縁相の(偶数)パリティ次数特性と、ハルダン絶縁体における弦順が無くなったことに加えて、最近提案された奇数パリティ次数は、通常の超流動から対の超流動相への遷移で消滅することを示す。
上記の3つの非局所パラメータは、異なるチャネルにおける相関ゆらぎの同時の存在と見なされる密度波位相を含む、すべての異なる位相をキャプチャする。
それらは局所密度測定を用いて、強い相関の強い量子物質の全相図を実験的に観察するためのユニークなツールを提供する。
Nonlocal order parameters capture the presence of correlated fluctuations between specific degrees of freedom, in otherwise disordered quantum matter. Here we provide a further example of their fundamental role, deriving the ground state phase diagram of the filling one extended Bose Hubbard model exclusively in terms of their ordering. By means of a density matrix renormalization group numerical analysis, we show that besides the (even) parity order characteristic of the Mott insulating phase, and the string order non vanishing in the Haldane insulator, the recently proposed odd parity order completes the picture, becoming nonvanishing at the transition from the normal superfluid to the paired superfluid phase. The above three nonlocal parameters capture all the distinct phases, including the density wave phase which local order is seen as the simultaneous presence of correlated fluctuations in different channels. They provide a unique tool for the experimental observation of the full phase diagram of strongly correlated quantum matter, by means of local density measurements. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# マルチキュービット系とマルチキューディット系における逆参加率推定のための量子アルゴリズム
Quantum Algorithms for Inverse Participation Ratio Estimation in multi-qubit and multi-qudit systems ( http://arxiv.org/abs/2405.03338v1 ) ライセンス: Link先を確認 | Yingjian Liu, Piotr Sierant, Paolo Stornati, Maciej Lewenstein, Marcin Płodzień, | (参考訳) 逆参加比(IPRs)および関連する参加エントロピー(英語版)は、ヒルベルト空間の選択された基底における量子状態の拡散を定量化し、系の平衡と非平衡性に関する洞察を与える。
本研究では,マルチキュービットおよびマルチキュービットの量子デバイス上でのIPPを推定する3つの量子アルゴリズムを提案する。
第1のアルゴリズムでは、シングルキュービット測定による計算ベースでのIPPの推定が可能であり、第2のアルゴリズムでは、系の固有状態に関する知識を必要とせず、選択されたハミルトンの固有ベイジにおけるIPPの測定が可能である。
次に,マルチキューディットシステムのための計算ベースでIPRのアルゴリズムを提案する。
本稿では, 1軸ツイストプロトコル, 変形したPXPモデルにおける熱化, 横方向フィールドにおけるスピン-1ドルAKLTチェーンの基底状態など, アルゴリズムが必要とする資源について検討し, ベンチマークを行う。
Inverse Participation Ratios (IPRs) and the related Participation Entropies quantify the spread of a quantum state over a selected basis of the Hilbert space, offering insights into the equilibrium and non-equilibrium properties of the system. In this work, we propose three quantum algorithms to estimate IPRs on multi-qubit and multi-qudit quantum devices. The first algorithm allows for the estimation of IPRs in the computational basis by single-qubit measurements, while the second one enables measurement of IPR in the eigenbasis of a selected Hamiltonian, without the knowledge about the eigenstates of the system. Next, we provide an algorithm for IPR in the computational basis for a multi-qudit system. We discuss resources required by the algorithms and benchmark them by investigating the one-axis twisting protocol, the thermalization in a deformed PXP model, and the ground state of a spin-$1$ AKLT chain in a transverse field. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# ゼロ領域パルスによる遅延電子イオンの絡み合い
Delayed Electron-Ion Entanglement Revealed with Zero Area Pulses ( http://arxiv.org/abs/2405.03339v1 ) ライセンス: Link先を確認 | Axel Stenquist, Jan Marcus Dahlström, | (参考訳) Grobe--Eberly doublet 現象は、残りのイオンが磁場に着飾られているときに光電子分布で起こる。
最近示されたように、ダブルトは光電子と強く結合したイオンの間の量子絡み合いのサインと解釈できる。
しかし、イオンの着飾った状態の性質は、簡単な偶然検出によって絡み合いの検出を妨げている。
ここでは、奇妙な(ゼロ領域)エンベロープが絡み合いの発生を著しく遅らせるだけでなく、ダブルトが一意なチャネル分解光電子分布に変換されるようなダイナミクスを変化させることが分かる。
これらの分布はイオンの内部状態と相関することができるため、提案手法は量子位相測定を必要とせず、光電子と強結合イオンの間の量子絡みの検出のために開放される。
The Grobe--Eberly doublet phenomenon occurs in photoelectron distributions when the remaining ion is dressed by a field. As was recently shown, the doublet can be interpreted as a signature of quantum entanglement between photoelectrons and strongly coupled ions. However, the dressed state nature of the ion prevents detection of the entanglement by straightforward coincidence detection. Here, we find that odd (zero-area) envelopes can substantially delay the generation of entanglement, but also modify the dynamics such that the doublet transforms into unique channel-resolved photoelectron distributions. Because these distributions can be used to correlate with the internal state of the ion, our proposed scheme opens up for detection of quantum entanglement, between photoelectrons and stongly-coupled ions, without a need for quantum phase measurements. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# NARSによる機能的等価性
Functional Equivalence with NARS ( http://arxiv.org/abs/2405.03340v1 ) ライセンス: Link先を確認 | Robert Johansson, Patrick Hammer, Tony Lofthouse, | (参考訳) 本研究では,非軸性推論システム (NARS) の枠組みにおける機能的等価性の概念を,特に OpenNARS for Applications (ONA) を通じて検討する。
機能的同値性により、有機体は知覚的類似性ではなく、有用性に基づいて様々な刺激を分類し、反応し、認知効率と適応性を高めることができる。
本研究では,機能的等価性の導出を可能にするためにONAを改良した。
本稿では,ONAが学習知識を様々な機能的状況に応用し,複雑な問題解決と意思決定に活用できることを実例として示す。
ONAの訓練は、話し言葉、物、書き言葉に関連する体系的な手順を用いて、基本的人間的な言語能力を学ぶことを目的としている。
本研究は,AGIシステムにおける機能的等価性の理解を拡大し,人間レベルのAGIに必要な学習の柔軟性と適応性の必要性を論じるものである。
This study explores the concept of functional equivalence within the framework of the Non-Axiomatic Reasoning System (NARS), specifically through OpenNARS for Applications (ONA). Functional equivalence allows organisms to categorize and respond to varied stimuli based on their utility rather than perceptual similarity, thus enhancing cognitive efficiency and adaptability. In this study, ONA was modified to allow the derivation of functional equivalence. This paper provides practical examples of the capability of ONA to apply learned knowledge across different functional situations, demonstrating its utility in complex problem-solving and decision-making. An extended example is included, where training of ONA aimed to learn basic human-like language abilities, using a systematic procedure in relating spoken words, objects and written words. The research carried out as part of this study extends the understanding of functional equivalence in AGI systems, and argues for its necessity for level of flexibility in learning and adapting necessary for human-level AGI. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# 大規模言語モデルヒューリスティックスによるQ-Learningの強化
Enhancing Q-Learning with Large Language Model Heuristics ( http://arxiv.org/abs/2405.03341v1 ) ライセンス: Link先を確認 | Xiefeng Wu, | (参考訳) Qラーニングは、シーケンシャルな意思決定タスクにおけるフィードバックからの学習に優れていますが、大幅な改善のためには広範なサンプリングが必要です。
報酬形成は学習効率を高めるための強力な手法であるが、エージェントのパフォーマンスに影響を与えるバイアスを導入することができる。
さらに、ポテンシャルに基づく報酬形成は、行動や終末状態に基づく報酬の修正を許さないため、複雑な環境での有効性を制限する可能性があるため、制約される。
加えて、大きな言語モデル(LLM)はゼロショット学習を実現することができるが、一般的には単純なタスクに限られる。
推論速度も低く、時折幻覚を発生させる。
これらの課題に対処するために,LLMをヒューリスティックとして用い,強化学習のためのQ関数の学習を支援する「textbf{LLM-guided Q-learning」を提案する。
パフォーマンスバイアスを導入することなく、両方の技術の利点を組み合わせます。
我々の理論的分析は、LLMヒューリスティックがアクションレベルのガイダンスを提供することを示す。
さらに、私たちのアーキテクチャは幻覚の影響を探索コストに変換する能力を持っています。
さらに収束 Q 関数は MDP 最適 Q 関数に対応する。
実験の結果, エージェントが非効率な探索を回避でき, サンプリング効率が向上し, 複雑な制御タスクに適していることがわかった。
Q-learning excels in learning from feedback within sequential decision-making tasks but requires extensive sampling for significant improvements. Although reward shaping is a powerful technique for enhancing learning efficiency, it can introduce biases that affect agent performance. Furthermore, potential-based reward shaping is constrained as it does not allow for reward modifications based on actions or terminal states, potentially limiting its effectiveness in complex environments. Additionally, large language models (LLMs) can achieve zero-shot learning, but this is generally limited to simpler tasks. They also exhibit low inference speeds and occasionally produce hallucinations. To address these issues, we propose \textbf{LLM-guided Q-learning} that employs LLMs as heuristic to aid in learning the Q-function for reinforcement learning. It combines the advantages of both technologies without introducing performance bias. Our theoretical analysis demonstrates that the LLM heuristic provides action-level guidance. Additionally, our architecture has the capability to convert the impact of hallucinations into exploration costs. Moreover, the converged Q function corresponds to the MDP optimal Q function. Experiment results demonstrated that our algorithm enables agents to avoid ineffective exploration, enhances sampling efficiency, and is well-suited for complex control tasks. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# 目標学習によるネットワーク干渉による二重ロバスト因果効果推定
Doubly Robust Causal Effect Estimation under Networked Interference via Targeted Learning ( http://arxiv.org/abs/2405.03342v1 ) ライセンス: Link先を確認 | Weilin Chen, Ruichu Cai, Zeqin Yang, Jie Qiao, Yuguang Yan, Zijian Li, Zhifeng Hao, | (参考訳) ネットワーク干渉による因果効果の推定は重要であるが、難しい問題である。
利用可能なパラメトリック手法はモデル空間で制限されているが、従来の半パラメトリック手法、例えば1つのニュアンス関数に1つだけ適合するニューラルネットワークを利用すると、データ生成プロセスの適切な仮定なしに、ネットワーク干渉下での誤特定問題に遭遇する可能性がある。
本稿では,ニューラルネットワークのトレーニングにターゲット学習技術を適用することにより,ネットワーク干渉下での2重頑健な因果効果推定手法を提案する。
具体的には、対象とする学習技術をネットワーク干渉設定に一般化し、推定器が二重ロバスト性を達成する条件を確立する。
この条件に基づいて、同定された理論条件を目標損失に変換することにより、エンドツーエンドの因果効果推定器を考案する。
さらに,設計した推定器の理論的解析を行い,単一ニュアンスモデルと比較して収束速度が速いことを示した。
半合成データを用いた2つの実世界のネットワークにおける大規模な実験結果から,提案手法の有効性が示された。
Causal effect estimation under networked interference is an important but challenging problem. Available parametric methods are limited in their model space, while previous semiparametric methods, e.g., leveraging neural networks to fit only one single nuisance function, may still encounter misspecification problems under networked interference without appropriate assumptions on the data generation process. To mitigate bias stemming from misspecification, we propose a novel doubly robust causal effect estimator under networked interference, by adapting the targeted learning technique to the training of neural networks. Specifically, we generalize the targeted learning technique into the networked interference setting and establish the condition under which an estimator achieves double robustness. Based on the condition, we devise an end-to-end causal effect estimator by transforming the identified theoretical condition into a targeted loss. Moreover, we provide a theoretical analysis of our designed estimator, revealing a faster convergence rate compared to a single nuisance model. Extensive experimental results on two real-world networks with semisynthetic data demonstrate the effectiveness of our proposed estimators. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# Retinexmamba:低照度画像強調のためのRetinex-based Mamba
Retinexmamba: Retinex-based Mamba for Low-light Image Enhancement ( http://arxiv.org/abs/2405.03349v1 ) ライセンス: Link先を確認 | Jiesong Bai, Yuhao Yin, Qiyuan He, | (参考訳) 低照度画像強調の分野では、従来のRetinex法とRetinexformerのような高度なディープラーニング技術の両方が、明確な利点と限界を示している。
従来のレチネックス法は、人間の目の明度と色彩の知覚を模倣するために設計され、画像を照明と反射成分に分解するが、低照度条件下でのノイズ管理と詳細な保存に苦労する。
Retinexformerは、従来の自己認識機構を通じて照明推定を強化するが、解釈容易性や準最適強調効果が不十分な課題に直面している。
これらの制約を克服するために,RetinexMambaアーキテクチャを提案する。
RetinexMambaは従来のRetinexメソッドの物理的直感性を捉えるだけでなく、Retinexformerのディープラーニングフレームワークを統合し、ステートスペースモデル(SSM)の計算効率を活用して処理速度を向上させる。
このアーキテクチャは、イノベーティブな照明推定器と、エンハンスメント中の画質を維持する損傷回復機構を備えている。
さらに、RetinexMambaはRetinexformerのIG-MSA(Illumination-Guided Multi-Head Attention)をFused-Attentionメカニズムで置き換え、モデルの解釈性を向上させる。
LOLデータセットの実験的評価により、RetinexMambaは、Retinex理論に基づく既存のディープラーニングアプローチを定量的および定性的メトリクスの両方で上回り、低照度画像の強化におけるその有効性と優位性を確認した。
In the field of low-light image enhancement, both traditional Retinex methods and advanced deep learning techniques such as Retinexformer have shown distinct advantages and limitations. Traditional Retinex methods, designed to mimic the human eye's perception of brightness and color, decompose images into illumination and reflection components but struggle with noise management and detail preservation under low light conditions. Retinexformer enhances illumination estimation through traditional self-attention mechanisms, but faces challenges with insufficient interpretability and suboptimal enhancement effects. To overcome these limitations, this paper introduces the RetinexMamba architecture. RetinexMamba not only captures the physical intuitiveness of traditional Retinex methods but also integrates the deep learning framework of Retinexformer, leveraging the computational efficiency of State Space Models (SSMs) to enhance processing speed. This architecture features innovative illumination estimators and damage restorer mechanisms that maintain image quality during enhancement. Moreover, RetinexMamba replaces the IG-MSA (Illumination-Guided Multi-Head Attention) in Retinexformer with a Fused-Attention mechanism, improving the model's interpretability. Experimental evaluations on the LOL dataset show that RetinexMamba outperforms existing deep learning approaches based on Retinex theory in both quantitative and qualitative metrics, confirming its effectiveness and superiority in enhancing low-light images. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# 任意モード有向物体検出のためのモダリティプロンプト
Modality Prompts for Arbitrary Modality Salient Object Detection ( http://arxiv.org/abs/2405.03351v1 ) ライセンス: Link先を確認 | Nianchang Huang, Yang Yang, Qiang Zhang, Jungong Han, Jin Huang, | (参考訳) 本稿では、任意のモダリティ、例えばRGB画像、RGB-D画像、RGB-D-T画像からサリアント物体を検出することを目的とした、任意のモダリティ・サリアント物体検出(AM SOD)の課題について述べる。
AM SODの2つの基本的な課題,すなわち処理が必要な様々なモーダルタイプに起因するより多様なモダリティの相違,およびマルチモーダル融合戦略の入力に存在する不確実なモダリティによる動的融合設計について,新しいモダリティ適応変換器(MAT)を提案する。
具体的には、事前学習されたモデルの分布を、いくつかのプロンプトを学習することで下流タスクの特徴に整合させる学習能力に着想を得て、まず、各モダリティに対してモダリティプロンプトを導入することで、様々なモダリティの相違に対処するためのモダリティ適応的特徴抽出器(MAFE)を提示する。
トレーニング段階では、新しいモダリティ変換縮約(MTC)損失は、これらのモダリティ区別可能なモダリティプロンプトの学習においてMAFEを支援するためにさらに設計される。
したがって、試験段階では、MAFEは学習したモダリティプロンプトを用いて、入力モダリティの特性に応じて特徴空間を適応的に調整し、識別的一助的特徴を抽出することができる。
次に、MAFEは、動的核融合の需要を満たすために、チャネルワイドおよび空間ワイド核融合(CSFH)戦略を示す。
そのため、CSFHはチャンネルワイド・ダイナミック・フュージョン・モジュール(CDFM)と新しい空間ワイド・ダイナミック・フュージョン・モジュール(SDFM)を配し、モダリティの異なる数から一様特徴を融合させ、一方、相互補完的なセマンティクスと詳細情報を効果的に捕捉する。
CSFHはCDFMとSDFMを、より効果的な補完情報利用のための特徴に基づいて、異なるレベルのユニモーダル特徴に慎重に対応させる。
This paper delves into the task of arbitrary modality salient object detection (AM SOD), aiming to detect salient objects from arbitrary modalities, eg RGB images, RGB-D images, and RGB-D-T images. A novel modality-adaptive Transformer (MAT) will be proposed to investigate two fundamental challenges of AM SOD, ie more diverse modality discrepancies caused by varying modality types that need to be processed, and dynamic fusion design caused by an uncertain number of modalities present in the inputs of multimodal fusion strategy. Specifically, inspired by prompt learning's ability of aligning the distributions of pre-trained models to the characteristic of downstream tasks by learning some prompts, MAT will first present a modality-adaptive feature extractor (MAFE) to tackle the diverse modality discrepancies by introducing a modality prompt for each modality. In the training stage, a new modality translation contractive (MTC) loss will be further designed to assist MAFE in learning those modality-distinguishable modality prompts. Accordingly, in the testing stage, MAFE can employ those learned modality prompts to adaptively adjust its feature space according to the characteristics of the input modalities, thus being able to extract discriminative unimodal features. Then, MAFE will present a channel-wise and spatial-wise fusion hybrid (CSFH) strategy to meet the demand for dynamic fusion. For that, CSFH dedicates a channel-wise dynamic fusion module (CDFM) and a novel spatial-wise dynamic fusion module (SDFM) to fuse the unimodal features from varying numbers of modalities and meanwhile effectively capture cross-modal complementary semantic and detail information, respectively. Moreover, CSFH will carefully align CDFM and SDFM to different levels of unimodal features based on their characteristics for more effective complementary information exploitation. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# 任意モードからの有意物体検出
Salient Object Detection From Arbitrary Modalities ( http://arxiv.org/abs/2405.03352v1 ) ライセンス: Link先を確認 | Nianchang Huang, Yang Yang, Ruida Xi, Qiang Zhang, Jungong Han, Jin Huang, | (参考訳) 所望の精度予測に向けて、SAD(Salient Object Detection)アルゴリズムの入力の種類と回数は、現実の多くのアプリケーションで動的に変化する可能性がある。
しかし、既存のSODアルゴリズムは、主に特定の入力タイプのために設計または訓練されており、他の入力タイプに一般化されない。
結果として、異なるタイプの入力を処理するために事前に多くのタイプのSODアルゴリズムを用意し、膨大なハードウェアと研究コストを増大させる必要がある。
そこで本稿では,新たなSODタスクであるArbitrary Modality SOD (AM SOD)を提案する。
AM SODの最も顕著な特徴は、モダリティ型とモダリティ数が任意または動的に変化することである。
前者は、AM SODアルゴリズムへの入力は、RGB、深さ、あるいはそれらの任意の組み合わせのような任意のモダリティであることを意味する。
後者は、入力タイプが変更されるにつれて、入力が任意のモダリティ数を持つ可能性があることを示しているが、例えば、単一のモダリティRGB画像、二重モダリティRGB-Depth(RGB-D)画像、または3重モダリティRGB-Depth-Thermal(RGB-D-T)画像である。
そこで,本稿では,モダリティスイッチネットワーク(MSN)という,上記の課題に対する予備的解決策を提案する。
特に,モーダリティスイッチ特徴抽出器(MSFE)は,まず,モーダリティスイッチの重みを生じるモーダリティ指標を導入することにより,各モーダリティから識別的特徴を効果的に抽出するように設計されている。
その後、動的融合モジュール (DFM) が提案され、新しいトランスフォーマー構造に基づく可変数のモジュラリティから特徴を適応的に融合する。
最後に、AM SODの研究を容易にするためにAM-XDという新しいデータセットを構築した。
AM SOD法は, 入力モードのタイプや数の変化に効果的に対処し, 頑健なサルエント物体検出に有効であることを示す。
Toward desirable saliency prediction, the types and numbers of inputs for a salient object detection (SOD) algorithm may dynamically change in many real-life applications. However, existing SOD algorithms are mainly designed or trained for one particular type of inputs, failing to be generalized to other types of inputs. Consequentially, more types of SOD algorithms need to be prepared in advance for handling different types of inputs, raising huge hardware and research costs. Differently, in this paper, we propose a new type of SOD task, termed Arbitrary Modality SOD (AM SOD). The most prominent characteristics of AM SOD are that the modality types and modality numbers will be arbitrary or dynamically changed. The former means that the inputs to the AM SOD algorithm may be arbitrary modalities such as RGB, depths, or even any combination of them. While, the latter indicates that the inputs may have arbitrary modality numbers as the input type is changed, e.g. single-modality RGB image, dual-modality RGB-Depth (RGB-D) images or triple-modality RGB-Depth-Thermal (RGB-D-T) images. Accordingly, a preliminary solution to the above challenges, \i.e. a modality switch network (MSN), is proposed in this paper. In particular, a modality switch feature extractor (MSFE) is first designed to extract discriminative features from each modality effectively by introducing some modality indicators, which will generate some weights for modality switching. Subsequently, a dynamic fusion module (DFM) is proposed to adaptively fuse features from a variable number of modalities based on a novel Transformer structure. Finally, a new dataset, named AM-XD, is constructed to facilitate research on AM SOD. Extensive experiments demonstrate that our AM SOD method can effectively cope with changes in the type and number of input modalities for robust salient object detection. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# マルコフ連鎖に基づく2価アントコロニー最適化時間解析
Markov Chain-based Optimization Time Analysis of Bivalent Ant Colony Optimization for Sorting and LeadingOnes ( http://arxiv.org/abs/2405.03353v1 ) ライセンス: Link先を確認 | Matthias Kergaßner, Oliver Keszocze, Rolf Wanka, | (参考訳) これまでのところ、Ant Colony Optimization(ACO)のランタイム動作に関する制限はわずかしか報告されていない。
この状況を緩和するため、正確に2つのフェロモン値を使用するBivalent ACO (BACO) と呼ばれる ACO 変種について検討する。
我々は、期待される最適化時間を計算するために、新しいマルコフ連鎖に基づくアプローチを提供し、うまく適用する。
E
アルゴリズムが終了するまでのイテレーション数は予想される。
このアプローチでは、SortingとLeadingOnesの問題に対して、期待される最適化時間に関する正確な公式を導出することができる。
その結果、2つのフェロモン値の比がBACOのランタイムの挙動を著しく制御していることが判明した。
我々の知る限り、初めてSorting(\Theta(n^3)$)の厳密なバウンダリを選択的に選択された目的関数で提示し、LeadingOnesの不足する低いバウンダリ$\Omega(n^2)$を証明できます。
フェロモンが解法に与える影響に関して、大幅に単純化されたアリアルゴリズムがあるにもかかわらず、その問題の最適化時間に対する既知の境界であるOneMax(O(n\log n)$)とLeadingOnes(O(n^2)$)は、我々のアプローチの副産物として再生産可能であることを示す。
実験は理論的な結果を検証する。
So far, only few bounds on the runtime behavior of Ant Colony Optimization (ACO) have been reported. To alleviate this situation, we investigate the ACO variant we call Bivalent ACO (BACO) that uses exactly two pheromone values. We provide and successfully apply a new Markov chain-based approach to calculate the expected optimization time, i. e., the expected number of iterations until the algorithm terminates. This approach allows to derive exact formulae for the expected optimization time for the problems Sorting and LeadingOnes. It turns out that the ratio of the two pheromone values significantly governs the runtime behavior of BACO. To the best of our knowledge, for the first time, we can present tight bounds for Sorting ($\Theta(n^3)$) with a specifically chosen objective function and prove the missing lower bound $\Omega(n^2)$ for LeadingOnes which, thus, is tightly bounded by $\Theta(n^2)$. We show that despite we have a drastically simplified ant algorithm with respect to the influence of the pheromones on the solving process, known bounds on the expected optimization time for the problems OneMax ($O(n\log n)$) and LeadingOnes ($O(n^2)$) can be re-produced as a by-product of our approach. Experiments validate our theoretical findings. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# コントラスト学習によるクロスモーダル蒸留の理論について
On the Theory of Cross-Modality Distillation with Contrastive Learning ( http://arxiv.org/abs/2405.03355v1 ) ライセンス: Link先を確認 | Hangyu Lin, Chen Liu, Chengming Xu, Zhengqi Gao, Yanwei Fu, Yuan Yao, | (参考訳) クロスモダリティ蒸留は、深度マップや高品質スケッチのような限られた知識を含むデータモダリティにとって重要なトピックである。
このようなテクニックは特に、ラベル付きトレーニングデータが一般に利用できないメモリやプライバシに制限されたシナリオにおいて非常に重要である。
この問題を解決するために、既存のラベルフリーな手法では、いくつかのラベルなしデータを利用して、ソースとターゲットのモダリティの特徴や統計を整合させて知識を抽出する。
例えば、典型的には、ソース(eg画像)とターゲット(egスケッチ)モダリティ内のサンプルのペアの学習した特徴間のL2距離や対照的な損失を最小限にすることを目的としている。
しかし、この分野のほとんどのアルゴリズムは実験結果にのみ焦点をあてているが、理論的な洞察は得られていない。
クロスモダリティ蒸留の理論と実践的手法のギャップを埋めるために,まず,正と負の対応を両立したコントラスト学習に基づくクロスモダリティコントラスト蒸留(CMCD)の一般的な枠組みを,より優れた一般化可能な特徴の蒸留に向けて定式化する。
さらに、実験結果から検証した目標モード内の下流タスクにおいて、ソースと目標モード間の距離がテストエラーに大きく影響することを明らかにする、徹底的な収束解析を確立した。
画像,スケッチ,深度マップ,および音声認識とセグメンテーションのタスクのモダリティを網羅し,既存のアルゴリズムを2~3倍のマージンで一貫した性能を示した。
Cross-modality distillation arises as an important topic for data modalities containing limited knowledge such as depth maps and high-quality sketches. Such techniques are of great importance, especially for memory and privacy-restricted scenarios where labeled training data is generally unavailable. To solve the problem, existing label-free methods leverage a few pairwise unlabeled data to distill the knowledge by aligning features or statistics between the source and target modalities. For instance, one typically aims to minimize the L2 distance or contrastive loss between the learned features of pairs of samples in the source (e.g. image) and the target (e.g. sketch) modalities. However, most algorithms in this domain only focus on the experimental results but lack theoretical insight. To bridge the gap between the theory and practical method of cross-modality distillation, we first formulate a general framework of cross-modality contrastive distillation (CMCD), built upon contrastive learning that leverages both positive and negative correspondence, towards a better distillation of generalizable features. Furthermore, we establish a thorough convergence analysis that reveals that the distance between source and target modalities significantly impacts the test error on downstream tasks within the target modality which is also validated by the empirical results. Extensive experimental results show that our algorithm outperforms existing algorithms consistently by a margin of 2-3\% across diverse modalities and tasks, covering modalities of image, sketch, depth map, and audio and tasks of recognition and segmentation. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# MedDoc-Bot:小児高血圧ガイドラインの文脈における大規模言語モデルの比較分析のためのチャットツール
MedDoc-Bot: A Chat Tool for Comparative Analysis of Large Language Models in the Context of the Pediatric Hypertension Guideline ( http://arxiv.org/abs/2405.03359v1 ) ライセンス: Link先を確認 | Mohamed Yaseen Jabarulla, Steffen Oeltze-Jafra, Philipp Beerbaum, Theodor Uden, | (参考訳) 本研究は、PDF形式で保存された医療ガイドラインの解釈に有効であるとして、非商用オープンソース大言語モデル(LLMs)であるMeditron、MedAlpaca、Mistral、Llama-2を評価することに焦点を当てる。
特定のテストシナリオとして,欧州心疾患学会(ESC)が提供する小児・青年期の高血圧治療ガイドラインにこれらのモデルを適用した。
PythonライブラリであるStreamlitを活用して、ユーザフレンドリな医療ドキュメントチャットボットツール(MedDoc-Bot)を開発しました。
このツールは、許可されたユーザがPDFファイルをアップロードし、質問をすることで、4つのローカルに格納されたLCMから解釈応答を生成する。
小児科の専門家は、ESCガイドラインから抽出した質問や回答を定式化して評価するためのベンチマークを提供する。
専門家はモデルが生成した応答を、その忠実さと関連性に基づいて評価する。
さらに,参照応答に対するモデル応答の類似性を評価するために,METEORとchrFの測定値を評価した。
その結果,Llama-2とMistralは測定値の評価に優れていた。
しかし、Llama-2はテキストや表データを扱うのが遅い。
ヒトの評価では,Mistral,Medtron,Llama-2の反応は妥当な忠実度と妥当性を示した。
本研究は,医学文書解釈におけるLCMの長所と短所に関する貴重な知見を提供する。
オープンソースコード:https://github.com/yaseen28/MedDoc-Bot
This research focuses on evaluating the non-commercial open-source large language models (LLMs) Meditron, MedAlpaca, Mistral, and Llama-2 for their efficacy in interpreting medical guidelines saved in PDF format. As a specific test scenario, we applied these models to the guidelines for hypertension in children and adolescents provided by the European Society of Cardiology (ESC). Leveraging Streamlit, a Python library, we developed a user-friendly medical document chatbot tool (MedDoc-Bot). This tool enables authorized users to upload PDF files and pose questions, generating interpretive responses from four locally stored LLMs. A pediatric expert provides a benchmark for evaluation by formulating questions and responses extracted from the ESC guidelines. The expert rates the model-generated responses based on their fidelity and relevance. Additionally, we evaluated the METEOR and chrF metric scores to assess the similarity of model responses to reference answers. Our study found that Llama-2 and Mistral performed well in metrics evaluation. However, Llama-2 was slower when dealing with text and tabular data. In our human evaluation, we observed that responses created by Mistral, Meditron, and Llama-2 exhibited reasonable fidelity and relevance. This study provides valuable insights into the strengths and limitations of LLMs for future developments in medical document interpretation. Open-Source Code: https://github.com/yaseen28/MedDoc-Bot | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# テレックスタイル:繊維触覚のエンドツーエンド遠隔伝送
Telextiles: End-to-end Remote Transmission of Fabric Tactile Sensation ( http://arxiv.org/abs/2405.03363v1 ) ライセンス: Link先を確認 | Takekazu Kitagishi, Yuichi Hiroi, Yuna Watanabe, Yuta Itoh, Jun Rekimoto, | (参考訳) 織物の触覚は衣服の快適さを決定するのに重要である。
オンラインショッピングなどの遠隔利用では、ユーザーは衣服の織物に物理的に触れることができないため、触覚を評価できない。
繊維の触覚伝達には触覚とアクチュエータ装置が必要である。
センサーは、手持ちのセンサーを使っても、さまざまな衣服を認識する必要がある。
さらに、既存のアクチュエータ装置は、限られた数の既知のパターンしか表示できず、未知の繊維の触覚を伝達することができない。
これらの課題に対処するため,Telextilesを提案する。Telextilesは繊維の触覚を遠隔で伝達するインタフェースで,コントラスト的な自己教師型学習を通じて繊維の近接性を反映した潜時空間を作成する。
類似した触覚特性を持つ織物が,二次元プロットを介して,潜伏空間に近接していることを確認した。
次に, 既知繊維試料の潜伏特性を1次元距離に圧縮し, 距離の順に16の繊維試料をローラに適用する。
未知の繊維が検出された場合に、ローラを回転させて最も近い特徴で繊維を選択する。
The tactile sensation of textiles is critical in determining the comfort of clothing. For remote use, such as online shopping, users cannot physically touch the textile of clothes, making it difficult to evaluate its tactile sensation. Tactile sensing and actuation devices are required to transmit the tactile sensation of textiles. The sensing device needs to recognize different garments, even with hand-held sensors. In addition, the existing actuation device can only present a limited number of known patterns and cannot transmit unknown tactile sensations of textiles. To address these issues, we propose Telextiles, an interface that can remotely transmit tactile sensations of textiles by creating a latent space that reflects the proximity of textiles through contrastive self-supervised learning. We confirm that textiles with similar tactile features are located close to each other in the latent space through a two-dimensional plot. We then compress the latent features for known textile samples into the 1D distance and apply the 16 textile samples to the rollers in the order of the distance. The roller is rotated to select the textile with the closest feature if an unknown textile is detected. | 翻訳日:2024-05-07 14:06:06 公開日:2024-05-06 |
# ファインマンの「計算機による物理シミュレーション」
Feynman's "Simulating Physics with Computers" ( http://arxiv.org/abs/2405.03366v1 ) ライセンス: Link先を確認 | Paul M. Alsing, Carlo Cafaro, Stefano Mancini, | (参考訳) この招待エッセイは、国際理論物理学ジャーナル(International Journal of Theory Physics)が発行した非常に影響力のある論文を考察したシリーズである。
本稿では、リヒャルト・ファインマン(Richard Feynman)の1982年の論文Simulating Physics with Computers(Simulating Physics with Computers)の物理的内容と重大な結果について述べる。
This invited essay belongs to a series considering highly influential articles published by the International Journal of Theoretical Physics. In this paper, we highlight the physical content and the profound consequences of Richard Feynman's 1982 paper on "Simulating Physics with Computers". | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# 競合する知恵の防衛による大規模言語モデルによる説明可能なフェイクニュース検出
Explainable Fake News Detection With Large Language Model via Defense Among Competing Wisdom ( http://arxiv.org/abs/2405.03371v1 ) ライセンス: Link先を確認 | Bo Wang, Jing Ma, Hongzhan Lin, Zhiwei Yang, Ruichao Yang, Yuan Tian, Yi Chang, | (参考訳) ほとんどの偽ニュース検出方法はニューラルネットワークに基づいて潜在特徴表現を学習するので、正当化せずにニュースを分類するブラックボックスになる。
既存の説明可能なシステムは、遅れと効率の低下に苦しむ調査ジャーナリズムから妥当性の正当性を生じる。
近年の研究では、正当化は群衆の知恵に表される多数意見に等しいと仮定されている。
しかし、一般に意見には、群衆の知恵が無検閲であるため、不正確な情報や偏見のある情報が含まれている。
本稿では,多様で混み合った,あるいは競合する物語の海から偽ニュースを検出するために,新しい防衛ベースの説明可能な偽ニュース検出フレームワークを提案する。
具体的には,まず,集団の知恵を2つの競合相手に分割し,それぞれに有能な証拠を検出するエビデンス抽出モジュールを提案する。
証拠から簡潔な洞察を得るため、我々は大きな言語モデルを用いて2つの可能な妥当性の理由を推測して正当化を生成するプロンプトベースのモジュールを設計する。
最後に,これらの正当性のうちの防御をモデル化し,正当性を決定するためのディフェンスベース推論モジュールを提案する。
2つの実世界のベンチマークで行った大規模な実験により、提案手法は偽ニュースの検出において最先端のベースラインよりも優れ、高品質な正当性を提供することが示された。
Most fake news detection methods learn latent feature representations based on neural networks, which makes them black boxes to classify a piece of news without giving any justification. Existing explainable systems generate veracity justifications from investigative journalism, which suffer from debunking delayed and low efficiency. Recent studies simply assume that the justification is equivalent to the majority opinions expressed in the wisdom of crowds. However, the opinions typically contain some inaccurate or biased information since the wisdom of crowds is uncensored. To detect fake news from a sea of diverse, crowded and even competing narratives, in this paper, we propose a novel defense-based explainable fake news detection framework. Specifically, we first propose an evidence extraction module to split the wisdom of crowds into two competing parties and respectively detect salient evidences. To gain concise insights from evidences, we then design a prompt-based module that utilizes a large language model to generate justifications by inferring reasons towards two possible veracities. Finally, we propose a defense-based inference module to determine veracity via modeling the defense among these justifications. Extensive experiments conducted on two real-world benchmarks demonstrate that our proposed method outperforms state-of-the-art baselines in terms of fake news detection and provides high-quality justifications. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# Snake Learning: 6Gのためのコミュニケーションと計算効率の良い分散学習フレームワーク
Snake Learning: A Communication- and Computation-Efficient Distributed Learning Framework for 6G ( http://arxiv.org/abs/2405.03372v1 ) ライセンス: Link先を確認 | Xiaoxue Yu, Xingfu Yi, Rongpeng Li, Fei Wang, Chenghui Peng, Zhifeng Zhao, Honggang Zhang, | (参考訳) 6Gへの進化の中で、ネットワークインテリジェンスとリソース利用を強化する重要な戦略として、AI(Artificial Intelligence)と高度なネットワークインフラストラクチャの統合が登場している。
Federated LearningやSplit Learningのような既存の分散学習フレームワークは、高い同期要求、コストのかかる通信オーバーヘッド、厳しいコンピューティングリソース消費、ネットワークノード間のデータの均一性など、動的ネットワーク環境における重大な課題に悩まされることが多い。
これらの障害は、6Gネットワークのユビキタスコンピューティング能力の応用を妨げる。
これらの課題を効果的に解決するために,コスト効率のよい分散学習フレームワークであるSnake Learningを紹介した。
具体的には、Snake Learningは6Gネットワークにおけるノード間計算能力とローカルデータ分散の不均一性を尊重し、個々のノード上でモデルレイヤの指定された部分を逐次訓練する。
このレイヤバイ層セルペンチン更新機構は、モデルトレーニングフェーズにおけるストレージ、メモリ、通信の要求を大幅に低減し、コンピュータビジョン(CV)トレーニングとLLM(Large Language Model)ファインチューニングタスクにおいて、均一なデータ分散と不均一なデータ分散の両方において、優れた適応性と効率性を示す。
In the evolution towards 6G, integrating Artificial Intelligence (AI) with advanced network infrastructure emerges as a pivotal strategy for enhancing network intelligence and resource utilization. Existing distributed learning frameworks like Federated Learning and Split Learning often struggle with significant challenges in dynamic network environments including high synchronization demands, costly communication overheads, severe computing resource consumption, and data heterogeneity across network nodes. These obstacles hinder the applications of ubiquitous computing capabilities of 6G networks, especially in light of the trend of escalating model parameters and training data volumes. To address these challenges effectively, this paper introduces "Snake Learning", a cost-effective distributed learning framework. Specifically, Snake Learning respects the heterogeneity of inter-node computing capability and local data distribution in 6G networks, and sequentially trains the designated part of model layers on individual nodes. This layer-by-layer serpentine update mechanism contributes to significantly reducing the requirements for storage, memory and communication during the model training phase, and demonstrates superior adaptability and efficiency for both Computer Vision (CV) training and Large Language Model (LLM) fine-tuning tasks across homogeneous and heterogeneous data distributions. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# リモートセンシング画像のための知識認識型テキスト画像検索
Knowledge-aware Text-Image Retrieval for Remote Sensing Images ( http://arxiv.org/abs/2405.03373v1 ) ライセンス: Link先を確認 | Li Mi, Xianjie Dai, Javiera Castillo-Navarro, Devis Tuia, | (参考訳) 大規模な地球観測アーカイブにおける画像ベースの検索は、クエリ画像のみをガイドとして、何千もの候補をナビゲートする必要があるため、困難である。
ビジュアルクエリをサポートする情報としてテキストを使用することで、検索システムはユーザビリティが向上するが、同時に短いキャプションのみで要約できない視覚信号の多様性のために困難に直面している。
このため、マッチングベースのタスクであるクロスモーダルテキストイメージ検索は、しばしばテキストと画像間の情報非対称性に悩まされる。
この課題に対処するため、遠隔センシング画像のための知識対応テキスト画像検索法(KTIR)を提案する。
外部知識グラフから関連情報をマイニングすることで、KTIRは検索クエリで利用可能なテキスト範囲を強化し、テキストと画像間の情報ギャップを緩和し、マッチングを改善する。
さらに、ドメイン固有の知識を統合することで、KTIRは学習済みの視覚言語モデルのリモートセンシングアプリケーションへの適応も強化する。
3つの一般的なリモートセンシングテキスト画像検索ベンチマークによる実験結果から,提案手法は多種多様な一貫した検索を導出し,最先端の検索方法よりも優れていた。
Image-based retrieval in large Earth observation archives is challenging because one needs to navigate across thousands of candidate matches only with the query image as a guide. By using text as information supporting the visual query, the retrieval system gains in usability, but at the same time faces difficulties due to the diversity of visual signals that cannot be summarized by a short caption only. For this reason, as a matching-based task, cross-modal text-image retrieval often suffers from information asymmetry between texts and images. To address this challenge, we propose a Knowledge-aware Text-Image Retrieval (KTIR) method for remote sensing images. By mining relevant information from an external knowledge graph, KTIR enriches the text scope available in the search query and alleviates the information gaps between texts and images for better matching. Moreover, by integrating domain-specific knowledge, KTIR also enhances the adaptation of pre-trained vision-language models to remote sensing applications. Experimental results on three commonly used remote sensing text-image retrieval benchmarks show that the proposed knowledge-aware method leads to varied and consistent retrievals, outperforming state-of-the-art retrieval methods. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# CRA5: 効率的な変圧器による可搬型気候・気象研究のためのERA5の極端圧縮
CRA5: Extreme Compression of ERA5 for Portable Global Climate and Weather Research via an Efficient Variational Transformer ( http://arxiv.org/abs/2405.03376v1 ) ライセンス: Link先を確認 | Tao Han, zhenghao Chen, Song Guo, Wanghan Xu, Lei Bai, | (参考訳) データ駆動型天気予報モデルの出現は、数百テラバイト(TB)のリアナリシスデータから学習し、かなり高度な予報能力を持っている。
しかし、データストレージと送信に関連するかなりのコストは、データプロバイダとユーザにとって大きな課題となり、リソース制約のある研究者に影響を与え、AIベースの気象研究に参加するためのアクセシビリティを制限する。
この問題を軽減するため、気候データの極端な圧縮のための効率的なニューラルコーデックであるVAEformerを導入し、データ保存コストを大幅に削減し、AIベースの気象研究を研究者にポータブルにする。
提案手法は,低複雑性オートエンコーダ変換器を用いて,近年の複雑なニューラルコーデックから分岐する。
このエンコーダは分散推論を通じて量子化された潜在表現を生成し、これは潜在空間をガウス分布として再パラメータ化する。
この方法は、クロスエントロピー符号化のための分布推定を改善する。
我々のVAEformerは、気候データの文脈において、既存の最先端の圧縮方法よりも優れています。
VAEformerを適用することで、最も人気のあるERA5気候データセット(226 TB)を新しいデータセットCRA5(0.7 TB)に圧縮しました。
これは、正確な科学的分析のためにデータセットの有用性を維持しながら、300以上の圧縮比に変換される。
さらに、下流実験では、コンパクトなCRA5データセットでトレーニングされた地球規模の天気予報モデルが、元のデータセットでトレーニングされたモデルに匹敵する予測精度を達成することが示されている。
コード、CRA5データセット、事前トレーニングされたモデルはhttps://github.com/taohan10200/CRA5.comで入手できる。
The advent of data-driven weather forecasting models, which learn from hundreds of terabytes (TB) of reanalysis data, has significantly advanced forecasting capabilities. However, the substantial costs associated with data storage and transmission present a major challenge for data providers and users, affecting resource-constrained researchers and limiting their accessibility to participate in AI-based meteorological research. To mitigate this issue, we introduce an efficient neural codec, the Variational Autoencoder Transformer (VAEformer), for extreme compression of climate data to significantly reduce data storage cost, making AI-based meteorological research portable to researchers. Our approach diverges from recent complex neural codecs by utilizing a low-complexity Auto-Encoder transformer. This encoder produces a quantized latent representation through variance inference, which reparameterizes the latent space as a Gaussian distribution. This method improves the estimation of distributions for cross-entropy coding. Extensive experiments demonstrate that our VAEformer outperforms existing state-of-the-art compression methods in the context of climate data. By applying our VAEformer, we compressed the most popular ERA5 climate dataset (226 TB) into a new dataset, CRA5 (0.7 TB). This translates to a compression ratio of over 300 while retaining the dataset's utility for accurate scientific analysis. Further, downstream experiments show that global weather forecasting models trained on the compact CRA5 dataset achieve forecasting accuracy comparable to the model trained on the original dataset. Code, the CRA5 dataset, and the pre-trained model are available at https://github.com/taohan10200/CRA5. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# 室温コロイド量子ドットからの単一光子の軌道角運動量を用いた高次元量子鍵分布
High-dimensional quantum key distribution using orbital angular momentum of single photons from a colloidal quantum dot at room temperature ( http://arxiv.org/abs/2405.03377v1 ) ライセンス: Link先を確認 | Dotan Halevi, Boaz Lubotzky, Kfir Sulimany, Eric G. Bowes, Jennifer A. Hollingsworth, Yaron Bromberg, Ronen Rapaport, | (参考訳) 高次元量子鍵分布(HDQKD)は、基本QKDプロトコルの固有の制限に対処するための有望な方法である。
しかし、これまでHDQKDの実験的な実現は、達成可能な鍵レートを制限する不決定性光子源に依存してきた。
本稿では,単一のコロイド巨大量子ドット(gQD)を決定論的,コンパクトかつ室温の単一光子源(SPS)として用いたHDQKDシステムの完全なエミュレーションを実演する。
我々は、光子の軌道角運動量の高次元空間(d = 3$)で情報を符号化することで、実用的なプロトコルを実証する。
実験では、2つの空間光変調器を組み込んで、個々の光子によって運ばれる空間情報を符号化・復号する。
実験により,高放射能量子収率gQDをHDQKDの実用的なSPSとして利用できることを示す。
また,1光子当たり1ビットを超えるQudit伝送を実験的に実証し,従来のd=2QKD容量をすでに上回っている。
High-dimensional quantum key distribution (HDQKD) is a promising avenue to address the inherent limitations of basic QKD protocols. However, experimental realizations of HDQKD to date have relied on indeterministic photon sources that limit the achievable key rate. In this paper, we demonstrate a full emulation of a HDQKD system using a single colloidal giant quantum dot (gQD) as a deterministic, compact and room-temperature single-photon source (SPS). We demonstrate a practical protocol by encoding information in a high-dimensional space ($d = 3$) of the orbital angular momentum of the photons. Our experimental configuration incorporates two spatial light modulators for encoding and decoding the spatial information carried by individual photons. Our experimental demonstration establishes the feasibility of utilizing high radiative quantum yield gQDs as practical SPSs for HDQKD. We also demonstrate experimentally secure qudit transmission exceeding one secure bit per photon, thus already beating the traditional d=2 QKD capacity. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# 強化学習における極端サンプルと実証効率の逆フォワード学習
Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning ( http://arxiv.org/abs/2405.03379v1 ) ライセンス: Link先を確認 | Stone Tao, Arth Shukla, Tse-kai Chan, Hao Su, | (参考訳) 強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学習する有望なフレームワークを提供するが、スパース報酬から複雑なタスクを解決するために、多くの場合、実現不可能な量の相互作用データを必要とする。
ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、特にロボット工学のような分野において、取得が困難な高品質なデモデータを必要とすることが多い。
私たちのアプローチは、逆のカリキュラムと、前方のカリキュラムで構成されています。
過去の作業と比較して、我々のアプローチに共通しているのは、ステートリセットによって生成されるデモごとのリバースカリキュラムを通じて、複数のデモを効率的に活用できることです。
逆のカリキュラムの結果は、狭い初期状態分布でうまく機能し、困難な探索問題を克服するのに役立つ初期ポリシーである。
フォワードカリキュラムを使用して、初期方針の訓練を加速し、タスクの完全な初期状態分布を良好に実行し、実演とサンプル効率を改善する。
提案手法における逆カリキュラムと前方カリキュラムの組合せであるRFCLは,高度な精度と制御を必要とする未解決タスクを解くことさえも,様々な最先端の学習ベースラインと比較して,実演とサンプル効率を大幅に向上させることができることを示す。
Reinforcement learning (RL) presents a promising framework to learn policies through environment interaction, but often requires an infeasible amount of interaction data to solve complex tasks from sparse rewards. One direction includes augmenting RL with offline data demonstrating desired tasks, but past work often require a lot of high-quality demonstration data that is difficult to obtain, especially for domains such as robotics. Our approach consists of a reverse curriculum followed by a forward curriculum. Unique to our approach compared to past work is the ability to efficiently leverage more than one demonstration via a per-demonstration reverse curriculum generated via state resets. The result of our reverse curriculum is an initial policy that performs well on a narrow initial state distribution and helps overcome difficult exploration problems. A forward curriculum is then used to accelerate the training of the initial policy to perform well on the full initial state distribution of the task and improve demonstration and sample efficiency. We show how the combination of a reverse curriculum and forward curriculum in our method, RFCL, enables significant improvements in demonstration and sample efficiency compared against various state-of-the-art learning-from-demonstration baselines, even solving previously unsolvable tasks that require high precision and control. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# 形状表現のための統計的エッジ検出とUDF学習
Statistical Edge Detection And UDF Learning For Shape Representation ( http://arxiv.org/abs/2405.03381v1 ) ライセンス: Link先を確認 | Virgile Foy, Fabrice Gamboa, Reda Chhaibi, | (参考訳) コンピュータビジョンの分野では、3次元曲面の数値符号化が不可欠である。
SDF(Signed Distance Function)やUDF(Unsigned Distance Function)で表される。
表現学習、表面分類、表面再構成などのタスクでは、ニューラルネットワーク(Neural Distance Function)と呼ばれる関数が学習される。
このネットワーク、特にその重みは、表面のパラメトリックで暗黙的な表現として機能する。
ネットワークは可能な限り正確に表面を表現しなければならない。
本稿では,得られたニューラルUDFの元の3次元表面への忠実度を向上させるUDFの学習法を提案する。
提案手法の鍵となる考え方は,ニューラルUDFの学習を表面エッジに集中させることである。
より正確には、表面縁周辺でより多くのトレーニングポイントをサンプリングすることで、トレーニングされたニューラルUDFの局所的精度が向上し、ハウゼンドルフ距離の観点からニューラルUDFのグローバルな表現性が向上することを示す。
表面のエッジを検出するために,表面の各点における$p$-値の計算に基づく新しい統計手法を提案する。
本手法は局所的な幾何学的記述子よりも表面のエッジを高精度に検出する。
In the field of computer vision, the numerical encoding of 3D surfaces is crucial. It is classical to represent surfaces with their Signed Distance Functions (SDFs) or Unsigned Distance Functions (UDFs). For tasks like representation learning, surface classification, or surface reconstruction, this function can be learned by a neural network, called Neural Distance Function. This network, and in particular its weights, may serve as a parametric and implicit representation for the surface. The network must represent the surface as accurately as possible. In this paper, we propose a method for learning UDFs that improves the fidelity of the obtained Neural UDF to the original 3D surface. The key idea of our method is to concentrate the learning effort of the Neural UDF on surface edges. More precisely, we show that sampling more training points around surface edges allows better local accuracy of the trained Neural UDF, and thus improves the global expressiveness of the Neural UDF in terms of Hausdorff distance. To detect surface edges, we propose a new statistical method based on the calculation of a $p$-value at each point on the surface. Our method is shown to detect surface edges more accurately than a commonly used local geometric descriptor. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# GLIP:深部生成ネットワークによる電磁界露光マップの完成
GLIP: Electromagnetic Field Exposure Map Completion by Deep Generative Networks ( http://arxiv.org/abs/2405.03384v1 ) ライセンス: Link先を確認 | Mohammed Mallik, Davy P. Gaillot, Laurent Clavier, | (参考訳) スペクトル地図 (SC) では、高周波電磁場(RF-EMF)の露光マップの生成は、周波数、空間、時間の次元にまたがっており、センサーデータの希少な収集に依存しており、不適切な逆問題を引き起こしている。
モデルに基づくカルトグラフィー手法は、この逆問題の解を洗練させるために、疎度や低ランク構造といった設計済みの先行概念を統合する。
前報では, 物理法則や構造制約を事前に用いたGAN(Generative Adversarial Networks)を用いてEMF露光マップの再構成を行った。
本稿では,GINのジェネレータネットワークのみを用いて,明示的なトレーニングを必要としないEMF露光マップを再構築し,参照フル露光マップなどのGANの限界を克服する手法を提案する。
このアプローチでは,都市環境における画像からネットワークパラメータを学習することなく,深層畳み込み生成ネットワークによってキャプチャされたローカル画像優先(LIP)としてセンサデータから先行する手法を用いる。
実験結果から, センサデータのみを使用できたとしても, 正確な推定が可能であることがわかった。
In Spectrum cartography (SC), the generation of exposure maps for radio frequency electromagnetic fields (RF-EMF) spans dimensions of frequency, space, and time, which relies on a sparse collection of sensor data, posing a challenging ill-posed inverse problem. Cartography methods based on models integrate designed priors, such as sparsity and low-rank structures, to refine the solution of this inverse problem. In our previous work, EMF exposure map reconstruction was achieved by Generative Adversarial Networks (GANs) where physical laws or structural constraints were employed as a prior, but they require a large amount of labeled data or simulated full maps for training to produce efficient results. In this paper, we present a method to reconstruct EMF exposure maps using only the generator network in GANs which does not require explicit training, thus overcoming the limitations of GANs, such as using reference full exposure maps. This approach uses a prior from sensor data as Local Image Prior (LIP) captured by deep convolutional generative networks independent of learning the network parameters from images in an urban environment. Experimental results show that, even when only sparse sensor data are available, our method can produce accurate estimates. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# Annot-Mix: 混合拡張による複数アノテーションからのノイズのあるクラスラベルによる学習
Annot-Mix: Learning with Noisy Class Labels from Multiple Annotators via a Mixup Extension ( http://arxiv.org/abs/2405.03386v1 ) ライセンス: Link先を確認 | Marek Herde, Lukas Lührs, Denis Huseljic, Bernhard Sick, | (参考訳) ノイズのあるクラスラベルによるトレーニングは、ニューラルネットワークの一般化性能を損なう。
この文脈では、ミックスアップは、偽クラスラベルの記憶をより困難にすることで、トレーニングの堅牢性を改善するための一般的な正規化手法である。
しかしmixupは、一般的に複数のアノテーション、例えばクラウドワーカーがクラスラベルを提供することを無視する。
そこで本研究では,各インスタンス毎に複数のクラスラベルを処理し,どのクラスラベルがアノテータから派生しているかを考慮しながら,mixupの拡張を提案する。
マルチアノテータ分類フレームワークAnnot-mixに統合され、人間またはシミュレートされたアノテータによって提供されるノイズの多いクラスラベルを持つ11のデータセットに対して、最先端の8つのアプローチよりも優れている。
私たちのコードは、https://github.com/ies-research/annot-mix.comのリポジトリから公開されています。
Training with noisy class labels impairs neural networks' generalization performance. In this context, mixup is a popular regularization technique to improve training robustness by making memorizing false class labels more difficult. However, mixup neglects that, typically, multiple annotators, e.g., crowdworkers, provide class labels. Therefore, we propose an extension of mixup, which handles multiple class labels per instance while considering which class label originates from which annotator. Integrated into our multi-annotator classification framework annot-mix, it performs superiorly to eight state-of-the-art approaches on eleven datasets with noisy class labels provided either by human or simulated annotators. Our code is publicly available through our repository at https://github.com/ies-research/annot-mix. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# ChatGPTの高次元心理学的特徴と文化的バイアス
The high dimensional psychological profile and cultural bias of ChatGPT ( http://arxiv.org/abs/2405.03387v1 ) ライセンス: Link先を確認 | Hang Yuan, Zhongyue Che, Shao Li, Yue Zhang, Xiaomeng Hu, Siyang Luo, | (参考訳) 大規模言語モデルの急速な進歩を考えると、ChatGPTのような人工知能(AI)モデルは、人間の社会においてますます顕著な役割を担っている。
しかし、人工知能モデルが人間の社会に利益をもたらすためには、まず、人工知能モデルと実際の人間によって提示される人間のような特徴と、人工知能モデルが人間と対話する過程で提示される文化的ステレオタイプとバイアスの類似点と相違点を十分に理解する必要がある。
本研究は、ChatGPTを84次元の心理特性で測定し、多くの次元におけるChatGPTと人間の規範の相違と高次元の心理学的表現の相違を明らかにした。
また,チャットGPTの文化的価値パターンは,チャットGPTの文化的価値パターンが世界各国や地域と異なっていた。
その結果,ChatGPTは意思決定タスクのほとんどにおいて明確な文化的ステレオタイプを示し,第三者の罰や最後通しゲームにおいて有意な文化的バイアスを示すことが明らかとなった。
以上の結果から,ChatGPTは人間に比べて,心理的特徴と文化的価値指向が明瞭であり,対人的意思決定における文化的バイアスやステレオタイプも示している。
今後の研究課題は、より効率的な異文化間コミュニケーションを促進し、社会的格差を軽減するために、データベースにおける技術的監視の強化と透明性の強化、およびアルゴリズムによる訓練手順を重視すべきである。
Given the rapid advancement of large-scale language models, artificial intelligence (AI) models, like ChatGPT, are playing an increasingly prominent role in human society. However, to ensure that artificial intelligence models benefit human society, we must first fully understand the similarities and differences between the human-like characteristics exhibited by artificial intelligence models and real humans, as well as the cultural stereotypes and biases that artificial intelligence models may exhibit in the process of interacting with humans. This study first measured ChatGPT in 84 dimensions of psychological characteristics, revealing differences between ChatGPT and human norms in most dimensions as well as in high-dimensional psychological representations. Additionally, through the measurement of ChatGPT in 13 dimensions of cultural values, it was revealed that ChatGPT's cultural value patterns are dissimilar to those of various countries/regions worldwide. Finally, an analysis of ChatGPT's performance in eight decision-making tasks involving interactions with humans from different countries/regions revealed that ChatGPT exhibits clear cultural stereotypes in most decision-making tasks and shows significant cultural bias in third-party punishment and ultimatum games. The findings indicate that, compared to humans, ChatGPT exhibits a distinct psychological profile and cultural value orientation, and it also shows cultural biases and stereotypes in interpersonal decision-making. Future research endeavors should emphasize enhanced technical oversight and augmented transparency in the database and algorithmic training procedures to foster more efficient cross-cultural communication and mitigate social disparities. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# 4次元入射ニューラル表現を用いた動的環境における3次元LiDARマッピング
3D LiDAR Mapping in Dynamic Environments Using a 4D Implicit Neural Representation ( http://arxiv.org/abs/2405.03388v1 ) ライセンス: Link先を確認 | Xingguang Zhong, Yue Pan, Cyrill Stachniss, Jens Behley, | (参考訳) 正確な地図の構築は、自動運転車の信頼性の高いローカライゼーション、計画、ナビゲーションを可能にする重要なビルディングブロックである。
そこで本研究では,LiDARスキャンを用いた動的環境の高精度マップ構築手法を提案する。
そこで本研究では,時間依存の符号付き距離関数を各点に組み込むことで,新しい時空間的暗黙的ニューラルマップ表現に4Dシーンを符号化する。
この表現を用いて,動的部分のフィルタリングにより静的マップを抽出する。
我々のニューラル表現はスパース機能グリッド、グローバル共有デコーダ、時間依存基底関数に基づいており、教師なしの方法で協調的に最適化する。
この表現をLiDARスキャンのシーケンスから学習するために,地図の最適化を断片的に監視する簡易で効率的な損失関数を設計する。
我々は静的マップの復元品質と動的点雲のセグメンテーションの観点から,移動物体を含む様々なシーンに対するアプローチを評価した。
実験結果から,提案手法は高精度で完全な3次元地図を再構成しながら,入力点雲の動的部分の除去が可能であり,最先端の手法よりも優れていることが示された。
コードは、https://github.com/PRBonn/4dNDFで入手できる。
Building accurate maps is a key building block to enable reliable localization, planning, and navigation of autonomous vehicles. We propose a novel approach for building accurate maps of dynamic environments utilizing a sequence of LiDAR scans. To this end, we propose encoding the 4D scene into a novel spatio-temporal implicit neural map representation by fitting a time-dependent truncated signed distance function to each point. Using our representation, we extract the static map by filtering the dynamic parts. Our neural representation is based on sparse feature grids, a globally shared decoder, and time-dependent basis functions, which we jointly optimize in an unsupervised fashion. To learn this representation from a sequence of LiDAR scans, we design a simple yet efficient loss function to supervise the map optimization in a piecewise way. We evaluate our approach on various scenes containing moving objects in terms of the reconstruction quality of static maps and the segmentation of dynamic point clouds. The experimental results demonstrate that our method is capable of removing the dynamic part of the input point clouds while reconstructing accurate and complete 3D maps, outperforming several state-of-the-art methods. Codes are available at: https://github.com/PRBonn/4dNDF | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# 時間を無駄にしない - クロスバリデーションの早期停止
Don't Waste Your Time: Early Stopping Cross-Validation ( http://arxiv.org/abs/2405.03389v1 ) ライセンス: Link先を確認 | Edward Bergman, Lennart Purucker, Frank Hutter, | (参考訳) グラフデータのための最先端の自動機械学習システムは、しばしばクロスバリデーションを使用し、測定されたパフォーマンスが目に見えないデータに一般化すること、あるいはその後のアンサンブルが過度に適合しないことを保証する。
しかし、ホールドアウトバリデーションの代わりにk倍のクロスバリデーションを使用すると、単一の構成を検証する計算コストが大幅に増大する。
より良い一般化と、拡張によって、より良いパフォーマンスを保証する一方で、追加のコストは、しばしば時間予算内で効果的なモデル選択を禁止します。
クロスバリデーションによるモデル選択をより効果的にすることを目指している。
そこで本研究では,モデル選択時のクロスバリデーションプロセスの早期停止について検討する。
我々は,36の分類データセットにおいて,早期停止が2つのアルゴリズム(MLPとランダムフォレスト)のランダム探索に与える影響について検討した。
さらに, 3, 5-, 10-folds を考慮し, 折りたたみ数の影響を解析した。
さらに,ランダム探索の代わりにベイズ最適化による早期停止の効果と,繰り返しのクロスバリデーションについて検討した。
我々の探索的研究は、単純な理解と実装の容易な方法でさえ、モデル選択が一貫して高速に収束できることを示し、全てのデータセットの94%が平均214%の速度でモデル選択を行う。
さらに、クロスバリデーションの停止により、1時間以内に平均で+167%の構成を考慮し、モデル選択により検索空間をより徹底的に探索できると同時に、全体的なパフォーマンスも向上する。
State-of-the-art automated machine learning systems for tabular data often employ cross-validation; ensuring that measured performances generalize to unseen data, or that subsequent ensembling does not overfit. However, using k-fold cross-validation instead of holdout validation drastically increases the computational cost of validating a single configuration. While ensuring better generalization and, by extension, better performance, the additional cost is often prohibitive for effective model selection within a time budget. We aim to make model selection with cross-validation more effective. Therefore, we study early stopping the process of cross-validation during model selection. We investigate the impact of early stopping on random search for two algorithms, MLP and random forest, across 36 classification datasets. We further analyze the impact of the number of folds by considering 3-, 5-, and 10-folds. In addition, we investigate the impact of early stopping with Bayesian optimization instead of random search and also repeated cross-validation. Our exploratory study shows that even a simple-to-understand and easy-to-implement method consistently allows model selection to converge faster; in ~94% of all datasets, on average by ~214%. Moreover, stopping cross-validation enables model selection to explore the search space more exhaustively by considering +167% configurations on average within one hour, while also obtaining better overall performance. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# カオス力学と極端な事象の予測:再帰性のない量子貯水池計算アプローチ
Prediction of chaotic dynamics and extreme events: A recurrence-free quantum reservoir computing approach ( http://arxiv.org/abs/2405.03390v1 ) ライセンス: Link先を確認 | Osama Ahmed, Felix Tennie, Luca Magri, | (参考訳) カオス力学系において、極端事象は予測不能な大振幅ピークとして時系列に現れる。
決定論的ではあるが、極端な事象はランダムに見えるため、予測は困難である。
観測可能な(データ)から力学を学ぶことで、貯水池コンピュータは極端な事象やカオス力学を時間精度で予測できるが、多くの自由度を必要とする(大規模な貯水池)。
本稿では,量子コンピュータのアンス・アテンションと絡み合いを利用して,コンパクトな貯水池と正確な予測能力を備えた貯水池コンピュータを設計する。
まず,再帰性のない量子貯水池コンピュータ (RF-QRC) アーキテクチャを提案する。
アドホックな量子特徴写像を開発し、繰り返し接続を取り除くことで、RF-QRCは小さな深さの量子回路を持つ。
これにより、RF-QRCは高次元カオスシステムとうまくスケールでき、ハードウェアの実装に適している。
第2に,低次元・高次元力学系の時間カオス力学とその長期統計を予測した。
RF-QRCは従来の貯水池コンピュータよりも小さな貯水池を必要とする。
第3に,乱流バーストを伴う乱流せん断流れのモデルにおける極端事象の時間予測にRF-QRCを適用した。
RF-QRCは従来の貯水池コンピュータよりも予測可能性が高いことがわかった。
結果と分析から、量子コンピュータのアンス・アッツは非線形表現性と計算のスケーラビリティを提供し、カオス力学や極端な事象を予測するのに有用であることが示唆された。
この研究は、短期量子コンピュータで量子機械学習を使用する新たな機会を開く。
In chaotic dynamical systems, extreme events manifest in time series as unpredictable large-amplitude peaks. Although deterministic, extreme events appear seemingly randomly, which makes their forecasting difficult. By learning the dynamics from observables (data), reservoir computers can time-accurately predict extreme events and chaotic dynamics, but they may require many degrees of freedom (large reservoirs). In this paper, by exploiting quantum-computer ans\"atze and entanglement, we design reservoir computers with compact reservoirs and accurate prediction capabilities. First, we propose the recurrence-free quantum reservoir computer (RF-QRC) architecture. By developing ad-hoc quantum feature maps and removing recurrent connections, the RF-QRC has quantum circuits with small depths. This allows the RF-QRC to scale well with higher-dimensional chaotic systems, which makes it suitable for hardware implementation. Second, we forecast the temporal chaotic dynamics and their long-term statistics of low- and higher-dimensional dynamical systems. We find that RF-QRC requires smaller reservoirs than classical reservoir computers. Third, we apply the RF-QRC to the time prediction of extreme events in a model of a turbulent shear flow with turbulent bursts. We find that the RF-QRC has a longer predictability than the classical reservoir computer. The results and analyses indicate that quantum-computer ans\"atze offer nonlinear expressivity and computational scalability, which are useful for forecasting chaotic dynamics and extreme events. This work opens new opportunities for using quantum machine learning on near-term quantum computers. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# E2GNN: 半教師付き分類のための効率的なグラフニューラルネットワークアンサンブル
E2GNN: Efficient Graph Neural Network Ensembles for Semi-Supervised Classification ( http://arxiv.org/abs/2405.03401v1 ) ライセンス: Link先を確認 | Xin Zhang, Daochen Zha, Qiaoyu Tan, | (参考訳) 本研究では、グラフニューラルネットワーク(GNN)のアンサンブル学習を、人気のある半教師付き環境下で研究する。
アンサンブル学習は、複数の弱い学習者の出力を組み合わせることで、従来の機械学習の精度と堅牢性を改善する上で優位性を示している。
しかし、異なるGNNモデルを統合するために同様の考え方を採用することは、2つの理由から難しい。
まず、GNNは推論能力が悪いことで悪名高いため、複数のGNNモデルを鼻で組み立てることで推論効率が低下する。
第二に、GNNモデルがほとんどラベル付きノードでトレーニングされている場合、その性能は制限される。
この場合、バニラアンサンブルアプローチ(例えば多数決)は、ほとんどのベースモデル、すなわちGNNが間違った予測をするので、準最適である可能性がある。
そこで本稿では,ラベル付きノードとラベルなしノードの両方を活用することで,複数のGNNを学習可能な方法で組み立てる,効率的なアンサンブル学習者を提案する。
具体的には、まず、ラベル付きノードに従って、所定のデータシナリオ上で異なるGNNモデルを事前訓練する。
次に、ラベル付きノードとラベルなしノードの両方で予測を模倣するために、ラベル推論のために出力を直接組み合わせる代わりに、単純な多層パーセプトロン-MLPモデルを訓練する。
次に、統一MLPモデルがデプロイされ、ラベルなしまたは新しいノードのラベルを推測する。
異なるGNNモデルからのラベル付きノードの予測は誤りである可能性があるため、誤予測ノードを効果的にフィルタリングし、MPPの性能を高めるための強化判別器を開発する。
これにより、GNNアンサンブルの推論問題に対処し、アンサンブル学習のメリットを維持するための原則的アプローチを提案する。
さまざまなGNNバックボーンと8つのベンチマークデータセットにまたがる、トランスダクティブとインダクティブ両方の設定に関する包括的な実験は、E2GNNの優位性を実証している。
This work studies ensemble learning for graph neural networks (GNNs) under the popular semi-supervised setting. Ensemble learning has shown superiority in improving the accuracy and robustness of traditional machine learning by combining the outputs of multiple weak learners. However, adopting a similar idea to integrate different GNN models is challenging because of two reasons. First, GNN is notorious for its poor inference ability, so naively assembling multiple GNN models would deteriorate the inference efficiency. Second, when GNN models are trained with few labeled nodes, their performance are limited. In this case, the vanilla ensemble approach, e.g., majority vote, may be sub-optimal since most base models, i.e., GNNs, may make the wrong predictions. To this end, in this paper, we propose an efficient ensemble learner--E2GNN to assemble multiple GNNs in a learnable way by leveraging both labeled and unlabeled nodes. Specifically, we first pre-train different GNN models on a given data scenario according to the labeled nodes. Next, instead of directly combing their outputs for label inference, we train a simple multi-layer perceptron--MLP model to mimic their predictions on both labeled and unlabeled nodes. Then the unified MLP model is deployed to infer labels for unlabeled or new nodes. Since the predictions of unlabeled nodes from different GNN models may be incorrect, we develop a reinforced discriminator to effectively filter out those wrongly predicted nodes to boost the performance of MLP. By doing this, we suggest a principled approach to tackle the inference issues of GNN ensembles and maintain the merit of ensemble learning: improved performance. Comprehensive experiments over both transductive and inductive settings, across different GNN backbones and 8 benchmark datasets, demonstrate the superiority of E2GNN. | 翻訳日:2024-05-07 13:56:21 公開日:2024-05-06 |
# 医療領域における障害モードと効果分析を用いた治療自動計算
Automated Computation of Therapies Using Failure Mode and Effects Analysis in the Medical Domain ( http://arxiv.org/abs/2405.03406v1 ) ライセンス: Link先を確認 | Malte Luttermann, Edgar Baake, Juljan Bouchagiar, Benjamin Gebel, Philipp Grüning, Dilini Manikwadura, Franziska Schollemann, Elisa Teifke, Philipp Rostalski, Ralf Möller, | (参考訳) フェールモードとエフェクト分析(FMEA)は、システムやプロセスにおける潜在的な障害とその影響を特定し、分析するための体系的なアプローチである。
しかし、FMEAアプローチでは、ドメインの専門家がFMEAモデルを手動で分析し、適用すべきリスク低減アクションを導出する必要がある。
本稿では、FMEAモデルにおける自動計画と動作を可能にするための正式なフレームワークを提供する。
具体的には、FMEAモデルをマルコフ決定プロセスに投入し、既存の問題解決者によって解決することができる。
FMEAアプローチは, モデル作成過程において, 医療専門家を支援するだけでなく, 患者に対する最適な治療法を自動導出するためにも有効であることを示す。
Failure mode and effects analysis (FMEA) is a systematic approach to identify and analyse potential failures and their effects in a system or process. The FMEA approach, however, requires domain experts to manually analyse the FMEA model to derive risk-reducing actions that should be applied. In this paper, we provide a formal framework to allow for automatic planning and acting in FMEA models. More specifically, we cast the FMEA model into a Markov decision process which can then be solved by existing solvers. We show that the FMEA approach can not only be used to support medical experts during the modelling process but also to automatically derive optimal therapies for the treatment of patients. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# 事前学習型ディープニューラルネットワークによる画像品質評価とマスキングアルゴリズム
An Image Quality Evaluation and Masking Algorithm Based On Pre-trained Deep Neural Networks ( http://arxiv.org/abs/2405.03408v1 ) ライセンス: Link先を確認 | Peng Jia, Yu Song, Jiameng Lv, Runyu Ning, | (参考訳) 天文データの増加に伴い、人間の介入なしに観測データから科学的情報を抽出できる自動データ処理パイプラインの必要性が高まっている。
これらのパイプラインの重要な側面は、雲のカバレッジ、空の明るさ、光学系からの散乱光、点拡散関数のサイズと形状、読み出しノイズなどの様々な要因に基づいて画質を評価する画像品質評価とマスキングアルゴリズムである。
時折、このアルゴリズムはノイズに強く影響された領域のマスキングを必要とする。
しかし、アルゴリズムはしばしば人間の介入を必要とし、データ処理効率を低下させる。
本研究では、オートエンコーダを用いて高品質な天体画像の特徴を学習する深層学習に基づく画像品質評価アルゴリズムを提案する。
訓練されたオートエンコーダは、ノイズの影響を受ける領域の画像品質とマスキングの自動評価を可能にする。
本研究では,全幅半等級の点展開関数を持つ画像と複雑な背景を持つ画像の2つのテストケースを用いて,アルゴリズムの性能評価を行った。
第1のシナリオでは,本アルゴリズムは点拡散関数の変動を効果的に識別し,光度測定に有用な参照情報を提供する。
第2のシナリオでは、複雑な領域の影響を受ける領域をマスキングし、光度測定精度を大幅に向上させることができた。
我々のアルゴリズムは、異なるスカイサーベイプロジェクトによって得られる画像品質を自動的に評価し、さらにデータ処理パイプラインの速度とロバスト性を高めるために用いられる。
With the growing amount of astronomical data, there is an increasing need for automated data processing pipelines, which can extract scientific information from observation data without human interventions. A critical aspect of these pipelines is the image quality evaluation and masking algorithm, which evaluates image qualities based on various factors such as cloud coverage, sky brightness, scattering light from the optical system, point spread function size and shape, and read-out noise. Occasionally, the algorithm requires masking of areas severely affected by noise. However, the algorithm often necessitates significant human interventions, reducing data processing efficiency. In this study, we present a deep learning based image quality evaluation algorithm that uses an autoencoder to learn features of high quality astronomical images. The trained autoencoder enables automatic evaluation of image quality and masking of noise affected areas. We have evaluated the performance of our algorithm using two test cases: images with point spread functions of varying full width half magnitude, and images with complex backgrounds. In the first scenario, our algorithm could effectively identify variations of the point spread functions, which can provide valuable reference information for photometry. In the second scenario, our method could successfully mask regions affected by complex regions, which could significantly increase the photometry accuracy. Our algorithm can be employed to automatically evaluate image quality obtained by different sky surveying projects, further increasing the speed and robustness of data processing pipelines. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# LightTR:Federated Trajectoryリカバリのための軽量フレームワーク
LightTR: A Lightweight Framework for Federated Trajectory Recovery ( http://arxiv.org/abs/2405.03409v1 ) ライセンス: Link先を確認 | Ziqiao Liu, Hao Miao, Yan Zhao, Chenxi Liu, Kai Zheng, Huan Li, | (参考訳) GPS搭載エッジデバイスの普及に伴い、様々な領域に膨大な軌跡データを生成し蓄積し、様々な都市への応用を動機付けている。
エッジデバイスの獲得能力が限られているため、多くのトラジェクトリが低いサンプリングレートで記録されるため、都市での応用効率が低下する可能性がある。
我々は,道路網情報のない自由空間における低サンプリング軌道に基づく高サンプリング軌道を復元し,トラジェクトリデータの使い勝手を向上し,より効果的に都市アプリケーションを支援することを目的としている。
トラジェクトリリカバリを対象とする最近の提案では、トラジェクトリは中央で利用可能であり、分散されたトラジェクトリの処理に失敗し、プライバシを損なうことがしばしばある。
分散化トレーニングとトラジェクトリリカバリのギャップを埋めるために,クライアント/サーバアーキテクチャに基づくフェデレーションされたトラジェクトリリカバリのための軽量フレームワークLightTRを提案する。
具体的には、エッジデバイスの限られた処理能力を考えると、LightTRは、その特徴抽出能力を損なうことなく、計算効率を向上する軽量な局所軌道埋め込みモジュールを含んでいる。
LightTRはまた、サーバとクライアント間の通信コストを削減するために、メタ知識の強化されたローカル・グローバル・トレーニングスキームも備えている。
大規模な実験は,提案フレームワークの有効性と有効性を示すものである。
With the proliferation of GPS-equipped edge devices, huge trajectory data is generated and accumulated in various domains, motivating a variety of urban applications. Due to the limited acquisition capabilities of edge devices, a lot of trajectories are recorded at a low sampling rate, which may lead to the effectiveness drop of urban applications. We aim to recover a high-sampled trajectory based on the low-sampled trajectory in free space, i.e., without road network information, to enhance the usability of trajectory data and support urban applications more effectively. Recent proposals targeting trajectory recovery often assume that trajectories are available at a central location, which fail to handle the decentralized trajectories and hurt privacy. To bridge the gap between decentralized training and trajectory recovery, we propose a lightweight framework, LightTR, for federated trajectory recovery based on a client-server architecture, while keeping the data decentralized and private in each client/platform center (e.g., each data center of a company). Specifically, considering the limited processing capabilities of edge devices, LightTR encompasses a light local trajectory embedding module that offers improved computational efficiency without compromising its feature extraction capabilities. LightTR also features a meta-knowledge enhanced local-global training scheme to reduce communication costs between the server and clients and thus further offer efficiency improvement. Extensive experiments demonstrate the effectiveness and efficiency of the proposed framework. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# コンピュータ専門家と学生のメンタルヘルス : 体系的文献レビュー
Mental health of computing professionals and students: A systematic literature review ( http://arxiv.org/abs/2405.03416v1 ) ライセンス: Link先を確認 | Alicia Julia Wilson Takaoka, Kshitij Sharma, | (参考訳) メンタルヘルスとコンピューティング教育の交差点は未検討である。
本稿では,コンピュータ科学・コンピューティング教育における不安・抑うつなどの精神保健研究の現状と,健康への介入,評価,および懸念点について検討する。
評価された研究は、導入から博士課程までコンピュータ教育パイプライン全体で行われ、研究対象者の不安や抑うつの報告に寄与するいくつかの共通点が見つかった。
さらに、メンタルヘルスのトピックに対処するために設計された介入は、しばしば自己指導を中心に展開された。
文献のレビューに基づき,コンピュータ専門家や学生向けに特別に設計されたツールや介入の設計と開発に焦点をあてて,サンプルサイズの増加を推奨する。
The intersections of mental health and computing education is under-examined. In this systematic literature review, we evaluate the state-of-the-art of research in mental health and well-being interventions, assessments, and concerns like anxiety and depression in computer science and computing education. The studies evaluated occurred across the computing education pipeline from introductory to PhD courses and found some commonalities contributing to high reporting of anxiety and depression in those studied. In addition, interventions that were designed to address mental health topics often revolved around self-guidance. Based on our review of the literature, we recommend increasing sample sizes and focusing on the design and development of tools and interventions specifically designed for computing professionals and students. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# ガウススプラッティング : 3次元再構成と新しい視点合成, 概観
Gaussian Splatting: 3D Reconstruction and Novel View Synthesis, a Review ( http://arxiv.org/abs/2405.03417v1 ) ライセンス: Link先を確認 | Anurag Dalal, Daniel Hagen, Kjell G. Robbersmyr, Kristian Muri Knausgård, | (参考訳) 画像に基づく3D再構成は、入力画像の集合からオブジェクトやシーンの3D形状を推測する難しい作業である。
学習に基づく手法は, 直接的に3次元形状を推定する能力に注目されている。
本稿では,新鮮で目立たない視点の創出を含む3次元再構成技術について概説する。
ガウススティング法における最近の展開の概要として,入力型,モデル構造,出力表現,トレーニング戦略について概説する。
未解決の課題や今後の方向性についても論じる。
この領域の急速な進歩と3次元再構成手法の強化の機会を考えると、アルゴリズムの総合的な検証が不可欠である。
そこで本研究では,ガウススプラッティングの最近の進歩について概観する。
Image-based 3D reconstruction is a challenging task that involves inferring the 3D shape of an object or scene from a set of input images. Learning-based methods have gained attention for their ability to directly estimate 3D shapes. This review paper focuses on state-of-the-art techniques for 3D reconstruction, including the generation of novel, unseen views. An overview of recent developments in the Gaussian Splatting method is provided, covering input types, model structures, output representations, and training strategies. Unresolved challenges and future directions are also discussed. Given the rapid progress in this domain and the numerous opportunities for enhancing 3D reconstruction methods, a comprehensive examination of algorithms appears essential. Consequently, this study offers a thorough overview of the latest advancements in Gaussian Splatting. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# デコヒーレント・アロー・オブ・タイムと絡み合いの仮説
The Decoherent Arrow of Time and the Entanglement Past Hypothesis ( http://arxiv.org/abs/2405.03418v1 ) ライセンス: Link先を確認 | Jim Al-Khalili, Eddy Keming Chen, | (参考訳) 時間の非対称性が物理学の基本的な力学則から生じない場合、それは特別な境界条件で見られる。
熱力学の第二法則によると、過去の熱力学のエントロピーは将来よりも低いので、ビッグバンの周囲の時間まで遡ると、宇宙は極めて低い熱力学のエントロピー状態である熱力学の過去の仮説から始まったに違いない、という主張が普通である。
本稿では、同様の役割を果たす別の境界条件を考えるが、時間の非一貫性な矢印、すなわち宇宙の量子状態は、過去よりも未来においてより混ざり合っている。
エンタングルメント・パスト仮説(Entanglement Past hypothesis)によると、宇宙の初期量子状態は、非常に低いエンタングルメントエントロピーを持っていた。
本研究では, 絡み合い過去の仮説の内容を明らかにするとともに, 熱力学的過去の仮説と比較し, 今後の研究への課題と課題を明らかにする。
If an asymmetry in time does not arise from the fundamental dynamical laws of physics, it may be found in special boundary conditions. The argument normally goes that since thermodynamic entropy in the past is lower than in the future according to the Second Law of Thermodynamics, then tracing this back to the time around the Big Bang means the universe must have started off in a state of very low thermodynamic entropy: the Thermodynamic Past Hypothesis. In this paper, we consider another boundary condition that plays a similar role, but for the decoherent arrow of time, i.e. the quantum state of the universe is more mixed in the future than in the past. According to what we call the Entanglement Past Hypothesis, the initial quantum state of the universe had very low entanglement entropy. We clarify the content of the Entanglement Past Hypothesis, compare it with the Thermodynamic Past Hypothesis, and identify some challenges and open questions for future research. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# 自己回帰学習を用いたメタヒューリスティックアルゴリズムの自動設計
Automated Metaheuristic Algorithm Design with Autoregressive Learning ( http://arxiv.org/abs/2405.03419v1 ) ライセンス: Link先を確認 | Qi Zhao, Tengfei Liu, Bai Yan, Qiqi Duan, Jian Yang, Yuhui Shi, | (参考訳) メタヒューリスティックアルゴリズムの自動設計は、人間の労力を減らし、人間の直感を超えてパフォーマンスを向上させるための魅力的な道を提供する。
現在の自動化手法は、固定された構造内でアルゴリズムを設計し、ゼロから操作する。
これはメタヒューリスティックなファミリーに対するポテンシャルの完全な発見と、事前の設計経験からの肥大化への明確なギャップを生じさせる。
このギャップを埋めるために,メタヒューリスティックアルゴリズムの自動設計のための自己回帰学習に基づくデザイナを提案する。
設計者は,メタヒューリスティックなアルゴリズム設計をシーケンス生成タスクとして定式化し,自動回帰生成ネットワークを利用してタスクを処理する。
これには2つの進歩がある。
第一に、自己回帰推論により、設計者は様々な長さと構造を持つアルゴリズムを生成し、メタヒューリスティックなファミリー上のポテンシャルを完全に発見することができる。
第二に、デザイナのニューロンに学習され蓄積された事前の設計知識は、将来の問題のアルゴリズムを設計し、オープンエンドの問題解決のためのアルゴリズムを連続的に設計する方法を提供する。
数値ベンチマークと実世界の問題に対する大規模な実験により、提案したデザイナは、25の試験問題のうち24の点において、人間が作ったすべてのベースラインを上回るアルゴリズムを生成することが明らかになった。
生成されたアルゴリズムは様々な構造や振る舞いを示し、異なる問題解決状況に適している。
コードは論文発表後に公開される。
Automated design of metaheuristic algorithms offers an attractive avenue to reduce human effort and gain enhanced performance beyond human intuition. Current automated methods design algorithms within a fixed structure and operate from scratch. This poses a clear gap towards fully discovering potentials over the metaheuristic family and fertilizing from prior design experience. To bridge the gap, this paper proposes an autoregressive learning-based designer for automated design of metaheuristic algorithms. Our designer formulates metaheuristic algorithm design as a sequence generation task, and harnesses an autoregressive generative network to handle the task. This offers two advances. First, through autoregressive inference, the designer generates algorithms with diverse lengths and structures, enabling to fully discover potentials over the metaheuristic family. Second, prior design knowledge learned and accumulated in neurons of the designer can be retrieved for designing algorithms for future problems, paving the way to continual design of algorithms for open-ended problem-solving. Extensive experiments on numeral benchmarks and real-world problems reveal that the proposed designer generates algorithms that outperform all human-created baselines on 24 out of 25 test problems. The generated algorithms display various structures and behaviors, reasonably fitting for different problem-solving contexts. Code will be released after paper publication. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# 組込み型適応細胞:任意の訓練されたU字型ネットワークの性能向上のための識別可能なアーキテクチャ探索
Implantable Adaptive Cells: differentiable architecture search to improve the performance of any trained U-shaped network ( http://arxiv.org/abs/2405.03420v1 ) ライセンス: Link先を確認 | Emil Benedykciuk, Marcin Denkowski, Grzegorz Wójcik, | (参考訳) 本稿では,ニューラルアーキテクチャサーチ(NAS)手法,特に微分可能なアーキテクチャサーチ(DARTS)を用いて,医用画像セグメンテーションにおける事前学習ニューラルネットワークの性能を向上させる新しいアプローチを提案する。
本稿では,既存のU字型モデルのスキップ接続にインジェクトされるように設計されたDARTSを用いて,小型だが強力なモジュールを同定するIACの概念を提案する。
当社の戦略では,既存のアーキテクチャにIACをシームレスに統合することで,ゼロから完全に再トレーニングする必要のないパフォーマンスの向上を実現しています。
医用画像分割作業に焦点をあてた実証的研究は,本手法の有効性を実証するものである。
特殊なIACセルをU-Netモデルのさまざまな構成に統合することで、検証データセットの平均で約2\%、トレーニングデータセットで約3\%のセグメンテーション精度が向上する。
本研究は,性能向上のための複雑なモデルの完全オーバーホールに代えて,コスト効率のよい代替手段を提供するとともに,本手法を他のアーキテクチャや問題領域に適用する可能性を示している。
This paper introduces a novel approach to enhance the performance of pre-trained neural networks in medical image segmentation using Neural Architecture Search (NAS) methods, specifically Differentiable Architecture Search (DARTS). We present the concept of Implantable Adaptive Cell (IAC), small but powerful modules identified through Partially-Connected DARTS, designed to be injected into the skip connections of an existing and already trained U-shaped model. Our strategy allows for the seamless integration of the IAC into the pre-existing architecture, thereby enhancing its performance without necessitating a complete retraining from scratch. The empirical studies, focusing on medical image segmentation tasks, demonstrate the efficacy of this method. The integration of specialized IAC cells into various configurations of the U-Net model increases segmentation accuracy by almost 2\% points on average for the validation dataset and over 3\% points for the training dataset. The findings of this study not only offer a cost-effective alternative to the complete overhaul of complex models for performance upgrades but also indicate the potential applicability of our method to other architectures and problem domains. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# 大規模言語モデルのベイジアン低ランク適応のためのガウス確率重み平均化
Gaussian Stochastic Weight Averaging for Bayesian Low-Rank Adaptation of Large Language Models ( http://arxiv.org/abs/2405.03425v1 ) ライセンス: Link先を確認 | Emre Onal, Klemens Flöge, Emma Caldwell, Arsen Sheverdin, Vincent Fortuin, | (参考訳) 微調整された大規模言語モデル(LLM)は、特に小さなデータセットで微調整された場合、過信とキャリブレーションに悩まされることが多い。
これらの課題に対処するために,Low-Rank Adaptation (LoRA) と Gaussian Stochastic Weight Averaging (SWAG) を組み合わせた簡単な組み合わせを提案する。
自然言語処理(NLP)ベンチマークの広範なテストを通じて、我々の単純で効率的なアプローチがモデルの一般化とキャリブレーションを改善することを実証する。
さらに,本手法は,分布シフトに対するロバスト性が高く,アウト・オブ・ディストリビューションタスクの性能に反映されていることを示す。
Fine-tuned Large Language Models (LLMs) often suffer from overconfidence and poor calibration, particularly when fine-tuned on small datasets. To address these challenges, we propose a simple combination of Low-Rank Adaptation (LoRA) with Gaussian Stochastic Weight Averaging (SWAG), facilitating approximate Bayesian inference in LLMs. Through extensive testing across several Natural Language Processing (NLP) benchmarks, we demonstrate that our straightforward and computationally efficient approach improves model generalization and calibration. We further show that our method exhibits greater robustness against distribution shift, as reflected in its performance on out-of-distribution tasks. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# 深部エネルギー法のための幾何学的枠組み-超弾性材料を用いた構造力学への応用
Geometry-aware framework for deep energy method: an application to structural mechanics with hyperelastic materials ( http://arxiv.org/abs/2405.03427v1 ) ライセンス: Link先を確認 | Thi Nguyen Khoa Nguyen, Thibault Dairay, Raphaël Meunier, Christophe Millet, Mathilde Mougeot, | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理法則をディープラーニングモデルに統合する能力のおかげで、多様なエンジニアリング領域に多大な関心を集めている。
近年,幾何学的情報をPINNに組み込むために,基礎となる物理系方程式の強い形式を取り入れた幾何学的なPINNベースのアプローチが開発されている。
進行中の研究にもかかわらず、様々な地形の問題におけるPINNの評価は、現在も活発な調査領域である。
そこで本研究では, 異なる測地における構造力学問題の解法として, Geometry-Aware Deep Energy Method (GADEM) という新しい物理インフォームド・フレームワークを導入する。
物理系方程式の弱い形式(あるいはエネルギーに基づくアプローチ)は、固体力学の問題を解く強力な形式に比べて明らかな優位性を示しているため、GADEMは弱い形式を採用し、幾何学の複数の形状の解を推測することを目指している。
幾何認識フレームワークをエネルギーベースの手法に統合すると、精度と計算コストの観点から、効果的な物理インフォームド深層学習モデルが得られる。
本研究は,幾何学的情報表現と幾何学的潜伏ベクトルの符号化の異なる方法について検討する。
GADEMの損失関数を導入し、すべての測地線のポテンシャルエネルギーに基づいて最小化する。
また、GADEMの性能を高めるために、コロケーション点のサンプリングにも適応学習法が用いられる。
本稿では, 接触力学と大変形超弾性を含む玩具タイヤの載荷シミュレーションなど, 固体力学問題へのGADEMの適用について述べる。
本研究の数値的な結果から,GADEMは, 1つのトレーニングモデルのみを用いて, 各種および新しい地形形状の解法を推算できることが示唆された。
Physics-Informed Neural Networks (PINNs) have gained considerable interest in diverse engineering domains thanks to their capacity to integrate physical laws into deep learning models. Recently, geometry-aware PINN-based approaches that employ the strong form of underlying physical system equations have been developed with the aim of integrating geometric information into PINNs. Despite ongoing research, the assessment of PINNs in problems with various geometries remains an active area of investigation. In this work, we introduce a novel physics-informed framework named the Geometry-Aware Deep Energy Method (GADEM) for solving structural mechanics problems on different geometries. As the weak form of the physical system equation (or the energy-based approach) has demonstrated clear advantages compared to the strong form for solving solid mechanics problems, GADEM employs the weak form and aims to infer the solution on multiple shapes of geometries. Integrating a geometry-aware framework into an energy-based method results in an effective physics-informed deep learning model in terms of accuracy and computational cost. Different ways to represent the geometric information and to encode the geometric latent vectors are investigated in this work. We introduce a loss function of GADEM which is minimized based on the potential energy of all considered geometries. An adaptive learning method is also employed for the sampling of collocation points to enhance the performance of GADEM. We present some applications of GADEM to solve solid mechanics problems, including a loading simulation of a toy tire involving contact mechanics and large deformation hyperelasticity. The numerical results of this work demonstrate the remarkable capability of GADEM to infer the solution on various and new shapes of geometries using only one trained model. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# ReCycle:Residual Cyclic Transformerを用いた高速かつ効率的な時系列予測
ReCycle: Fast and Efficient Long Time Series Forecasting with Residual Cyclic Transformers ( http://arxiv.org/abs/2405.03429v1 ) ライセンス: Link先を確認 | Arvid Weyrauch, Thomas Steens, Oskar Taubert, Benedikt Hanke, Aslan Eqbal, Ewa Götz, Achim Streit, Markus Götz, Charlotte Debus, | (参考訳) トランスフォーマーは、近年、様々なユースケースでアキュラシーを上昇させることで、時系列の予測において注目されている。
予測性能の向上競争において、モデルアーキテクチャのオーバーヘッドは増大し、ほとんどの実用的なアプリケーションでは計算要求のモデルが実現不可能となった。
そこで我々はResidual Cyclic Transformer(ReCycle)を導入する。
ReCycleは、一次サイクル圧縮を利用して、長期連続における注意機構の計算複雑性に対処する。
ReCycleは、洗練されたスムーズな平均技術から残余を学習することで、さまざまなアプリケーションユースケースにおける最先端の精度を上回ります。
シンプルで堅牢でスムーズな平均的なテクニックによって保証される信頼性と説明可能なフォールバック行動は、ユーザ受け入れの障壁を下げます。
同時に、我々の手法は、低性能、低消費電力、エッジコンピューティングデバイス上でのトレーニングと推論の両方を可能にするため、実行時間とエネルギー消費を桁違いに削減する。
コードはhttps://github.com/Helmholtz-AI-Energy/ReCycleで入手できる。
Transformers have recently gained prominence in long time series forecasting by elevating accuracies in a variety of use cases. Regrettably, in the race for better predictive performance the overhead of model architectures has grown onerous, leading to models with computational demand infeasible for most practical applications. To bridge the gap between high method complexity and realistic computational resources, we introduce the Residual Cyclic Transformer, ReCycle. ReCycle utilizes primary cycle compression to address the computational complexity of the attention mechanism in long time series. By learning residuals from refined smoothing average techniques, ReCycle surpasses state-of-the-art accuracy in a variety of application use cases. The reliable and explainable fallback behavior ensured by simple, yet robust, smoothing average techniques additionally lowers the barrier for user acceptance. At the same time, our approach reduces the run time and energy consumption by more than an order of magnitude, making both training and inference feasible on low-performance, low-power and edge computing devices. Code is available at https://github.com/Helmholtz-AI-Energy/ReCycle | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# 前向きコントラスト学習の改善
Improved Forward-Forward Contrastive Learning ( http://arxiv.org/abs/2405.03432v1 ) ライセンス: Link先を確認 | Gananath R, | (参考訳) バックプロパゲーションアルゴリズム(バックプロパゲーションアルゴリズム、英: backpropagation algorithm)は、ディープラーニングにおいて広く利用されている最適化手法である。
バックプロップで訓練されたモデルが神経データを正確に説明できるという証拠が増えているが、生物学の脳では、バックプロップのような方法がまだ見つかっていない。
さらに、脳内のバックプロップの素直な実装を利用することには、いくつかの欠点がある。
2022年、ジェフリー・ヒントン (Geoffrey Hinton) はフォワード・フォワード (FF) アルゴリズムと呼ばれる生物学的に妥当な学習法を提案した。
この記事の直後にFFCLと呼ばれる改良版が導入された。
しかし、FFCLには制限があり、特に3段階の学習システムであり、最終段階は通常のバックプロパゲーションに依存していた。
提案手法では,FFCLの最後の2段階を除去し,通常のバックプロパゲーションを完全に除去することで,これらの欠点に対処する。
代わりに、ローカルアップデートにのみ依存し、より生物学的に可能な代替手段を提供しています。
The backpropagation algorithm, or backprop, is a widely utilized optimization technique in deep learning. While there's growing evidence suggesting that models trained with backprop can accurately explain neuronal data, no backprop-like method has yet been discovered in the biological brain for learning. Moreover, employing a naive implementation of backprop in the brain has several drawbacks. In 2022, Geoffrey Hinton proposed a biologically plausible learning method known as the Forward-Forward (FF) algorithm. Shortly after this paper, a modified version called FFCL was introduced. However, FFCL had limitations, notably being a three-stage learning system where the final stage still relied on regular backpropagation. In our approach, we address these drawbacks by eliminating the last two stages of FFCL and completely removing regular backpropagation. Instead, we rely solely on local updates, offering a more biologically plausible alternative. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# イジングモデルを解くための生成モデルの一般化能力の定量化法
A method for quantifying the generalization capabilities of generative models for solving Ising models ( http://arxiv.org/abs/2405.03435v1 ) ライセンス: Link先を確認 | Qunlong Ma, Zhi Ma, Ming Gao, | (参考訳) 複雑なエネルギー景観を持つIsingモデルでは、ニューラルネットワークによって基底状態を見つけることができるかどうかは、トレーニングデータセットと基底状態の間のハミング距離に大きく依存する。
最近提案された様々な生成モデルがイジングモデルを解く上で優れた性能を示したという事実にもかかわらず、その一般化能力を定量化する方法についての十分な議論はない。
本稿では,VANと組み合わされた様々なネットワークアーキテクチャの一般化能力を定量化するために,生成モデル,変分自己回帰ネットワーク(VAN)のクラスにおけるハミング距離正規化器を設計する。
正規化器は、基底状態とネットワークによって生成されたトレーニングデータセットとの重なり合いのサイズを制御でき、基底状態を見つける成功率とともに、それらの一般化能力を定量化するための定量的な指標を形成する。
我々は,フィードフォワードニューラルネットワーク,リカレントニューラルネットワーク,グラフニューラルネットワークなど,VANと組み合わせたプロトタイプネットワークアーキテクチャの数値実験を行い,Isingモデルを解く際の一般化能力を定量化する。
さらに, 大規模問題に対するネットワークの一般化能力の定量化が, 大規模問題における相対的性能の予測に有効であることを考えると, 大規模Isingモデルの解法における最適ネットワークアーキテクチャ探索のニューラルネットワーク探索分野における支援に非常に重要である。
For Ising models with complex energy landscapes, whether the ground state can be found by neural networks depends heavily on the Hamming distance between the training datasets and the ground state. Despite the fact that various recently proposed generative models have shown good performance in solving Ising models, there is no adequate discussion on how to quantify their generalization capabilities. Here we design a Hamming distance regularizer in the framework of a class of generative models, variational autoregressive networks (VAN), to quantify the generalization capabilities of various network architectures combined with VAN. The regularizer can control the size of the overlaps between the ground state and the training datasets generated by networks, which, together with the success rates of finding the ground state, form a quantitative metric to quantify their generalization capabilities. We conduct numerical experiments on several prototypical network architectures combined with VAN, including feed-forward neural networks, recurrent neural networks, and graph neural networks, to quantify their generalization capabilities when solving Ising models. Moreover, considering the fact that the quantification of the generalization capabilities of networks on small-scale problems can be used to predict their relative performance on large-scale problems, our method is of great significance for assisting in the Neural Architecture Search field of searching for the optimal network architectures when solving large-scale Ising models. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# DBDH: 可視な埋め込み領域の局所化のためのデュアルブランチデュアルヘッドニューラルネットワーク
DBDH: A Dual-Branch Dual-Head Neural Network for Invisible Embedded Regions Localization ( http://arxiv.org/abs/2405.03436v1 ) ライセンス: Link先を確認 | Chengxin Zhao, Hefei Ling, Sijing Xie, Nan Sun, Zongyi Li, Yuxuan Shi, Jiazhong Chen, | (参考訳) QRコードを置き換えるために、見えないハイパーリンクや隠れたコードをイメージに埋め込むことが、最近ホットな話題になっている。
この技術は、デコードする前にキャプチャされた写真の埋め込み領域を最初にローカライズする必要がある。
目に見えない埋め込み領域を見つけるためにモデルを訓練する既存の方法は、正確なローカライゼーション結果を得るのに苦労し、デコード精度が低下する。
この制限は主に、CNNネットワークが低周波信号に敏感であるのに対して、組込み信号は通常高周波信号であるからである。
そこで本研究では, 目に見えない埋め込み領域の正確な位置推定に適したデュアルブランチデュアルヘッド(DBDH)ニューラルネットワークを提案する。
特に、DBDHは62個のハイパスフィルタを含む低レベルのテクスチャブランチを使用して、埋め込みによって誘導される高周波信号をキャプチャする。
高レベルのコンテキストブランチを使用して、埋め込み領域と正規領域の間の識別的特徴を抽出する。
DBDHは検出ヘッドを使用して、埋め込み領域の4つの頂点を直接検出する。
さらに,トレーニング中に埋め込み領域のマスクをセグメンテーションするためのセグメンテーションヘッドを導入する。
セグメンテーションヘッドは、モデル学習のためのピクセルレベルの監視を提供し、組込み信号のより良い学習を容易にする。
最先端の2つのオフライン・オフライン・メッセージング手法に基づいて、ローカライゼーションモデルのトレーニングとテストのための2つのデータセットと拡張戦略を構築した。
実験により,既存の手法よりもDBDHの方が優れた性能を示した。
Embedding invisible hyperlinks or hidden codes in images to replace QR codes has become a hot topic recently. This technology requires first localizing the embedded region in the captured photos before decoding. Existing methods that train models to find the invisible embedded region struggle to obtain accurate localization results, leading to degraded decoding accuracy. This limitation is primarily because the CNN network is sensitive to low-frequency signals, while the embedded signal is typically in the high-frequency form. Based on this, this paper proposes a Dual-Branch Dual-Head (DBDH) neural network tailored for the precise localization of invisible embedded regions. Specifically, DBDH uses a low-level texture branch containing 62 high-pass filters to capture the high-frequency signals induced by embedding. A high-level context branch is used to extract discriminative features between the embedded and normal regions. DBDH employs a detection head to directly detect the four vertices of the embedding region. In addition, we introduce an extra segmentation head to segment the mask of the embedding region during training. The segmentation head provides pixel-level supervision for model learning, facilitating better learning of the embedded signals. Based on two state-of-the-art invisible offline-to-online messaging methods, we construct two datasets and augmentation strategies for training and testing localization models. Extensive experiments demonstrate the superior performance of the proposed DBDH over existing methods. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# 腹腔鏡下手術におけるペグ伝達課題に対するロボット拘束型模倣学習
Robotic Constrained Imitation Learning for the Peg Transfer Task in Fundamentals of Laparoscopic Surgery ( http://arxiv.org/abs/2405.03440v1 ) ライセンス: Link先を確認 | Kento Kawaharazuka, Kei Okada, Masayuki Inaba, | (参考訳) 本研究では,腹腔鏡下手術のための自律ロボットの開発を目的とした,模擬学習による腹腔鏡下手術基礎(FLS)におけるペグ伝達タスクを実行するロボットの実装戦略を提案する。
ロボット腹腔鏡下手術は,(1)体表面に設置したポートをフルクラムとして使用し,(2)ディスプレイ上に画像を表示する単眼カメラで作業する場合の深度情報を知覚することが困難である,という2つの課題を提示する。
特に,第2号については,操作対象の深度画像やモデルが利用可能であることを前提とした先行研究がほとんどである。
そこで本研究では,熟練オペレータの1つの模範運動から運動制約を抽出し,これらの制約に基づいてデータを収集し,収集したデータに基づいて模倣学習を行うことにより,単眼画像のみによるより正確な模倣学習を実現する。
2台のフランカ・エミカ・パンダ・ロボットアームを用いて全体システムを実装し,その有効性を検証した。
In this study, we present an implementation strategy for a robot that performs peg transfer tasks in Fundamentals of Laparoscopic Surgery (FLS) via imitation learning, aimed at the development of an autonomous robot for laparoscopic surgery. Robotic laparoscopic surgery presents two main challenges: (1) the need to manipulate forceps using ports established on the body surface as fulcrums, and (2) difficulty in perceiving depth information when working with a monocular camera that displays its images on a monitor. Especially, regarding issue (2), most prior research has assumed the availability of depth images or models of a target to be operated on. Therefore, in this study, we achieve more accurate imitation learning with only monocular images by extracting motion constraints from one exemplary motion of skilled operators, collecting data based on these constraints, and conducting imitation learning based on the collected data. We implemented an overall system using two Franka Emika Panda Robot Arms and validated its effectiveness. | 翻訳日:2024-05-07 13:46:36 公開日:2024-05-06 |
# SevenLLM:サイバー脅威インテリジェンスにおける大規模言語モデルのベンチマーク、緩和、強化
SEvenLLM: Benchmarking, Eliciting, and Enhancing Abilities of Large Language Models in Cyber Threat Intelligence ( http://arxiv.org/abs/2405.03446v1 ) ライセンス: Link先を確認 | Hangyuan Ji, Jian Yang, Linzheng Chai, Chaoren Wei, Liqun Yang, Yunlong Duan, Yunli Wang, Tianzhen Sun, Hongcheng Guo, Tongliang Li, Changyu Ren, Zhoujun Li, | (参考訳) 最近の100億件以上のサイバーセキュリティ脅威レポートで強調されているサイバーセキュリティインシデントの増加と頻度に対処するため、サイバー脅威インテリジェンス(CTI)は、サイバー脅威の絶えず進化する性質を理解し、対処するために必要な洞察を提供することによって、現代のサイバーセキュリティの状況において重要な役割を果たす。
本稿では,LLM for Security Events(SEvenLLM)において,大規模言語モデル(LLM)の複雑なタスク処理能力に着想を得て,サイバーセキュリティインシデント分析と応答能力のベンチマーク,評価,改善を行うフレームワークを提案する。
具体的には、サイバーセキュリティウェブサイトからサイバーセキュリティの原文をクロールすることで、情報抽出に有効なデータがないことを克服し、高品質なバイリンガル命令コーパスを作成する。
そして,タスクプールからタスクを自動的に選択し,質問応答からなる教師付きコーパスに変換するパイプラインを設計する。
命令データセットSEvenLLM-Instructは、サイバーセキュリティイベントの分析を強化するために、マルチタスク学習目標(27のよく設計されたタスク)でサイバーセキュリティLLMをトレーニングするために使用される。
得られたベンチマーク(SEvenLLM-bench)では、SEvenLLMはより高度な脅威分析を行い、サイバー脅威の進化する状況に対する防御を固めている。
To address the increasing complexity and frequency of cybersecurity incidents emphasized by the recent cybersecurity threat reports with over 10 billion instances, cyber threat intelligence (CTI) plays a critical role in the modern cybersecurity landscape by offering the insights required to understand and combat the constantly evolving nature of cyber threats. Inspired by the powerful capability of large language models (LLMs) in handling complex tasks, in this paper, we introduce a framework to benchmark, elicit, and improve cybersecurity incident analysis and response abilities in LLMs for Security Events (SEvenLLM). Specifically, we create a high-quality bilingual instruction corpus by crawling cybersecurity raw text from cybersecurity websites to overcome the lack of effective data for information extraction. Then, we design a pipeline to auto-select tasks from the tasks pool and convert the raw text into supervised corpora comprised of question and response. The instruction dataset SEvenLLM-Instruct is used to train cybersecurity LLMs with the multi-task learning objective (27 well-designed tasks) for augmenting the analysis of cybersecurity events. Extensive experiments in our curated benchmark (SEvenLLM-bench) demonstrate that SEvenLLM performs more sophisticated threat analysis and fortifies defenses against the evolving landscape of cyber threats. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# Byzantine-Robust Gossip: デュアルアプローチからの洞察
Byzantine-Robust Gossip: Insights from a Dual Approach ( http://arxiv.org/abs/2405.03449v1 ) ライセンス: Link先を確認 | Renaud Gaucher, Hadrien Hendrikx, Aymeric Dieuleveut, | (参考訳) 分散アプローチには多くの計算上の利点があるが、誤った情報を伝達するデバイスのサブセットからの攻撃に対して脆弱である。
本稿では,デバイス同士が直接通信する分散環境でのビザンチン耐性アルゴリズムについて検討する。
我々は、いわゆる双対アプローチを利用して、一般的なロバストな分散最適化手法を設計する。
平均的コンセンサス(英語版)の特別な場合において、グローバルおよび局所的なクリッピングルールの両方を厳密な収束保証とともに提供する。
これらのクリッピングルールは実用的であり、Byzantineノードの影響を微妙に特徴づける結果となり、例えば、グローバルなクリッピング閾値とローカルなクリッピング閾値の収束の質的な違いが浮き彫りになる。
最後に、効率的な攻撃を設計するための基盤として機能できることを実証する。
Distributed approaches have many computational benefits, but they are vulnerable to attacks from a subset of devices transmitting incorrect information. This paper investigates Byzantine-resilient algorithms in a decentralized setting, where devices communicate directly with one another. We leverage the so-called dual approach to design a general robust decentralized optimization method. We provide both global and local clipping rules in the special case of average consensus, with tight convergence guarantees. These clipping rules are practical, and yield results that finely characterize the impact of Byzantine nodes, highlighting for instance a qualitative difference in convergence between global and local clipping thresholds. Lastly, we demonstrate that they can serve as a basis for designing efficient attacks. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# 民主化のためのエージェントとしての大規模言語モデル(LLM)
Large Language Models (LLMs) as Agents for Augmented Democracy ( http://arxiv.org/abs/2405.03452v1 ) ライセンス: Link先を確認 | Jairo Gudiño-Rosero, Umberto Grandi, César A. Hidalgo, | (参考訳) 我々は、2022年のブラジル大統領選挙で収集された67の政策提案にまたがる個人の嗜好を要約したデータに基づいて、市販のLLM上に構築された拡張民主主義システムの能力について検討する。
被験者の個別の政治的選択と参加者の全サンプルの集合的選好の両方をLLMが予測する精度を推定するために、列車試験のクロスバリデーション・セットアップを使用する。
個人レベルでは、サンプル予測の精度は69%-76%の範囲にあり、リベラルおよび大学教育の参加者の嗜好を予測するのに非常に優れている。
人口レベルでは、ボルダスコアの適応を用いて嗜好を集計し、参加者の確率的サンプルとLLMを用いたデータから得られた政策提案のランキングを比較した。
その結果,全人口の30%から40%に満たない場合には,確率的サンプルのみよりも全人口の嗜好を予測できることがわかった。
これらの結果から, LLMは民主化の強化システム構築に有用である可能性が示唆された。
We explore the capabilities of an augmented democracy system built on off-the-shelf LLMs fine-tuned on data summarizing individual preferences across 67 policy proposals collected during the 2022 Brazilian presidential elections. We use a train-test cross-validation setup to estimate the accuracy with which the LLMs predict both: a subject's individual political choices and the aggregate preferences of the full sample of participants. At the individual level, the accuracy of the out of sample predictions lie in the range 69%-76% and are significantly better at predicting the preferences of liberal and college educated participants. At the population level, we aggregate preferences using an adaptation of the Borda score and compare the ranking of policy proposals obtained from a probabilistic sample of participants and from data augmented using LLMs. We find that the augmented data predicts the preferences of the full population of participants better than probabilistic samples alone when these represent less than 30% to 40% of the total population. These results indicate that LLMs are potentially useful for the construction of systems of augmented democracy. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# ツイストしたキュレートヘテロ構造におけるフラックス可変レジームと超対称性
Flux-Tunable Regimes and Supersymmetry in Twisted Cuprate Heterostructures ( http://arxiv.org/abs/2405.03454v1 ) ライセンス: Link先を確認 | Alessandro Coppo, Luca Chirolli, Nicola Poccia, Uri Vool, Valentina Brosco, | (参考訳) ファン・デル・ワールスアセンブリは、2つの分離Bi$_2$Sr$_2$CaCu$_2$O$_{8+\delta}$ (Bi-2212) 間の原子的に鋭い界面におけるジョセフソン接合の生成を可能にする。
約45^\circ$に近い狭い角度では、ジャンクションは時間反転対称性が自然に破れる状態を示し、花紋と呼ばれる本質的に保護されたクビットを符号化するのに用いられる。
本研究では、2つの接合が磁束でスレッディングされたSQuID回路に統合されたときに生じる物理について検討する。
フラワーモン量子ビット状態は磁場の有限臨界値まで維持され、適切な条件下では電荷とフラックスノイズの両方に対して保護されることを示す。
より大きな外部フラックスに対して、オーダーパラメータの固有のねじれd波特性と外部磁束との相互作用は、フラックスバイアス付き保護量子ビットと超対称量子回路を含む異なる人工原子の実装を可能にする。
Van der Waals assembly allows for the creation of Josephson junctions in an atomically sharp interface between two exfoliated Bi$_2$Sr$_2$CaCu$_2$O$_{8+\delta}$ (Bi-2212) flakes that are twisted relative to each other. In a narrow range of angles close to $45^\circ$, the junction exhibits a regime where time-reversal symmetry can be spontaneously broken and it can be used to encode an inherently protected qubit called flowermon. In this work we investigate the physics emerging when two such junctions are integrated in a SQuID circuit threaded by a magnetic flux. We show that the flowermon qubit regime is maintained up to a finite critical value of the magnetic field and, under appropriate conditions, it is protected against both charge and flux noise. For larger external fluxes, the interplay between the inherent twisted d-wave nature of the order parameter and the external magnetic flux enables the implementation of different artificial atoms, including a flux-biased protected qubit and a supersymmetric quantum circuit. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# SSyncOA: クロップ・ペースト攻撃に対する自己同期型オブジェクト整列型透かし
SSyncOA: Self-synchronizing Object-aligned Watermarking to Resist Cropping-paste Attacks ( http://arxiv.org/abs/2405.03458v1 ) ライセンス: Link先を確認 | Chengxin Zhao, Hefei Ling, Sijing Xie, Han Fang, Yaokun Fang, Nan Sun, | (参考訳) 現代の画像処理ツールは、攻撃者が画像に対する関心のある領域や対象を抽出し、それを他の画像に貼り付けるのを容易にする。
このトリッピング・ペースト攻撃がウォーターマーク技術にもたらす課題は、画像透かしの同期を破り、回転、スケーリング、翻訳などの複数の重畳された非同期歪みを導入することである。
しかし、現在の透かし方式は1種類の非同期化にのみ抵抗することができ、トリッピング・ペースト攻撃の下でオブジェクトの著作権を保護するには適用できない。
SSyncOAと呼ばれる自己同期型オブジェクトアライメント透かし手法を提案する。
具体的には、まず、保護対象と整列する透かし領域を制約し、次にそれぞれ、その遠心点、主方向、最小有界角といった物体不変の特徴を正規化することにより、透かしの変換、回転、スケーリングの歪みを同期させる。
保護されたオブジェクトに透かしを埋め込むために,エンコーダ-ノイズ層-デコーダパイプラインに実際のトリッピング・ペースト・アタックを組み込んだオブジェクト整列型透かしモデルを導入し,エンドツーエンドに最適化する。
さらに,異なる非同期化歪みが透かし訓練に及ぼす影響について考察し,自己同期プロセスの必要性を確認する。
大規模な実験は、他のSOTAに比べて、我々の方法が優れていることを示す。
Modern image processing tools have made it easy for attackers to crop the region or object of interest in images and paste it into other images. The challenge this cropping-paste attack poses to the watermarking technology is that it breaks the synchronization of the image watermark, introducing multiple superimposed desynchronization distortions, such as rotation, scaling, and translation. However, current watermarking methods can only resist a single type of desynchronization and cannot be applied to protect the object's copyright under the cropping-paste attack. With the finding that the key to resisting the cropping-paste attack lies in robust features of the object to protect, this paper proposes a self-synchronizing object-aligned watermarking method, called SSyncOA. Specifically, we first constrain the watermarked region to be aligned with the protected object, and then synchronize the watermark's translation, rotation, and scaling distortions by normalizing the object invariant features, i.e., its centroid, principal orientation, and minimum bounding square, respectively. To make the watermark embedded in the protected object, we introduce the object-aligned watermarking model, which incorporates the real cropping-paste attack into the encoder-noise layer-decoder pipeline and is optimized end-to-end. Besides, we illustrate the effect of different desynchronization distortions on the watermark training, which confirms the necessity of the self-synchronization process. Extensive experiments demonstrate the superiority of our method over other SOTAs. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# 医用画像分類のための軽量ニューラルネットワーク探索モデル
A Lightweight Neural Architecture Search Model for Medical Image Classification ( http://arxiv.org/abs/2405.03462v1 ) ライセンス: Link先を確認 | Lunchen Xie, Eugenio Lomurno, Matteo Gambella, Danilo Ardagna, Manuel Roveri, Matteo Matteucci, Qingjiang Shi, | (参考訳) 医用画像の正確な分類は現代診断に不可欠である。
深層学習の進歩により、臨床医はより高速で正確な意思決定に洗練されたモデルを使うようになり、時には人間の判断に取って代わることもあった。
しかし、モデル開発は高価で反復的です。
Neural Architecture Search (NAS)は、ディープラーニングアーキテクチャの設計を自動化するソリューションを提供する。
本稿では,二段階最適化によりスパース確率を生成する新しい手法により,探索効率を向上させる微分可能なNASアルゴリズムZO-DARTS+を提案する。
5つの公開医療データセットの実験では、ZO-DARTS+は最先端のソリューションの精度と一致し、検索時間を最大3倍削減している。
Accurate classification of medical images is essential for modern diagnostics. Deep learning advancements led clinicians to increasingly use sophisticated models to make faster and more accurate decisions, sometimes replacing human judgment. However, model development is costly and repetitive. Neural Architecture Search (NAS) provides solutions by automating the design of deep learning architectures. This paper presents ZO-DARTS+, a differentiable NAS algorithm that improves search efficiency through a novel method of generating sparse probabilities by bi-level optimization. Experiments on five public medical datasets show that ZO-DARTS+ matches the accuracy of state-of-the-art solutions while reducing search times by up to three times. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# 高次元確率推定のための階層的流れ
Hierarchic Flows to Estimate and Sample High-dimensional Probabilities ( http://arxiv.org/abs/2405.03468v1 ) ライセンス: Link先を確認 | Etienne Lempereur, Stéphane Mallat, | (参考訳) 乱流のような複素場の低次元解釈可能なモデルを見つけることは、コルモゴロフの先駆的な研究から80年経っても明らかな問題である。
データサンプルから高次元確率分布を推定することは、最適化と次元の近似の呪いに苦しむ。
これは、粗いから細かいスケールへの階層的な確率フローに従うことによって避けられる。
この逆再正規化群は、ウェーブレット基底で再正規化されるスケールにわたる条件付き確率によって定義される。
$\varphi^4$スカラーポテンシャルの場合、これらの階層モデルのサンプリングは相転移における臨界減速を避ける。
顕著な問題は、空間とスケールにわたる長距離相互作用を持つ非ガウス場を近似することである。
高次多項式エネルギーのロバストなマルチスケール近似を用いた低次元モデルを導入する。
それらは2つの階層の相互作用を定義する第2ウェーブレット変換によって計算される。
本研究では,これらのウェーブレット散乱モデルを用いて乱流の2次元渦場と暗黒物質密度の画像を生成する。
Finding low-dimensional interpretable models of complex physical fields such as turbulence remains an open question, 80 years after the pioneer work of Kolmogorov. Estimating high-dimensional probability distributions from data samples suffers from an optimization and an approximation curse of dimensionality. It may be avoided by following a hierarchic probability flow from coarse to fine scales. This inverse renormalization group is defined by conditional probabilities across scales, renormalized in a wavelet basis. For a $\varphi^4$ scalar potential, sampling these hierarchic models avoids the critical slowing down at the phase transition. An outstanding issue is to also approximate non-Gaussian fields having long-range interactions in space and across scales. We introduce low-dimensional models with robust multiscale approximations of high order polynomial energies. They are calculated with a second wavelet transform, which defines interactions over two hierarchies of scales. We estimate and sample these wavelet scattering models to generate 2D vorticity fields of turbulence, and images of dark matter densities. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# 交互ミラーのシンプレクティック解析
A Symplectic Analysis of Alternating Mirror Descent ( http://arxiv.org/abs/2405.03472v1 ) ライセンス: Link先を確認 | Jonas Katona, Xiuyuan Wang, Andre Wibisono, | (参考訳) 双線型ゼロサムゲームに対する交互ミラーD(Alternating Mirror Descent, AMD)アルゴリズムの挙動を理解することにより, シンプレクティック・オイラー法による連続時間ハミルトン流の離散化について検討する。
我々は、シンプレクティックオイラー法において、保存量である修正ハミルトニアン(MH)の存在と性質に重点を置いて、ハミルトン力学、リー代数、シンプレクティック数値積分器の結果を用いた分析フレームワークを提供する。
元のハミルトニアンが二次函数であるとき、MHを閉形式で計算し、それ以前に知られている他の保存量と一般的に異なることを示す。
AMD の平均イテレートの双対性ギャップを改良した $\mathcal{O}(K^{1/5})$ total regret bound と $\mathcal{O}(K^{-4/5})$ $\mathcal{O}(K^{-4/5})$ $ である。
最後に、もし真であれば、AMDの完全後悔は$\mathcal{O}\left(K^{\varepsilon}\right)$、平均的なイテレートの双対性ギャップは$\mathcal{O}\left(K^{-1+\varepsilon}\right)$として、任意の$\varepsilon>0$に対して$\mathcal{O}\left(K^{-1+\varepsilon}\right)$となり、MHの収束条件によって$\varepsilon=0$を取ることができるという予想を提案する。
Motivated by understanding the behavior of the Alternating Mirror Descent (AMD) algorithm for bilinear zero-sum games, we study the discretization of continuous-time Hamiltonian flow via the symplectic Euler method. We provide a framework for analysis using results from Hamiltonian dynamics, Lie algebra, and symplectic numerical integrators, with an emphasis on the existence and properties of a conserved quantity, the modified Hamiltonian (MH), for the symplectic Euler method. We compute the MH in closed-form when the original Hamiltonian is a quadratic function, and show that it generally differs from the other conserved quantity known previously in that case. We derive new error bounds on the MH when truncated at orders in the stepsize in terms of the number of iterations, $K$, and utilize this bound to show an improved $\mathcal{O}(K^{1/5})$ total regret bound and an $\mathcal{O}(K^{-4/5})$ duality gap of the average iterates for AMD. Finally, we propose a conjecture which, if true, would imply that the total regret for AMD goes as $\mathcal{O}\left(K^{\varepsilon}\right)$ and the duality gap of the average iterates as $\mathcal{O}\left(K^{-1+\varepsilon}\right)$ for any $\varepsilon>0$, and we can take $\varepsilon=0$ upon certain convergence conditions for the MH. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# プログラム類似性研究のための合成データセット
Synthetic Datasets for Program Similarity Research ( http://arxiv.org/abs/2405.03478v1 ) ライセンス: Link先を確認 | Alexander Interrante-Grant, Michael Wang, Lisa Baer, Ryan Whelan, Tim Leek, | (参考訳) プログラムの類似性は、盗作検出、著者の識別、マルウェア分析など、様々なセキュリティアプリケーションで研究が盛んに行われている。
しかし、プログラム類似性の研究は、新しいアプローチの有効性を評価する際に、いくつかのユニークなデータセット品質の問題に直面している。
第一に、バイナリプログラム類似性のための高品質なデータセットはほとんど存在せず、この領域で広く使われている。
第二に、あるプログラムが他のプログラムと類似している理由について、潜在的に多くの異なる異なる異なる定義があり、多くの場合、データセットによって提供されるラベルと、振る舞いや意味的な類似性に関する有用な概念との間に大きな意味的ギャップがある。
本稿では,大規模で合成されたプログラム類似性データセットを生成するためのフレームワークであるHELIXを提案する。
また,HELIX上に構築されたBlind HELIXは,プログラムスライシングを用いて,ライブラリコードからHELIXコンポーネントを抽出するツールである。
HELIX と Blind HELIX を,HELIX データセット上のプログラム類似性ツールの性能と,プログラム類似性の概念を多種多様な概念から構築した手作りデータセットを比較して評価した。
Blind HELIXを用いて、HELIXは、プログラム類似性の実践的概念を具現化した、地上の真理ラベルを用いたプログラム類似性研究のために、事実上無限大の現実的で有用なデータセットを生成することができることを示す。
最後に、相対ツールランキングの結果と理由について論じる。
Program similarity has become an increasingly popular area of research with various security applications such as plagiarism detection, author identification, and malware analysis. However, program similarity research faces a few unique dataset quality problems in evaluating the effectiveness of novel approaches. First, few high-quality datasets for binary program similarity exist and are widely used in this domain. Second, there are potentially many different, disparate definitions of what makes one program similar to another and in many cases there is often a large semantic gap between the labels provided by a dataset and any useful notion of behavioral or semantic similarity. In this paper, we present HELIX - a framework for generating large, synthetic program similarity datasets. We also introduce Blind HELIX, a tool built on top of HELIX for extracting HELIX components from library code automatically using program slicing. We evaluate HELIX and Blind HELIX by comparing the performance of program similarity tools on a HELIX dataset to a hand-crafted dataset built from multiple, disparate notions of program similarity. Using Blind HELIX, we show that HELIX can generate realistic and useful datasets of virtually infinite size for program similarity research with ground truth labels that embody practical notions of program similarity. Finally, we discuss the results and reason about relative tool ranking. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# AnchorGT: スケーラブルグラフ変換器の効率的かつ柔軟なアテンションアーキテクチャ
AnchorGT: Efficient and Flexible Attention Architecture for Scalable Graph Transformers ( http://arxiv.org/abs/2405.03481v1 ) ライセンス: Link先を確認 | Wenhao Zhu, Guojie Song, Liang Wang, Shaoguo Liu, | (参考訳) グラフトランスフォーマー(GT)は、メッセージパスグラフニューラルネットワーク(GNN)の限界を克服し、有望な性能と表現力を示すことで、グラフ表現学習の分野を大幅に進歩させた。
しかし、GTsにおける自己注意機構の二次的な複雑さはスケーラビリティを制限しており、この問題に対処するための従来のアプローチは表現力の低下や汎用性の欠如に悩まされることが多い。
この問題に対処するために,グローバルな受容場とほぼ線形な複雑性を持つGTのための新しいアテンションアーキテクチャであるAnchorGTを提案する。
アンカーベースGNNにインスパイアされ、構造的に重要な$k$支配ノードセットをアンカーとして採用し、各ノードとアンカーの関係に着目しながら、すべてのノードに対するグローバルな受容場を維持しながら、注意機構を設計する。
直感的な設計により、AnchorGTは様々なGTモデルのアテンションモジュールを異なるネットワークアーキテクチャと構造的エンコーディングに置き換えることができ、性能を犠牲にすることなく計算オーバーヘッドを削減できる。
さらに、理論的には、アンコールGTの注意がWeisfeiler-Lehmanテストよりも厳密に表現できることを証明し、グラフ構造を表現する上でその優位性を示している。
3つの最先端GTモデルに関する実験により、より高速でメモリ効率が良く、AnchorGTの変種がより良い結果が得られることを示した。
Graph Transformers (GTs) have significantly advanced the field of graph representation learning by overcoming the limitations of message-passing graph neural networks (GNNs) and demonstrating promising performance and expressive power. However, the quadratic complexity of self-attention mechanism in GTs has limited their scalability, and previous approaches to address this issue often suffer from expressiveness degradation or lack of versatility. To address this issue, we propose AnchorGT, a novel attention architecture for GTs with global receptive field and almost linear complexity, which serves as a flexible building block to improve the scalability of a wide range of GT models. Inspired by anchor-based GNNs, we employ structurally important $k$-dominating node set as anchors and design an attention mechanism that focuses on the relationship between individual nodes and anchors, while retaining the global receptive field for all nodes. With its intuitive design, AnchorGT can easily replace the attention module in various GT models with different network architectures and structural encodings, resulting in reduced computational overhead without sacrificing performance. In addition, we theoretically prove that AnchorGT attention can be strictly more expressive than Weisfeiler-Lehman test, showing its superiority in representing graph structures. Our experiments on three state-of-the-art GT models demonstrate that their AnchorGT variants can achieve better results while being faster and significantly more memory efficient. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# Whispy: STTウィスパーモデルをリアルタイム環境に適用する
Whispy: Adapting STT Whisper Models to Real-Time Environments ( http://arxiv.org/abs/2405.03484v1 ) ライセンス: Link先を確認 | Antonio Bevilacqua, Paolo Saviano, Alessandro Amirante, Simon Pietro Romano, | (参考訳) 近年,大規模汎用変圧器モデルが音声解析の分野で主流となっている。
特にWhisperは、音声認識、翻訳、言語識別、音声活動の検出など、関連するタスクにおいて最先端の結果を達成する。
しかし、Whisperモデルはリアルタイムな条件で使用するために設計されておらず、この制限により多くの実用的な応用には適さない。
本稿では,Whisper事前学習モデルにライブ機能を提供するシステムであるWhispyを紹介する。
多くのアーキテクチャ最適化の結果、Whispyはライブオーディオストリームを消費し、高いレベルのコヒーレントな音声書き起こしを生成することができ、計算コストは低い。
本稿では,Whispyが導入した転写機構がWhisper出力に与える影響について検討した。
実験結果は、Whispyが堅牢性、迅速性、正確性に優れていることを示す。
Large general-purpose transformer models have recently become the mainstay in the realm of speech analysis. In particular, Whisper achieves state-of-the-art results in relevant tasks such as speech recognition, translation, language identification, and voice activity detection. However, Whisper models are not designed to be used in real-time conditions, and this limitation makes them unsuitable for a vast plethora of practical applications. In this paper, we introduce Whispy, a system intended to bring live capabilities to the Whisper pretrained models. As a result of a number of architectural optimisations, Whispy is able to consume live audio streams and generate high level, coherent voice transcriptions, while still maintaining a low computational cost. We evaluate the performance of our system on a large repository of publicly available speech datasets, investigating how the transcription mechanism introduced by Whispy impacts on the Whisper output. Experimental results show how Whispy excels in robustness, promptness, and accuracy. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# LGTM: 局所-グローバルテキスト駆動型ヒューマンモーション拡散モデル
LGTM: Local-to-Global Text-Driven Human Motion Diffusion Model ( http://arxiv.org/abs/2405.03485v1 ) ライセンス: Link先を確認 | Haowen Sun, Ruikun Zheng, Haibin Huang, Chongyang Ma, Hui Huang, Ruizhen Hu, | (参考訳) 本稿では,テキスト・トゥ・モーション・ジェネレーションのためのローカル・ツー・グローバル・パイプラインであるLGTMを紹介する。
LGTMは拡散に基づくアーキテクチャを用いており、コンピュータアニメーションにおけるテキスト記述を意味的コヒーレントな人間の動作に正確に翻訳するという課題に対処することを目的としている。
具体的には、伝統的な手法は意味的不一致に苦しむことが多く、特に特定の動きを正しい身体の部分と整合させる。
この問題に対処するために,まずグローバルな動作記述を部分固有の物語に分解するために,大言語モデル(LLM)を用い,その後,独立な動作エンコーダによって処理され,局所的セマンティックアライメントの正確性を確保する。
最後に、注意に基づくフルボディオプティマイザは、動作生成結果を洗練し、全体的なコヒーレンスを保証する。
実験の結果,LGTMは局所的に正確で意味的に整合した人間の動作を生成できることが示され,テキスト・トゥ・モーション・アプリケーションにおける顕著な進歩を示している。
この論文のコードとデータはhttps://github.com/L-Sun/LGTMで公開されている。
In this paper, we introduce LGTM, a novel Local-to-Global pipeline for Text-to-Motion generation. LGTM utilizes a diffusion-based architecture and aims to address the challenge of accurately translating textual descriptions into semantically coherent human motion in computer animation. Specifically, traditional methods often struggle with semantic discrepancies, particularly in aligning specific motions to the correct body parts. To address this issue, we propose a two-stage pipeline to overcome this challenge: it first employs large language models (LLMs) to decompose global motion descriptions into part-specific narratives, which are then processed by independent body-part motion encoders to ensure precise local semantic alignment. Finally, an attention-based full-body optimizer refines the motion generation results and guarantees the overall coherence. Our experiments demonstrate that LGTM gains significant improvements in generating locally accurate, semantically-aligned human motion, marking a notable advancement in text-to-motion applications. Code and data for this paper are available at https://github.com/L-Sun/LGTM | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# UnsafeBench: リアルタイムおよびAI生成画像上の画像安全分類器のベンチマーク
UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images ( http://arxiv.org/abs/2405.03486v1 ) ライセンス: Link先を確認 | Yiting Qu, Xinyue Shen, Yixin Wu, Michael Backes, Savvas Zannettou, Yang Zhang, | (参考訳) 画像安全分類器は、オンラインでの安全でない画像(例えば、暴力、憎悪的なレトリックなどを含む画像)の拡散を識別し緩和する上で重要な役割を担っている。
同時に、テキスト・ツー・イメージモデルの出現とAIモデルの安全性に対する懸念の高まりにより、開発者はモデルを保護するために画像安全分類器をますます頼りにしている。
しかし、実際の画像やAI生成画像では、現在の画像安全分類器の性能は分かっていない。
この研究ギャップを埋めるために,画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。
まず、安全でない画像の11のカテゴリ(性的、暴力的、憎しみなど)に基づいて、安全または安全でないと注釈付けされた10Kの現実世界およびAI生成画像の大規模なデータセットをキュレートする。
次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。
既存の画像安全分類器は、安全でない画像の多面的問題を緩和するのに十分な包括的かつ効果的ではないことを示す。
また,実世界の画像にのみ訓練された分類器は,AI生成画像に適用した場合,性能が低下する傾向にある。
これらの知見に触発されて、我々は、現実世界とAI生成した安全でない画像の11つのカテゴリを効果的に識別する、AspectiveVisionと呼ばれる総合的な画像モデレーションツールを設計し、実装した。
最高の PerspectiveVision モデルは、6つの評価データセットで 0.810 の F1-Score を達成しており、これは GPT-4V のようなクローズドソースで高価な最先端モデルに匹敵する。
UnsafeBenchとAspectiveVisionは、生成AIの時代における画像安全分類の展望をより深く理解する上で、研究コミュニティに役立つ。
Image safety classifiers play an important role in identifying and mitigating the spread of unsafe images online (e.g., images including violence, hateful rhetoric, etc.). At the same time, with the advent of text-to-image models and increasing concerns about the safety of AI models, developers are increasingly relying on image safety classifiers to safeguard their models. Yet, the performance of current image safety classifiers remains unknown for real-world and AI-generated images. To bridge this research gap, in this work, we propose UnsafeBench, a benchmarking framework that evaluates the effectiveness and robustness of image safety classifiers. First, we curate a large dataset of 10K real-world and AI-generated images that are annotated as safe or unsafe based on a set of 11 unsafe categories of images (sexual, violent, hateful, etc.). Then, we evaluate the effectiveness and robustness of five popular image safety classifiers, as well as three classifiers that are powered by general-purpose visual language models. Our assessment indicates that existing image safety classifiers are not comprehensive and effective enough in mitigating the multifaceted problem of unsafe images. Also, we find that classifiers trained only on real-world images tend to have degraded performance when applied to AI-generated images. Motivated by these findings, we design and implement a comprehensive image moderation tool called PerspectiveVision, which effectively identifies 11 categories of real-world and AI-generated unsafe images. The best PerspectiveVision model achieves an overall F1-Score of 0.810 on six evaluation datasets, which is comparable with closed-source and expensive state-of-the-art models like GPT-4V. UnsafeBench and PerspectiveVision can aid the research community in better understanding the landscape of image safety classification in the era of generative AI. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# 深層学習に基づくログ異常検出におけるデータ再サンプリングの効果:洞察と勧告
On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations ( http://arxiv.org/abs/2405.03489v1 ) ライセンス: Link先を確認 | Xiaoxue Ma, Huiqi Zou, Jacky Keung, Pinjia He, Yishu Li, Xiao Yu, Federica Sarro, | (参考訳) DLベースのアプローチは、ソフトウェアログ異常検出の分野で大きな注目を集めている。
しかし、実際的な課題は、DLモデルのトレーニングに一般的に使用される公開データのクラス不均衡である。
この不均衡は、例えば、異常は最も人気のあるデータセットの1%以下であるなど、通常のものと比較して、異常なログシーケンスの数にかなりの差があることが特徴である。
これまでの研究では、既存のDLLADアプローチは、特に厳しいクラス不均衡を特徴とするデータセットに直面する場合、不満足なパフォーマンスを示す可能性があることが示されている。
データ再サンプリングによるクラス不均衡の緩和は、他のソフトウェアエンジニアリングタスクに有効であることが証明されているが、これまでのところ、LADでは検討されていない。
本研究では, 多様なデータ再サンプリング手法が既存のDLLADアプローチに与える影響を, 2つの異なる視点から詳細に分析することによって, このギャップを埋めることを目的とする。
まず、3つのデータセットにまたがるこれらのDLLAD手法の性能を評価し、正常データと異常データの再サンプリング比率が10種類のデータ再サンプリング方法に与える影響について検討する。
第2に,正常データと異常データの最適再サンプリング率を利用する際のデータ再サンプリング手法の有効性を評価する。
以上の結果から,オーバーサンプリング法は一般にアンダーサンプリング法やハイブリッド法よりも優れていることが示唆された。
生データに対するデータ再サンプリングは、特徴空間におけるデータ再サンプリングよりも優れた結果をもたらす。
ほとんどの場合、特定のアンダーサンプリングとハイブリット法は限定的な効果を示す。
また, 正規値と異常値の再サンプリング比を探索することにより, マイノリティクラスに対するオーバーサンプリングによるデータ生成と, マイノリティクラスからのアンダーサンプリングによるデータ削除を提案する。
本研究は,データ再サンプリング法とDLLADの複雑な関係に関する貴重な知見を提供する。
Numerous DL-based approaches have garnered considerable attention in the field of software Log Anomaly Detection. However, a practical challenge persists: the class imbalance in the public data commonly used to train the DL models. This imbalance is characterized by a substantial disparity in the number of abnormal log sequences compared to normal ones, for example, anomalies represent less than 1% of one of the most popular datasets. Previous research has indicated that existing DLLAD approaches may exhibit unsatisfactory performance, particularly when confronted with datasets featuring severe class imbalances. Mitigating class imbalance through data resampling has proven effective for other software engineering tasks, however, it has been unexplored for LAD thus far. This study aims to fill this gap by providing an in-depth analysis of the impact of diverse data resampling methods on existing DLLAD approaches from two distinct perspectives. Firstly, we assess the performance of these DLLAD approaches across three datasets and explore the impact of resampling ratios of normal to abnormal data on ten data resampling methods. Secondly, we evaluate the effectiveness of the data resampling methods when utilizing optimal resampling ratios of normal to abnormal data. Our findings indicate that oversampling methods generally outperform undersampling and hybrid methods. Data resampling on raw data yields superior results compared to data resampling in the feature space. In most cases, certain undersampling and hybrid methods show limited effectiveness. Additionally, by exploring the resampling ratio of normal to abnormal data, we suggest generating more data for minority classes through oversampling while removing less data from majority classes through undersampling. In conclusion, our study provides valuable insights into the intricate relationship between data resampling methods and DLLAD. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# 量子はスピングラスオットーエンジンだ
Quantum Ising Spin-Glass Otto Engine ( http://arxiv.org/abs/2405.03495v1 ) ライセンス: Link先を確認 | Aslı Tuncer, Batu Yalçın, | (参考訳) 量子イジングスピンガラスを用いた量子オットーエンジンを作業媒体として,作業出力のスケーリング挙動と,特に臨界点付近のシステムサイズに関する熱力学的性能について検討する。
具体的には,オットーエンジンの2つの動作モード,すなわち熱エンジンと冷凍機モードについて検討する。
熱機関系における二重ピーク構造を観察し, 臨界点付近の作業出力と熱力学性能の両面において超線形スケーリングを実現する。
さらに, 冷凍機システムでは, 冷凍機効率の超線形スケーリングを高温, 低温で実現でき, 均一なIsing相互作用を持つモデルよりも優れていた。
これらの結果は、量子イジングのスピングラスシステムの障害とフラストレーションが量子熱エンジンや冷凍機の熱力学性能に大きな影響を与え、改善のための新たな道を開く可能性があることを示唆している。
We investigate a quantum Otto engine with a quantum Ising spin glass as the working medium to explore the scaling behavior of work output and thermodynamic performance concerning system size, particularly near the critical point. Specifically, we explore the two operating modes of the Otto engine, namely the heat engine and refrigerator modes. We observe a double-peaked structure in the heat engine regime, leading to superlinear scaling in both work output and thermodynamic performance near the critical point. Additionally, in the refrigerator regime, superlinear scaling in refrigerator efficiency can be achieved at high and low temperatures, significantly outperforming models with uniform Ising interactions. These findings suggest that disorder and frustration in quantum Ising spin-glass systems could significantly impact thermodynamic performance in quantum heat engines and refrigerators, potentially opening up new avenues for improvement. | 翻訳日:2024-05-07 13:36:52 公開日:2024-05-06 |
# 損失画像圧縮のための速度歪み分類手法
A Rate-Distortion-Classification Approach for Lossy Image Compression ( http://arxiv.org/abs/2405.03500v1 ) ライセンス: Link先を確認 | Yuefeng Zhang, | (参考訳) 損失画像圧縮では、画像を特定のビットレートに圧縮しながら、最小限の信号歪みを実現する。
視覚解析アプリケーション、特に分類タスクの需要が高まっているため、圧縮画像における意味的歪みを考慮することの重要性が強調されている。
画像圧縮と視覚解析のギャップを埋めるために、画像圧縮の損失を解消するRDCモデルを提案し、レート、歪み、分類精度のトレードオフを最適化するための統一的なフレームワークを提供する。
RDCモデルは、マルチディストリビューションソースで統計的に、また、広く使われているMNISTデータセットで実験的に解析される。
その結果, ある条件下では, RDCモデルは単調な非増加関数や凸関数を含む望ましい特性を示すことが明らかとなった。
この研究は、人間のマシンフレンドリーな圧縮手法とビデオ符号化・フォー・マシン(VCM)アプローチの開発に関する洞察を与え、現実世界のアプリケーションにおけるエンドツーエンドの画像圧縮技術への道を開いた。
In lossy image compression, the objective is to achieve minimal signal distortion while compressing images to a specified bit rate. The increasing demand for visual analysis applications, particularly in classification tasks, has emphasized the significance of considering semantic distortion in compressed images. To bridge the gap between image compression and visual analysis, we propose a Rate-Distortion-Classification (RDC) model for lossy image compression, offering a unified framework to optimize the trade-off between rate, distortion, and classification accuracy. The RDC model is extensively analyzed both statistically on a multi-distribution source and experimentally on the widely used MNIST dataset. The findings reveal that the RDC model exhibits desirable properties, including monotonic non-increasing and convex functions, under certain conditions. This work provides insights into the development of human-machine friendly compression methods and Video Coding for Machine (VCM) approaches, paving the way for end-to-end image compression techniques in real-world applications. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# 一般化ロバスト損失を用いた単一正の多ラベル分類
Boosting Single Positive Multi-label Classification with Generalized Robust Loss ( http://arxiv.org/abs/2405.03501v1 ) ライセンス: Link先を確認 | Yanxi Chen, Chunxiao Li, Xinyang Dai, Jinhuan Li, Weiyu Sun, Yiming Wang, Renyuan Zhang, Tinghe Zhang, Bo Wang, | (参考訳) MLL(Multi-label Learning)は、完全な取得が難しい包括的なマルチセマンティックアノテーションを必要とするため、しばしばラベルのシナリオが欠落する。
本稿では,各画像が1つの正のラベルに関連付けられているSPML(Single Positive Multi-label Learning)について検討する。
既存のSPML手法では、ハードな擬似ラベルやロバストな損失といったメカニズムを使って損失を設計することにのみ焦点が当てられている。
この問題に対処するために,我々はまず,ソフトな擬似ラベルを提供するために,予測リスク最小化に基づく一般化された損失フレームワークを提案し,従来の損失を我々のフレームワークにシームレスに変換できることを指摘した。
特に、我々は、偽陽性と偽陰性の間の柔軟な協調を享受し、さらに、正と負のサンプルの不均衡に対処できる新しいロバストな損失を、我々の枠組みに基づいて設計する。
大規模な実験により,提案手法はSPMLの性能を著しく向上させ,4つのベンチマークにおいて最先端の手法の大部分を上回り得ることが示された。
Multi-label learning (MLL) requires comprehensive multi-semantic annotations that is hard to fully obtain, thus often resulting in missing labels scenarios. In this paper, we investigate Single Positive Multi-label Learning (SPML), where each image is associated with merely one positive label. Existing SPML methods only focus on designing losses using mechanisms such as hard pseudo-labeling and robust losses, mostly leading to unacceptable false negatives. To address this issue, we first propose a generalized loss framework based on expected risk minimization to provide soft pseudo labels, and point out that the former losses can be seamlessly converted into our framework. In particular, we design a novel robust loss based on our framework, which enjoys flexible coordination between false positives and false negatives, and can additionally deal with the imbalance between positive and negative samples. Extensive experiments show that our approach can significantly improve SPML performance and outperform the vast majority of state-of-the-art methods on all the four benchmarks. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# 人間のルールは必要か? CoT 推論と文脈内学習による再利用可能な API の生成
Are Human Rules Necessary? Generating Reusable APIs with CoT Reasoning and In-Context Learning ( http://arxiv.org/abs/2405.03509v1 ) ライセンス: Link先を確認 | Yubo Mai, Zhipeng Gao, Xing Hu, Lingfeng Bao, Yu Liu, Jianling Sun, | (参考訳) 本稿では,複雑なコーディングタスクを解決するためのLarge Language Models(LLMs)の大きな可能性に触発されて,Stack OverflowコードスニペットのAPIを自動実行する,Code2APIという新しいアプローチを提案する。
Code2APIは、追加のモデルトレーニングや手作業のルールを必要としないため、外部ツールに頼ることなく、パーソナルコンピュータに簡単にデプロイできる。
具体的には、Code2APIは、適切に設計されたプロンプトを通じてLLMをガイドし、与えられたコードスニペットに対して適切なフォーマットのAPIを生成する。
LLMから知識と論理的推論を引き出すために、私たちはチェーン・オブ・ソート(CoT)推論と数発のインコンテキスト学習を使い、LLMがAPIのタスクを完全に理解し、開発者と同じような方法でステップバイステップで解決するのに役立つ。
評価の結果,Code2APIは,現在の最先端アプローチであるAPIzatorをそれぞれ15.0%,かつ16.5%を超え,メソッドパラメータ(65%)とリターンステートメント(66%)を識別する上で,顕著な精度を実現していることがわかった。
さらに、APIzatorと比較して、ユーザ調査では、Code2APIは有意義なメソッド名を生成する上で優れたパフォーマンスを示しており、人間レベルのパフォーマンスを超えています。
最後に、我々のフレームワークをPythonデータセットに拡張し、Javaと同等のパフォーマンスを実現し、ツールの一般化可能性を検証することに成功しました。
Inspired by the great potential of Large Language Models (LLMs) for solving complex coding tasks, in this paper, we propose a novel approach, named Code2API, to automatically perform APIzation for Stack Overflow code snippets. Code2API does not require additional model training or any manual crafting rules and can be easily deployed on personal computers without relying on other external tools. Specifically, Code2API guides the LLMs through well-designed prompts to generate well-formed APIs for given code snippets. To elicit knowledge and logical reasoning from LLMs, we used chain-of-thought (CoT) reasoning and few-shot in-context learning, which can help the LLMs fully understand the APIzation task and solve it step by step in a manner similar to a developer. Our evaluations show that Code2API achieves a remarkable accuracy in identifying method parameters (65%) and return statements (66%) equivalent to human-generated ones, surpassing the current state-of-the-art approach, APIzator, by 15.0% and 16.5% respectively. Moreover, compared with APIzator, our user study demonstrates that Code2API exhibits superior performance in generating meaningful method names, even surpassing the human-level performance, and developers are more willing to use APIs generated by our approach, highlighting the applicability of our tool in practice. Finally, we successfully extend our framework to the Python dataset, achieving a comparable performance with Java, which verifies the generalizability of our tool. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# QBER: 戦略決定のためのサイバーリスクの定量化
QBER: Quantifying Cyber Risks for Strategic Decisions ( http://arxiv.org/abs/2405.03513v1 ) ライセンス: Link先を確認 | Muriel Figueredo Franco, Aiatur Rahaman Mullick, Santosh Jha, | (参考訳) サイバーリスクの定量化は、脅威に対する脆弱性を把握し、情報的な決定を下すために不可欠である。
しかし、現在のアプローチは、洞察に富んだ分析を提供するために、経済的な視点をブレンドすることに取り組む必要がある。
このギャップを埋めるために、意思決定者が測定可能なリスクメトリクスを提供するためのQBERアプローチを導入します。
QBERは、サイバー攻撃による損失を評価し、既存のサイバーセキュリティ対策に基づいて詳細なリスク分析を行い、完全なコスト評価を提供する。
我々の貢献は、サイバー攻撃の確率とリスクの概要、技術的、経済的、法的影響(TEL)の特定、影響を計測するモデルの作成、リスク軽減戦略の提案、広範囲にわたるサイバーリスク定量化(CRQ)の実施におけるトレンドと課題の検証を含む。
QBERアプローチは、リスクを評価し、サイバーセキュリティに戦略的に投資する組織のためのガイド付きアプローチとして機能する。
Quantifying cyber risks is essential for organizations to grasp their vulnerability to threats and make informed decisions. However, current approaches still need to work on blending economic viewpoints to provide insightful analysis. To bridge this gap, we introduce QBER approach to offer decision-makers measurable risk metrics. The QBER evaluates losses from cyberattacks, performs detailed risk analyses based on existing cybersecurity measures, and provides thorough cost assessments. Our contributions involve outlining cyberattack probabilities and risks, identifying Technical, Economic, and Legal (TEL) impacts, creating a model to gauge impacts, suggesting risk mitigation strategies, and examining trends and challenges in implementing widespread Cyber Risk Quantification (CRQ). The QBER approach serves as a guided approach for organizations to assess risks and strategically invest in cybersecurity. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# GI-SMN: 事前知識のないフェデレート学習に対するグラディエント・インバージョン・アタック
GI-SMN: Gradient Inversion Attack against Federated Learning without Prior Knowledge ( http://arxiv.org/abs/2405.03516v1 ) ライセンス: Link先を確認 | Jin Qian, Kaimin Wei, Yongdong Wu, Jilian Zhang, Jipeng Chen, Huan Bao, | (参考訳) フェデレーション学習(FL)は、複数のパーティが元のユーザデータではなく勾配情報を共有する、プライバシ保護機械学習アプローチとして登場した。
最近の研究は、勾配インバージョン攻撃がFLの勾配を利用して元のユーザーデータを再現し、重大なプライバシーリスクを生じさせることを示した。
しかし、これらの攻撃は、モデル構造やパラメータの変更、バッチ正規化統計の取得、元のトレーニングセットの事前知識の取得など、攻撃者に対して強い仮定をする。
したがって、これらの攻撃は現実世界のシナリオでは不可能である。
そこで我々は,従来の勾配反転攻撃による強い仮定を突破する,スタイルマイグレーションネットワーク(GI-SMN)に基づく新しいグラディエント・インバージョン・アタックを提案する。
最適化空間は、潜在コードの洗練と、勾配マッチングを容易にする正規項の使用により縮小される。
GI-SMNは、バッチで高い類似性を持つユーザデータの再構築を可能にする。
実験の結果,GI-SMNは視覚効果と類似度の両方において,最先端の勾配反転攻撃よりも優れていた。
さらに、グラデーションプルーニングと差分プライバシー保護を克服することも可能だ。
Federated learning (FL) has emerged as a privacy-preserving machine learning approach where multiple parties share gradient information rather than original user data. Recent work has demonstrated that gradient inversion attacks can exploit the gradients of FL to recreate the original user data, posing significant privacy risks. However, these attacks make strong assumptions about the attacker, such as altering the model structure or parameters, gaining batch normalization statistics, or acquiring prior knowledge of the original training set, etc. Consequently, these attacks are not possible in real-world scenarios. To end it, we propose a novel Gradient Inversion attack based on Style Migration Network (GI-SMN), which breaks through the strong assumptions made by previous gradient inversion attacks. The optimization space is reduced by the refinement of the latent code and the use of regular terms to facilitate gradient matching. GI-SMN enables the reconstruction of user data with high similarity in batches. Experimental results have demonstrated that GI-SMN outperforms state-of-the-art gradient inversion attacks in both visual effect and similarity metrics. Additionally, it also can overcome gradient pruning and differential privacy defenses. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# 量子展開のすべての$S_p$概念は同値である
All $S_p$ notions of quantum expansion are equivalent ( http://arxiv.org/abs/2405.03517v1 ) ライセンス: Link先を確認 | Francisco Escudero Gutiérrez, Garazi Muguruza, | (参考訳) 最近の研究で、Li, Qiao, Wigderson, Wigderson と Zhang は、$S_p$ノルムに基づく量子膨張の概念を導入し、それらがすべて同値であるかどうかの開問題として提起した。
私たちはこの質問に対して肯定的な回答をする。
In a recent work Li, Qiao, Wigderson, Wigderson and Zhang introduced notions of quantum expansion based on $S_p$ norms and posed as an open question if they were all equivalent. We give an affirmative answer to this question. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# 低照度物体検出
Low-light Object Detection ( http://arxiv.org/abs/2405.03519v1 ) ライセンス: Link先を確認 | Pengpeng Li, Haowei Gu, Yang Yang, | (参考訳) このコンペでは,実画像に近い物体検出結果を得るために,モデル融合手法を用いた。
提案手法は,暗黒条件下での画像を含むデータと,低照度で強調された画像を含む2種類のデータに基づいて訓練されたCO-DETRモデルに基づく。
テストデータに様々な拡張技術を用いて,複数の予測結果を生成する。
最後に、IoU閾値で導かれたクラスタリングアグリゲーション手法を適用し、最適な結果を選択する。
In this competition we employed a model fusion approach to achieve object detection results close to those of real images. Our method is based on the CO-DETR model, which was trained on two sets of data: one containing images under dark conditions and another containing images enhanced with low-light conditions. We used various enhancement techniques on the test data to generate multiple sets of prediction results. Finally, we applied a clustering aggregation method guided by IoU thresholds to select the optimal results. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# ソラは世界シミュレータか? : 一般世界モデルとそれを超える包括的調査
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond ( http://arxiv.org/abs/2405.03520v1 ) ライセンス: Link先を確認 | Zheng Zhu, Xiaofeng Wang, Wangbo Zhao, Chen Min, Nianchen Deng, Min Dou, Yuqi Wang, Botian Shi, Kai Wang, Chi Zhang, Yang You, Zhaoxiang Zhang, Dawei Zhao, Liang Xiao, Jian Zhao, Jiwen Lu, Guan Huang, | (参考訳) 一般世界モデルは、仮想環境から意思決定システムに至るまで、さまざまな応用の基盤となる、人工知能(AGI)の実現に向けた重要な道筋である。
近年,ソラ模型の出現は,物理法則の創発的理解を示す顕著なシミュレーション能力によって大きな注目を集めている。
本調査では,世界モデルの最新動向を包括的に調査する。
我々の分析は、映像生成における生成方法論の最前線をナビゲートし、世界モデルは、高度にリアルな視覚的コンテンツの合成を容易にする重要な構成要素である。
さらに、我々は、自動運転車の世界モデルの急成長する分野を精査し、輸送と都市移動を再構築する上で欠かせない役割を慎重に説明する。
さらに、我々は、自律エージェント内に展開される世界モデルに固有の複雑さを掘り下げ、動的環境コンテキスト内でのインテリジェントな相互作用を可能にする上で、その重大な重要性に光を当てる。
最後に,世界モデルの課題と限界について検討し,今後の方向性について考察する。
この調査が研究コミュニティの基礎的な参考として役立ち、継続的なイノベーションを刺激できることを願っています。
この調査は、 https://github.com/GigaAI-research/General-World-Models-Survey.comで定期的に更新される。
General world models represent a crucial pathway toward achieving Artificial General Intelligence (AGI), serving as the cornerstone for various applications ranging from virtual environments to decision-making systems. Recently, the emergence of the Sora model has attained significant attention due to its remarkable simulation capabilities, which exhibits an incipient comprehension of physical laws. In this survey, we embark on a comprehensive exploration of the latest advancements in world models. Our analysis navigates through the forefront of generative methodologies in video generation, where world models stand as pivotal constructs facilitating the synthesis of highly realistic visual content. Additionally, we scrutinize the burgeoning field of autonomous-driving world models, meticulously delineating their indispensable role in reshaping transportation and urban mobility. Furthermore, we delve into the intricacies inherent in world models deployed within autonomous agents, shedding light on their profound significance in enabling intelligent interactions within dynamic environmental contexts. At last, we examine challenges and limitations of world models, and discuss their potential future directions. We hope this survey can serve as a foundational reference for the research community and inspire continued innovation. This survey will be regularly updated at: https://github.com/GigaAI-research/General-World-Models-Survey. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# XORおよびORブール関数を実装した超伝導断熱ニューラルネットワークの最適化課題
Optimisation challenge for superconducting adiabatic neural network implementing XOR and OR boolean functions ( http://arxiv.org/abs/2405.03521v1 ) ライセンス: Link先を確認 | D. S. Pashin, M. V. Bastrakova, D. A. Rybin, I. I. Soloviev, A. E. Schegolev, N. V. Klenov, | (参考訳) 本稿では,シグモイドアクティベーション機能を持つ断熱ジョセフソン細胞をベースとした,単純なアナログ人工ニューラルネットワークの設計について考察する。
勾配降下法に基づく新しい手法を開発し、回路パラメータを調整し、ネットワーク層間の効率的な信号伝送を可能にする。
提案手法は,XORおよびOR論理演算を実装したシステムの例に示す。
In this article, we consider designs of simple analog artificial neural networks based on adiabatic Josephson cells with a sigmoid activation function. A new approach based on the gradient descent method is developed to adjust the circuit parameters, allowing efficient signal transmission between the network layers. The proposed solution is demonstrated on the example of the system implementing XOR and OR logical operations. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# 知識グラフに基づくニューラルシンボリックシステムの研究
Exploring knowledge graph-based neural-symbolic system from application perspective ( http://arxiv.org/abs/2405.03524v1 ) ライセンス: Link先を確認 | Shenzhe Zhu, | (参考訳) 人工知能(AI)の急速な進歩、特に深層ニューラルネットワークは、視覚やテキスト処理などの分野において大きな進歩をもたらした。
それでも、人間のような推論と解釈可能性を示すAIシステムの追求には、大きな課題が続いている。
ニューラルネットワークの深層学習技術をシンボリックシステムの推論能力に統合するNeural-Symbolicパラダイムは、より透明で理解しやすいAIシステムを開発するための、有望な道筋を提供する。
このパラダイムの中で、知識グラフ(KG)は重要な要素として現れ、相互接続された実体と関係を通して知識を表現する構造的かつ動的な方法を提供し、主に三重項(対象、述語、対象)を利用する。
本稿では、KGに基づくニューラルシンボリック統合の最近の進歩、KGがニューラルネットワークの推論と解釈可能性の向上(Symbol for Neural)、ニューラルネットワーク手法(Neural for Symbol)によるシンボリックシステムの完全性と正確性の改善(Neural for Symbol)、ハイブリッドニューラルシンボリック統合(Hybrid Neural-Symbolic Integration)の併用の促進という、3つの主要なカテゴリでこの統合をどのように支えているかを明らかにする。
これは現在のトレンドを強調し、Neural-Symbolic AIの領域における将来の研究の方向性を提案する。
The rapid advancement in artificial intelligence (AI), particularly through deep neural networks, has catalyzed significant progress in fields such as vision and text processing. Nonetheless, the pursuit of AI systems that exhibit human-like reasoning and interpretability continues to pose a substantial challenge. The Neural-Symbolic paradigm, which integrates the deep learning prowess of neural networks with the reasoning capabilities of symbolic systems, presents a promising pathway toward developing more transparent and comprehensible AI systems. Within this paradigm, the Knowledge Graph (KG) emerges as a crucial element, offering a structured and dynamic method for representing knowledge through interconnected entities and relationships, predominantly utilizing the triple (subject, predicate, object). This paper explores recent advancements in neural-symbolic integration based on KG, elucidating how KG underpins this integration across three key categories: enhancing the reasoning and interpretability of neural networks through the incorporation of symbolic knowledge (Symbol for Neural), refining the completeness and accuracy of symbolic systems via neural network methodologies (Neural for Symbol), and facilitating their combined application in Hybrid Neural-Symbolic Integration. It highlights current trends and proposes directions for future research in the domain of Neural-Symbolic AI. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# ReinWiFi: WiFiネットワークのアプリケーション層QoS最適化のための強化学習ベースのフレームワーク
ReinWiFi: A Reinforcement-Learning-Based Framework for the Application-Layer QoS Optimization of WiFi Networks ( http://arxiv.org/abs/2405.03526v1 ) ライセンス: Link先を確認 | Qianren Li, Bojie Lv, Yuncong Hong, Rui Wang, | (参考訳) 本稿では,実運用無線ローカルエリアネットワーク(WLAN)のアプリケーション層品質(QoS)を未知の干渉で最適化するために,強化学習に基づくスケジューリングフレームワークを提案し,実装した。
特に、分散チャネルアクセス(EDCA)機構が強化されたWLANにおいて、ファイル配信および遅延感応通信のアプリケーション層タスクを、ファイル配信のスループットや遅延感応通信のラウンドトリップ時間を含むQoSを最適化するように、競合ウィンドウサイズとアプリケーション層スループット制限を調整することで、共同でスケジュールする。
ネットワークインタフェースカードの不正な干渉とベンダーに依存した実装のため、スケジューリングポリシーとシステムQoSの関係は不明である。
そこで,従来のスケジューリングパラメータとQoS観測から現在のスケジューリング動作にマッピングするために,新しいQネットワークをトレーニングする強化学習手法を提案する。
提案するフレームワークが従来のEDCA機構よりもはるかに優れたQoSを達成できることを,テストベッドで実証した。
In this paper, a reinforcement-learning-based scheduling framework is proposed and implemented to optimize the application-layer quality-of-service (QoS) of a practical wireless local area network (WLAN) suffering from unknown interference. Particularly, application-layer tasks of file delivery and delay-sensitive communication, e.g., screen projection, in a WLAN with enhanced distributed channel access (EDCA) mechanism, are jointly scheduled by adjusting the contention window sizes and application-layer throughput limitation, such that their QoS, including the throughput of file delivery and the round trip time of the delay-sensitive communication, can be optimized. Due to the unknown interference and vendor-dependent implementation of the network interface card, the relation between the scheduling policy and the system QoS is unknown. Hence, a reinforcement learning method is proposed, in which a novel Q-network is trained to map from the historical scheduling parameters and QoS observations to the current scheduling action. It is demonstrated on a testbed that the proposed framework can achieve a significantly better QoS than the conventional EDCA mechanism. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# Meta-Evolve: 一対多政策伝達のための連続ロボット進化
Meta-Evolve: Continuous Robot Evolution for One-to-many Policy Transfer ( http://arxiv.org/abs/2405.03534v1 ) ライセンス: Link先を確認 | Xingyu Liu, Deepak Pathak, Ding Zhao, | (参考訳) 本稿では,ソースロボットから複数の異なるロボットに専門家ポリシーを転送する問題について検討する。
そこで本研究では,連続ロボット進化を利用して,木構造進化ロボットの集合を通して,各対象ロボットに効率的にポリシーを伝達する,Meta$-$Evolve$という手法を提案する。
ロボット進化ツリーは、ロボット進化経路の共有を可能にするため、我々のアプローチは1対1のポリシー伝達を大幅に上回る。
最適化されたロボット進化木を決定するためのヒューリスティックなアプローチを提案する。
実験の結果,操作方針の1対3の転送効率を最大3.2$\times$と1対6のアジャイルロコモーション政策の2.4$\times$で改善できることが判明した。
We investigate the problem of transferring an expert policy from a source robot to multiple different robots. To solve this problem, we propose a method named $Meta$-$Evolve$ that uses continuous robot evolution to efficiently transfer the policy to each target robot through a set of tree-structured evolutionary robot sequences. The robot evolution tree allows the robot evolution paths to be shared, so our approach can significantly outperform naive one-to-one policy transfer. We present a heuristic approach to determine an optimized robot evolution tree. Experiments have shown that our method is able to improve the efficiency of one-to-three transfer of manipulation policy by up to 3.2$\times$ and one-to-six transfer of agile locomotion policy by 2.4$\times$ in terms of simulation cost over the baseline of launching multiple independent one-to-one policy transfers. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# ロバストWebフィッシング検出のための注意型分類器を用いたフェデレーション連続学習ノードの有効性の探索:実証的研究
Exploring the Efficacy of Federated-Continual Learning Nodes with Attention-Based Classifier for Robust Web Phishing Detection: An Empirical Investigation ( http://arxiv.org/abs/2405.03537v1 ) ライセンス: Link先を確認 | Jesher Joshua M, Adhithya R, Sree Dananjay S, M Revathi, | (参考訳) Webフィッシングは動的脅威となり、検出システムが最新の戦術に迅速に適応する必要がある。
データを蓄積する従来のアプローチや、定期的にリトレーニングするモデルは、より多くなっています。
本研究では,フェデレーション学習と連続学習を組み合わせた新しいパラダイムを提案し,分散ノードが新たなフィッシングデータのストリーム上で,データを蓄積することなくモデルを継続的に更新することを可能にする。
これらのローカル適応モデルは、フェデレーション学習を通じて中央サーバに集約される。
検出性を高めるために,Webフィッシングに特化して,複雑なフィッシングパターンをキャプチャするための注意機構を活用する,残差接続を持つカスタムアテンションベース分類器モデルを導入する。
実験的な調査を通じて,連続学習戦略(累積学習,リプレイ学習,MIR学習,LwF学習)とモデルアーキテクチャのハイブリッド学習パラダイムを評価する。
本研究の主な貢献は,(1)ロバストなWebフィッシング検出のための新たなハイブリッド・フェデレーション・コンチネンタル学習パラダイム,(2)このタスクのために明示的に設計された新しい注意・残差接続ベースモデル,(2)精度0.93,精度0.90,リコール0.96,f1スコアのLwF戦略により達成され,過去の知識を維持しながらフィッシングの脅威を検出する従来のアプローチよりも優れていた。
Web phishing poses a dynamic threat, requiring detection systems to quickly adapt to the latest tactics. Traditional approaches of accumulating data and periodically retraining models are outpaced. We propose a novel paradigm combining federated learning and continual learning, enabling distributed nodes to continually update models on streams of new phishing data, without accumulating data. These locally adapted models are then aggregated at a central server via federated learning. To enhance detection, we introduce a custom attention-based classifier model with residual connections, tailored for web phishing, leveraging attention mechanisms to capture intricate phishing patterns. We evaluate our hybrid learning paradigm across continual learning strategies (cumulative, replay, MIR, LwF) and model architectures through an empirical investigation. Our main contributions are: (1) a new hybrid federated-continual learning paradigm for robust web phishing detection, and (2) a novel attention + residual connections based model explicitly designed for this task, attaining 0.93 accuracy, 0.90 precision, 0.96 recall and 0.93 f1-score with the LwF strategy, outperforming traditional approaches in detecting emerging phishing threats while retaining past knowledge. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# RepVGG-GELAN:脳腫瘍検出のためのVGG-STYLE ConvNetによる拡張GELAN
RepVGG-GELAN: Enhanced GELAN with VGG-STYLE ConvNets for Brain Tumour Detection ( http://arxiv.org/abs/2405.03541v1 ) ライセンス: Link先を確認 | Thennarasi Balakrishnan, Sandeep Singh Sengar, | (参考訳) 特にYOLOに基づく物体検出アルゴリズムは、速度と精度のバランスをとる上で、顕著な効率性を示している。
しかし、脳腫瘍検出へのそれらの応用はいまだ研究されていない。
本研究では,RepVGGにより拡張された新しいYOLOアーキテクチャであるRepVGG-GELANを提案する。
RepVGG-GELANは、RepVGGアーキテクチャを活用して、脳腫瘍の検出の速度と精度を改善する。
RepVGGをYOLOフレームワークに統合することは、計算効率と検出性能のバランスを達成することを目的としている。
本研究は,空間ピラミッドプーリングに基づく汎用層凝集ネットワーク(GELAN)アーキテクチャを含み,RepVGGの能力をさらに向上させる。
脳腫瘍データセットで行った実験的評価は、RepVGG-GELANが既存のRCS-YOLOを上回る精度と速度で有効であることを示す。
具体的には、RepVGG-GELANは、240.7 GFLOPsで動作しながら、最新のアプローチに比べて4.91%の精度と2.54%のAP50を達成する。
GELANアーキテクチャを用いたRepVGG-GELANは,医用画像の高精度かつ効率的な脳腫瘍検出のための最先端のソリューションとして確立された有望な結果を提示する。
実装コードはhttps://github.com/ThensiB/RepVGG-GELANで公開されている。
Object detection algorithms particularly those based on YOLO have demonstrated remarkable efficiency in balancing speed and accuracy. However, their application in brain tumour detection remains underexplored. This study proposes RepVGG-GELAN, a novel YOLO architecture enhanced with RepVGG, a reparameterized convolutional approach for object detection tasks particularly focusing on brain tumour detection within medical images. RepVGG-GELAN leverages the RepVGG architecture to improve both speed and accuracy in detecting brain tumours. Integrating RepVGG into the YOLO framework aims to achieve a balance between computational efficiency and detection performance. This study includes a spatial pyramid pooling-based Generalized Efficient Layer Aggregation Network (GELAN) architecture which further enhances the capability of RepVGG. Experimental evaluation conducted on a brain tumour dataset demonstrates the effectiveness of RepVGG-GELAN surpassing existing RCS-YOLO in terms of precision and speed. Specifically, RepVGG-GELAN achieves an increased precision of 4.91% and an increased AP50 of 2.54% over the latest existing approach while operating at 240.7 GFLOPs. The proposed RepVGG-GELAN with GELAN architecture presents promising results establishing itself as a state-of-the-art solution for accurate and efficient brain tumour detection in medical images. The implementation code is publicly available at https://github.com/ThensiB/RepVGG-GELAN. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# セキュリティ管理能力の形式モデルと政策再編・インシデント管理への応用
A Formal Model of Security Controls' Capabilities and Its Applications to Policy Refinement and Incident Management ( http://arxiv.org/abs/2405.03544v1 ) ライセンス: Link先を確認 | Cataldo Basile, Gabriele Gatti, Francesco Settanni, | (参考訳) ネットワーク化された情報システムにおけるセキュリティ要件の実施は、リスクをますます危険な脅威から軽減するためにセキュリティ制御に依存している。
セキュリティコントロールの設定は難しい。現在でも、管理者は適切なツールサポートなしでそれを実行しなければならない。
したがって、このプロセスは、不安定な姿勢、セキュリティインシデント、脅威に答える際の迅速さの欠如に悩まされる。
本稿では,セキュリティコントロールがセキュリティポリシーを強制する上で提供する機能を抽象化する形式モデルであるSecurity Capability Model(SCM)と,ルール(条件,行動,イベント)とポリシ(条件評価,解決戦略,デフォルトアクション)に関する基本的な概念を記述した情報モデルと,異なる種類のフィルタリングやチャネル保護制御を記述するために必要な機能をカバーするデータモデルを提案する。
最先端の設計パターンに従って、このモデルはセキュリティコントロールの言語の抽象バージョンを生成することができ、抽象ポリシーをデバイス固有の設定に変換するためのモデル駆動アプローチを提供する。
実世界のシナリオにおける有効性を検証することで、SCMは、異なる複雑なセキュリティタスク、すなわち、正確できめ細かいセキュリティ制御の比較、ポリシーの洗練、インシデント応答の自動化を可能にする。
最後に、他のフレームワークやモデルとの統合や拡張の機会を提示します。
Enforcing security requirements in networked information systems relies on security controls to mitigate the risks from increasingly dangerous threats. Configuring security controls is challenging; even nowadays, administrators must perform it without adequate tool support. Hence, this process is plagued by errors that translate to insecure postures, security incidents, and a lack of promptness in answering threats. This paper presents the Security Capability Model (SCM), a formal model that abstracts the features that security controls offer for enforcing security policies, which includes an Information Model that depicts the basic concepts related to rules (i.e., conditions, actions, events) and policies (i.e., conditions' evaluation, resolution strategies, default actions), and a Data Model that covers the capabilities needed to describe different types of filtering and channel protection controls. Following state-of-the-art design patterns, the model allows for generating abstract versions of the security controls' languages and a model-driven approach for translating abstract policies into device-specific configuration settings. By validating its effectiveness in real-world scenarios, we show that SCM enables the automation of different and complex security tasks, i.e., accurate and granular security control comparison, policy refinement, and incident response. Lastly, we present opportunities for extensions and integration with other frameworks and models. | 翻訳日:2024-05-07 13:26:55 公開日:2024-05-06 |
# メディアパイプホロスティックフルボディポーズ推定における手領域検出の最適化による精度向上と下流誤差回避
Optimizing Hand Region Detection in MediaPipe Holistic Full-Body Pose Estimation to Improve Accuracy and Avoid Downstream Errors ( http://arxiv.org/abs/2405.03545v1 ) ライセンス: Link先を確認 | Amit Moryossef, | (参考訳) 本稿では,非理想的手振りに苦慮し,手話認識の精度に影響を及ぼすMediaPipe Holisticの手指領域(ROI)予測の重大な欠陥に対処する。
本稿では,手書きキーポイントとz次元を含む豊富な特徴セットを活用し,ROI推定を向上させるためのデータ駆動型手法を提案する。
提案手法は, 従来手法よりも高いインターセクション・オーバー・ユニオンで, より優れた推定値を示す。
私たちのコードと最適化はhttps://github.com/sign-lang-processing/mediapipe-hand-crop-fix.comで公開されています。
This paper addresses a critical flaw in MediaPipe Holistic's hand Region of Interest (ROI) prediction, which struggles with non-ideal hand orientations, affecting sign language recognition accuracy. We propose a data-driven approach to enhance ROI estimation, leveraging an enriched feature set including additional hand keypoints and the z-dimension. Our results demonstrate better estimates, with higher Intersection-over-Union compared to the current method. Our code and optimizations are available at https://github.com/sign-language-processing/mediapipe-hand-crop-fix. | 翻訳日:2024-05-07 13:17:10 公開日:2024-05-06 |
# CCDM:画像生成のための連続条件拡散モデル
CCDM: Continuous Conditional Diffusion Models for Image Generation ( http://arxiv.org/abs/2405.03546v1 ) ライセンス: Link先を確認 | Xin Ding, Yongwei Wang, Kao Zhang, Z. Jane Wang, | (参考訳) 連続条件生成モデリング(CCGM)は、回帰ラベルとして知られるスカラー連続変数に基づく高次元データ(典型的には画像)の分布を推定することを目的としている。
CcGAN(Continuous Conditional Generative Adversarial Networks)は、当初、このタスクのために設計されていたが、その逆のトレーニングメカニズムは、非常にスパースなデータや不均衡なデータに弱いままであり、結果として準最適結果をもたらす。
生成された画像の品質を高めるために、CcGANを条件付き拡散モデル(CDM)に置き換えることが有望な方法である。
しかし、既存のCDMは、U-Netアーキテクチャが不十分なり、回帰ラベルを扱うためのモデルフィッティング機構が不十分であったり、いくつかの制限があるため、CCGMタスクに適用する場合に問題が発生する。
本稿では,CCGMタスクに特化して設計された最初のCDMである連続条件拡散モデル(CCDM)を紹介する。
CCDMは、特別に設計された条件付き拡散プロセス、カスタムメイドの条件付け機構を備えた改良されたU-Net、新しいモデルフィッティングのためのハードヴィジナルロス、効率的な条件付きサンプリング手順を導入することで、既存のCDMの限界に対処する。
64x64から192x192の解像度の異なる4つのデータセットに関する包括的な実験により、提案したCCDMが最先端のCCGMモデルよりも優れていることを実証し、CCGMに新しいベンチマークを確立する。
大規模なアブレーション研究は,提案したCCDMのモデル設計と実装構成を検証した。
私たちのコードはhttps://github.com/UBCDingXin/CCDMで公開されています。
Continuous Conditional Generative Modeling (CCGM) aims to estimate the distribution of high-dimensional data, typically images, conditioned on scalar continuous variables known as regression labels. While Continuous conditional Generative Adversarial Networks (CcGANs) were initially designed for this task, their adversarial training mechanism remains vulnerable to extremely sparse or imbalanced data, resulting in suboptimal outcomes. To enhance the quality of generated images, a promising alternative is to replace CcGANs with Conditional Diffusion Models (CDMs), renowned for their stable training process and ability to produce more realistic images. However, existing CDMs encounter challenges when applied to CCGM tasks due to several limitations such as inadequate U-Net architectures and deficient model fitting mechanisms for handling regression labels. In this paper, we introduce Continuous Conditional Diffusion Models (CCDMs), the first CDM designed specifically for the CCGM task. CCDMs address the limitations of existing CDMs by introducing specially designed conditional diffusion processes, a modified denoising U-Net with a custom-made conditioning mechanism, a novel hard vicinal loss for model fitting, and an efficient conditional sampling procedure. With comprehensive experiments on four datasets with varying resolutions ranging from 64x64 to 192x192, we demonstrate the superiority of the proposed CCDM over state-of-the-art CCGM models, establishing new benchmarks in CCGM. Extensive ablation studies validate the model design and implementation configuration of the proposed CCDM. Our code is publicly available at https://github.com/UBCDingXin/CCDM. | 翻訳日:2024-05-07 13:17:10 公開日:2024-05-06 |
# ポジションペーパー:ブラックボックス最適化のための基礎モデルを活用する:メリット,課題,今後の方向性
Position Paper: Leveraging Foundational Models for Black-Box Optimization: Benefits, Challenges, and Future Directions ( http://arxiv.org/abs/2405.03547v1 ) ライセンス: Link先を確認 | Xingyou Song, Yingtao Tian, Robert Tjarko Lange, Chansoo Lee, Yujin Tang, Yutian Chen, | (参考訳) 当然のことながら、Large Language Models(LLM)は機械学習研究領域における驚くべきイノベーションの波を呼び起こし、強化学習、ロボティクス、コンピュータビジョンといった様々な分野に多大な影響を与えている。
彼らの組織化は迅速かつ変革的であり、機械学習研究の分野における重要なパラダイムシフトを象徴している。
しかし, ブラックボックス最適化を基礎とした実験設計の分野は, LLMと最適化を統合することで, 探索にユニークなランドスケープが現れるにもかかわらず, これほどのパラダイムシフトの影響を受けていない。
本稿では,シーケンスベース基礎モデルに関するブラックボックス最適化の分野を定式化し,それらと過去の文献との関係を整理する。
本稿では,自由形式テキストにカプセル化されている膨大な情報を活用し,タスク理解を深めること,トランスフォーマーなどの高度に柔軟なシーケンスモデルを利用して優れた最適化戦略を設計すること,これまで見つからなかった検索空間の性能予測を向上することなど,基礎言語モデルが最適化に革命をもたらす最も有望な方法について論じる。
Undeniably, Large Language Models (LLMs) have stirred an extraordinary wave of innovation in the machine learning research domain, resulting in substantial impact across diverse fields such as reinforcement learning, robotics, and computer vision. Their incorporation has been rapid and transformative, marking a significant paradigm shift in the field of machine learning research. However, the field of experimental design, grounded on black-box optimization, has been much less affected by such a paradigm shift, even though integrating LLMs with optimization presents a unique landscape ripe for exploration. In this position paper, we frame the field of black-box optimization around sequence-based foundation models and organize their relationship with previous literature. We discuss the most promising ways foundational language models can revolutionize optimization, which include harnessing the vast wealth of information encapsulated in free-form text to enrich task comprehension, utilizing highly flexible sequence models such as Transformers to engineer superior optimization strategies, and enhancing performance prediction over previously unseen search spaces. | 翻訳日:2024-05-07 13:17:10 公開日:2024-05-06 |
# MAmmoTH2: Webからのインストラクションのスケーリング
MAmmoTH2: Scaling Instructions from the Web ( http://arxiv.org/abs/2405.03548v1 ) ライセンス: Link先を確認 | Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen, | (参考訳) インストラクションチューニングは、大規模言語モデル(LLM)の推論能力を改善し、データ品質とスケーラビリティが重要な要素である。
ほとんどのインストラクションチューニングデータは、人間のクラウドソーシングやGPT-4蒸留に由来する。
LLM推論を強化するために,学習前のWebコーパスから1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。
提案手法では,(1)関連文書のリコール,(2)命令応答対の抽出,(3)オープンソースのLCMを用いて抽出したペアの精製を行う。
このデータセットに基づいて微調整ベースLLMを構築し,MAmmoTH2モデルを構築し,推論ベンチマークの性能を著しく向上させる。
特に、MAmmoTH2-7Bのパフォーマンスは、MATHでは11%から34%、GSM8Kでは36%から67%に向上した。
さらに、パブリックインストラクションチューニングデータセットでMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、いくつかの推論とチャットボットベンチマークで最先端のパフォーマンスを達成する。
本研究は,人為的アノテーションやGPT-4蒸留を使わずに大規模かつ高品質な指導データを収集する方法を実証し,より優れた指導調律データを構築するための新たなパラダイムを提供する。
Instruction tuning improves the reasoning abilities of large language models (LLMs), with data quality and scalability being the crucial factors. Most instruction tuning data come from human crowd-sourcing or GPT-4 distillation. We propose a paradigm to efficiently harvest 10 million naturally existing instruction data from the pre-training web corpus to enhance LLM reasoning. Our approach involves (1) recalling relevant documents, (2) extracting instruction-response pairs, and (3) refining the extracted pairs using open-source LLMs. Fine-tuning base LLMs on this dataset, we build MAmmoTH2 models, which significantly boost performance on reasoning benchmarks. Notably, MAmmoTH2-7B's (Mistral) performance increases from 11% to 34% on MATH and from 36% to 67% on GSM8K without training on any in-domain data. Further training MAmmoTH2 on public instruction tuning datasets yields MAmmoTH2-Plus, achieving state-of-the-art performance on several reasoning and chatbot benchmarks. Our work demonstrates how to harvest large-scale, high-quality instruction data without costly human annotation or GPT-4 distillation, providing a new paradigm for building better instruction tuning data. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# 離散的かつ連続的な状態空間をブリッジする:時間連続拡散モデルにおけるエレンフェスト過程の探索
Bridging discrete and continuous state spaces: Exploring the Ehrenfest process in time-continuous diffusion models ( http://arxiv.org/abs/2405.03549v1 ) ライセンス: Link先を確認 | Ludwig Winkler, Lorenz Richter, Manfred Opper, | (参考訳) 確率過程による生成的モデリングは、その理論的理解の最近の進歩と同様に、顕著な経験的な結果をもたらした。
原則として、プロセスの空間と時間の両方が離散的あるいは連続的である。
本研究では、離散状態空間上での時間連続的なマルコフジャンプ過程について検討し、SDEが与える状態連続拡散過程との対応について検討する。
特に、無限状態空間極限におけるオルンシュタイン・ウレンベック過程に収束する$\textit{Ehrenfest process}$を再考する。
同様に、エレンフェスト過程の時間反転が、時間反転するオルンシュタイン-ウレンベック過程に収束することを示すことができる。
この観測は離散的かつ連続的な状態空間を橋渡しし、各状態空間から各状態空間へのメソッドの受け渡しを可能にする。
さらに,条件付き期待値に依存するマルコフジャンププロセスの時間反転を学習するアルゴリズムを提案する。
提案手法を複数の数値実験で実証する。
Generative modeling via stochastic processes has led to remarkable empirical results as well as to recent advances in their theoretical understanding. In principle, both space and time of the processes can be discrete or continuous. In this work, we study time-continuous Markov jump processes on discrete state spaces and investigate their correspondence to state-continuous diffusion processes given by SDEs. In particular, we revisit the $\textit{Ehrenfest process}$, which converges to an Ornstein-Uhlenbeck process in the infinite state space limit. Likewise, we can show that the time-reversal of the Ehrenfest process converges to the time-reversed Ornstein-Uhlenbeck process. This observation bridges discrete and continuous state spaces and allows to carry over methods from one to the respective other setting. Additionally, we suggest an algorithm for training the time-reversal of Markov jump processes which relies on conditional expectations and can thus be directly related to denoising score matching. We demonstrate our methods in multiple convincing numerical experiments. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# AlphaMath almost Zero: Process Supervision without process
AlphaMath Almost Zero: process Supervision without process ( http://arxiv.org/abs/2405.03553v1 ) ライセンス: Link先を確認 | Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、数学的推論能力を大幅に向上させてきた。
しかし、これらのモデルは、複数の推論ステップを必要とする複雑な問題に悩まされ、しばしば論理的あるいは数値的な誤りにつながる。
数値的なミスはコードインタプリタを統合することで対処できるが、中間ステップで論理的なエラーを特定することはより難しい。
さらに、トレーニングのためにこれらのステップを手動でアノテートすることは、高価であるだけでなく、専門的な専門知識も要求する。
本研究では,モンテカルロ木探索(MCTS)フレームワークを利用して,プロセスの監視と評価の両方を自動的に生成することにより,手動によるアノテーションの必要性を解消する革新的な手法を提案する。
基本的に、LLMが十分に事前訓練されている場合、解を必要とすることなく、トレーニングデータを生成するには数学的な問題と最終的な答えしか必要ありません。
我々は、数学的領域におけるLLMの推論プロセスを改善するために設計されたステップレベルの値モデルを訓練する。
実験の結果,MCTSにより拡張されたLLMによる自動生成解を用いることで,複雑な数学的推論タスクの処理能力が大幅に向上することが示唆された。
Recent advancements in large language models (LLMs) have substantially enhanced their mathematical reasoning abilities. However, these models still struggle with complex problems that require multiple reasoning steps, frequently leading to logical or numerical errors. While numerical mistakes can largely be addressed by integrating a code interpreter, identifying logical errors within intermediate steps is more challenging. Moreover, manually annotating these steps for training is not only expensive but also demands specialized expertise. In this study, we introduce an innovative approach that eliminates the need for manual annotation by leveraging the Monte Carlo Tree Search (MCTS) framework to generate both the process supervision and evaluation signals automatically. Essentially, when a LLM is well pre-trained, only the mathematical questions and their final answers are required to generate our training data, without requiring the solutions. We proceed to train a step-level value model designed to improve the LLM's inference process in mathematical domains. Our experiments indicate that using automatically generated solutions by LLMs enhanced with MCTS significantly improves the model's proficiency in dealing with intricate mathematical reasoning tasks. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# ねじりによるホモロジカル量子誤差補正
Homological Quantum Error Correction with Torsion ( http://arxiv.org/abs/2405.03559v1 ) ライセンス: Link先を確認 | Samo Novák, | (参考訳) ホモロジー量子誤り訂正は代数トポロジーとホモロジー代数のツールを用いて、トポロジカル空間のセルレーションからカルダーバンク・ソー=ステイン量子誤り訂正符号を導出する。
この研究は関連するトピックの探索であり、古典的誤り訂正からホモロジー理論を経て、キューディットシステムに作用するCSSコードへの旅である。
クイディット符号はそれらの論理空間にねじれを持つ。
これは、おそらく異なる次元の余分な論理キューディットを与えるので、研究が興味深い。
このトピックに関する例やコメントとは別に、元の結果であるQudit Logical Space の構造定理、ホモロジー代数からのUniversal Coefficient Theorem の応用を証明し、トーションが絡むときの論理空間に関する情報を与え、文献における前の結果を改善する。
さらに、この研究は、我々のニーズにぴったり合う、細胞複合体の一般概念の抽象的で制限されたバージョンを導入します。
Homological quantum error correction uses tools of algebraic topology and homological algebra to derive Calderbank-Shor-Steane quantum error correcting codes from cellulations of topological spaces. This work is an exploration of the relevant topics, a journey from classical error correction, through homology theory, to CSS codes acting on qudit systems. Qudit codes have torsion in their logical spaces. This is interesting to study because it gives us extra logical qudits, of possibly different dimension. Apart from examples and comments on the topic, we prove an original result, the Structure Theorem for the Qudit Logical Space, an application of the Universal Coefficient Theorem from homological algebra, which gives us information about the logical space when torsion is involved, and that improves on a previous result in the literature. Furthermore, this work introduces our own abstracted and restricted version of the general notion of a cell complex, suited exactly to our needs. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# シードクラスの解放:アンカー生成と分類リフレーミングによるFew-ShotとZero-Shotのテキスト分類
Liberating Seen Classes: Boosting Few-Shot and Zero-Shot Text Classification via Anchor Generation and Classification Reframing ( http://arxiv.org/abs/2405.03565v1 ) ライセンス: Link先を確認 | Han Liu, Siyang Zhao, Xiaotong Zhang, Feng Zhang, Wei Wang, Fenglong Ma, Hongyang Chen, Hong Yu, Xianchao Zhang, | (参考訳) 短いショットとゼロショットのテキスト分類は、ラベル付きサンプルやラベル付きサンプルが全くない新しいクラスからのサンプルを認識することを目的としている。
一般的な手法では,見知らぬクラスから見つからないクラスへ知識を移すことによって,有望なパフォーマンスを示すが,(1)クラス間の相違は,見知らぬクラスから見つからないクラスへ学習した特徴を,難易度と非効率度の両方に変換する。
2) ラベル付き新規サンプルでは,特に複雑なシナリオにおいて,ソース分布からターゲット分布への調整が可能な十分な監視信号が得られないことが多い。
上記の問題を緩和するために,少数ショットとゼロショットのテキスト分類のためのシンプルで効果的な戦略を提案する。
そこで我々は,見知らぬクラスの制約からモデルを解放し,見知らぬクラスの学習を必要とせずに,見つからないカテゴリを予測できるようにする。
具体的には、より関係のないカテゴリの知識をマイニングするために、大きな事前学習言語モデルを用いて偽の新規サンプルを生成し、最も代表的なものをカテゴリアンカーとして選択する。
その後、マルチクラス分類タスクをバイナリ分類タスクに変換し、クエリ-アンカーペアの類似性を予測に利用して、限られた監視信号を完全に活用する。
6つの広く利用されている公開データセットに対する大規模な実験により,提案手法は,クラスサンプルを使わずとも,ほとんどショットやゼロショットのタスクにおいて,他の強力なベースラインを著しく上回り得ることが示された。
Few-shot and zero-shot text classification aim to recognize samples from novel classes with limited labeled samples or no labeled samples at all. While prevailing methods have shown promising performance via transferring knowledge from seen classes to unseen classes, they are still limited by (1) Inherent dissimilarities among classes make the transformation of features learned from seen classes to unseen classes both difficult and inefficient. (2) Rare labeled novel samples usually cannot provide enough supervision signals to enable the model to adjust from the source distribution to the target distribution, especially for complicated scenarios. To alleviate the above issues, we propose a simple and effective strategy for few-shot and zero-shot text classification. We aim to liberate the model from the confines of seen classes, thereby enabling it to predict unseen categories without the necessity of training on seen classes. Specifically, for mining more related unseen category knowledge, we utilize a large pre-trained language model to generate pseudo novel samples, and select the most representative ones as category anchors. After that, we convert the multi-class classification task into a binary classification task and use the similarities of query-anchor pairs for prediction to fully leverage the limited supervision signals. Extensive experiments on six widely used public datasets show that our proposed method can outperform other strong baselines significantly in few-shot and zero-shot tasks, even without using any seen class samples. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# 軽量音響シーン分類のための深部空間分離蒸留法
Deep Space Separable Distillation for Lightweight Acoustic Scene Classification ( http://arxiv.org/abs/2405.03567v1 ) ライセンス: Link先を確認 | ShuQi Ye, Yuan Tian, | (参考訳) 実世界では,音響シーン分類(ASC)が非常に重要である。
近年,深層学習に基づく手法が音響シーンの分類に広く用いられている。
しかしながら、これらのメソッドは今のところ十分に軽量ではなく、パフォーマンスが不十分である。
これらの問題を解決するために,深部空間分離型蒸留ネットワークを提案する。
まず,対数メル分光器を用いて低周波分解を行い,モデル性能を維持しながら計算複雑性を著しく低減する。
第2に、分離可能畳み込み(SC)、オルソノーマル分離畳み込み(OSC)、分離可能部分畳み込み(SPC)の3つの軽量演算子を特別に設計する。
これらのオペレータは、音響シーン分類タスクにおいて、高効率な特徴抽出機能を示す。
実験の結果,提案手法は,現在普及しているディープラーニング手法と比較して9.8%向上し,パラメータ数や計算複雑性も小さくなった。
Acoustic scene classification (ASC) is highly important in the real world. Recently, deep learning-based methods have been widely employed for acoustic scene classification. However, these methods are currently not lightweight enough as well as their performance is not satisfactory. To solve these problems, we propose a deep space separable distillation network. Firstly, the network performs high-low frequency decomposition on the log-mel spectrogram, significantly reducing computational complexity while maintaining model performance. Secondly, we specially design three lightweight operators for ASC, including Separable Convolution (SC), Orthonormal Separable Convolution (OSC), and Separable Partial Convolution (SPC). These operators exhibit highly efficient feature extraction capabilities in acoustic scene classification tasks. The experimental results demonstrate that the proposed method achieves a performance gain of 9.8% compared to the currently popular deep learning methods, while also having smaller parameter count and computational complexity. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# ILILT:リバースリソグラフィー技術の示唆的学習
ILILT: Implicit Learning of Inverse Lithography Technologies ( http://arxiv.org/abs/2405.03574v1 ) ライセンス: Link先を確認 | Haoyu Yang, Haoxing Ren, | (参考訳) シリコンウェハにチップデザインマスクを転写するリソグラフィーは、現代の半導体製造フローにおいて最も重要なフェーズである。
リソグラフィシステムの限界のため、設計とシリコンのミスマッチに対処するためには、広範囲の設計最適化が必要である。
逆リソグラフィ技術(ILT)は、マスク最適化と呼ばれるプレファブリケーション最適化を行う上で有望なソリューションの1つである。
マスク最適化問題の制約付き非凸性のため、数値ILTソルバは最適でない解に悩まされるのを避けるため、優れた初期化に大きく依存する。
したがって、機械学習(ML)技術は、1ショットの推論でILTソルバのマスク初期化を生成するために提案され、ILT中のより高速でより良い収束を目標としている。
本稿では,ML モデルが ILT ソルバをループ内で動作させることなく,高品質な最適化マスクを直接生成できるかどうか,という問題に対処する。
ILILTは,暗黙の層学習法とリソグラフィ条件の入力を応用し,モデルの基礎となる暗黙の学習ILTフレームワークを提案する。
ILT最適化の手順を理解するためにトレーニングされたILILTは、最先端の機械学習ソリューションより優れ、効率と品質が大幅に向上する。
Lithography, transferring chip design masks to the silicon wafer, is the most important phase in modern semiconductor manufacturing flow. Due to the limitations of lithography systems, Extensive design optimizations are required to tackle the design and silicon mismatch. Inverse lithography technology (ILT) is one of the promising solutions to perform pre-fabrication optimization, termed mask optimization. Because of mask optimization problems' constrained non-convexity, numerical ILT solvers rely heavily on good initialization to avoid getting stuck on sub-optimal solutions. Machine learning (ML) techniques are hence proposed to generate mask initialization for ILT solvers with one-shot inference, targeting faster and better convergence during ILT. This paper addresses the question of \textit{whether ML models can directly generate high-quality optimized masks without engaging ILT solvers in the loop}. We propose an implicit learning ILT framework: ILILT, which leverages the implicit layer learning method and lithography-conditioned inputs to ground the model. Trained to understand the ILT optimization procedure, ILILT can outperform the state-of-the-art machine learning solutions, significantly improving efficiency and quality. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# 不規則サンプリング時系列予測のための関数潜在ダイナミクス
Functional Latent Dynamics for Irregularly Sampled Time Series Forecasting ( http://arxiv.org/abs/2405.03582v1 ) ライセンス: Link先を確認 | Christian Klötergens, Vijaya Krishna Yalavarthi, Maximilian Stubbemann, Lars Schmidt-Thieme, | (参考訳) 不規則にサンプリングされた時系列は、医療、気候、天文学など、複数の現実世界の応用でしばしば見られる。
これらは、完全に観察され定期的にサンプリングされた時系列でのみ動作する標準の深層学習モデルに対して、大きな課題となる。
非正則時系列の連続力学を捉えるために、多くのモデルは正規微分方程式(ODE)を隠された状態で解くことに頼っている。
これらのODEベースのモデルは、シーケンシャルな操作と複雑なODEソルバにより、動作が遅く、大きなメモリを必要とする傾向にある。
複雑なODEベースのmod-elの代替として、FLD(Functional Latent Dynamics)と呼ばれるモデル群を提案する。
ODEを解く代わりに、すべての時点に存在する単純な曲線を使って、モデルの連続的な潜伏状態を指定する。
これらの曲線の係数は、欠落した値を無視した時系列の観測値からのみ学習される。
大規模な実験によって、FLDは最高のODEベースモデルよりも優れたパフォーマンスを実現し、ランタイムとメモリオーバーヘッドを低減できることを示した。
具体的には、最高の予測モデルと比較して予測を推測するのに、FLDは桁違いに時間を要する。
Irregularly sampled time series with missing values are often observed in multiple real-world applications such as healthcare, climate and astronomy. They pose a significant challenge to standard deep learn- ing models that operate only on fully observed and regularly sampled time series. In order to capture the continuous dynamics of the irreg- ular time series, many models rely on solving an Ordinary Differential Equation (ODE) in the hidden state. These ODE-based models tend to perform slow and require large memory due to sequential operations and a complex ODE solver. As an alternative to complex ODE-based mod- els, we propose a family of models called Functional Latent Dynamics (FLD). Instead of solving the ODE, we use simple curves which exist at all time points to specify the continuous latent state in the model. The coefficients of these curves are learned only from the observed values in the time series ignoring the missing values. Through extensive experi- ments, we demonstrate that FLD achieves better performance compared to the best ODE-based model while reducing the runtime and memory overhead. Specifically, FLD requires an order of magnitude less time to infer the forecasts compared to the best performing forecasting model. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# 社会技術スタック:非合意的近親メディアにおけるソーシャル・コンピューティング研究の機会
The Sociotechnical Stack: Opportunities for Social Computing Research in Non-consensual Intimate Media ( http://arxiv.org/abs/2405.03585v1 ) ライセンス: Link先を確認 | Li Qiwei, Allison McDonald, Oliver L. Haimson, Sarita Schoenebeck, Eric Gilbert, | (参考訳) 非合意的親密なメディア(NCIM)は、人物の同意なしに親密なコンテンツを共有することであり、その中には「復讐ポルノ」や性的に露骨なディープフェイクが含まれる。
NCIMは過去10年間、法学、心理学、コミュニケーションの分野で注目を集めてきたが、コンピュータ奨学金では十分に扱われていない。
本稿では、NCIMがそれらを促進する特定の技術コンポーネントに害を及ぼすことによって、このギャップを解消する。
技術的スタックをそれに対応する社会的影響にマッピングするために設計された概念的フレームワークである社会技術的スタックを紹介する。
社会工学的なスタックは、NCIMのような社会工学的な問題を解析し、コンピューティング研究の機会へ向けることを可能にする。
本稿では,NCIMの潜伏を防止し,技術の構築と再構築を通じて被害者の生存を支援するための,コンピューティングと社会コンピューティングコミュニティのための研究ロードマップを提案する。
Non-consensual intimate media (NCIM) involves sharing intimate content without the depicted person's consent, including "revenge porn" and sexually explicit deepfakes. While NCIM has received attention in legal, psychological, and communication fields over the past decade, it is not sufficiently addressed in computing scholarship. This paper addresses this gap by linking NCIM harms to the specific technological components that facilitate them. We introduce the sociotechnical stack, a conceptual framework designed to map the technical stack to its corresponding social impacts. The sociotechnical stack allows us to analyze sociotechnical problems like NCIM, and points toward opportunities for computing research. We propose a research roadmap for computing and social computing communities to deter NCIM perpetration and support victim-survivors through building and rebuilding technologies. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# ペアワイズ類似性を用いた自己スーパービジョンによるディープクラスタリング
Deep Clustering with Self-Supervision using Pairwise Similarities ( http://arxiv.org/abs/2405.03590v1 ) ライセンス: Link先を確認 | Mohammadreza Sadeghi, Narges Armanfard, | (参考訳) ディープクラスタリングはクラスタリングに埋め込み、クラスタリングに適した低次元空間を見つける。
本稿では,ペアワイズ類似性(DCSS)を用いた自己スーパービジョンを用いた新しいディープクラスタリングフレームワークを提案する。
提案手法は2つの連続位相からなる。
第1フェーズでは、クラスタ毎の1つのハイパースフィアのようなデータポイントからなるハイパースフィアのようなグループを、クラスタ固有の損失を用いてトレーニングされたオートエンコーダを用いて形成することを提案する。
ハイパースフィアはオートエンコーダの潜在空間で形成される。
第2フェーズでは,より複雑なクラスタ分布を収容し,より正確なクラスタリング性能を実現するために,ペアワイズな類似性を用いて,$K$次元空間を作成することを提案する。
K$はクラスタの数です。
第1フェーズで得られるオートエンコーダの潜伏空間を第2フェーズの入力として使用する。
両フェーズの有効性は、厳密な実験を行い、7つのベンチマークデータセット上で実証される。
Deep clustering incorporates embedding into clustering to find a lower-dimensional space appropriate for clustering. In this paper, we propose a novel deep clustering framework with self-supervision using pairwise similarities (DCSS). The proposed method consists of two successive phases. In the first phase, we propose to form hypersphere-like groups of similar data points, i.e. one hypersphere per cluster, employing an autoencoder that is trained using cluster-specific losses. The hyper-spheres are formed in the autoencoder's latent space. In the second phase, we propose to employ pairwise similarities to create a $K$-dimensional space that is capable of accommodating more complex cluster distributions, hence providing more accurate clustering performance. $K$ is the number of clusters. The autoencoder's latent space obtained in the first phase is used as the input of the second phase. The effectiveness of both phases is demonstrated on seven benchmark datasets by conducting a rigorous set of experiments. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# 効率的な事前訓練と展開による高スパーシティ基礎ラマモデルの構築
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment ( http://arxiv.org/abs/2405.03594v1 ) ライセンス: Link先を確認 | Abhinav Agarwalla, Abhay Gupta, Alexandre Marques, Shubhra Pandit, Michael Goin, Eldar Kurtic, Kevin Leong, Tuan Nguyen, Mahmoud Salem, Dan Alistarh, Sean Lie, Mark Kurtz, | (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
本研究では,最大70%の間隔で微調整タスクの完全精度回復を実現するための,高精度で疎結合な高性能LCMを創出する手法を提案する。
我々は,SparseGPTワンショットプルーニング法と,SlimPajamaデータセットのサブセットにThe StackデータセットのPythonサブセットを混合したスパース事前学習を組み合わせることで,LLaMA-2 7Bモデルに対してこれを実現する。
本稿では,Cerebras CS-3チップにおいて,理論スケーリングと密に一致した間隔によるトレーニングアクセラレーションを示す。
さらに,Neural MagicのDeepSparseエンジンとNeural Magicのnm-vllmエンジンによるGPUの1.7xを利用して,CPU上の最大3倍の推論加速度を確立する。
上記のゲインはスパーシティーのみで実現され、量子化のさらなる利用によってさらにゲインを得られる。
具体的には、スパース量子化LLaMAモデルに対して最大8.6倍のCPU上での総高速化を示す。
これらの結果は、チャット、命令追従、コード生成、算術推論、要約など、多種多様な課題にまたがって、それらの一般化を証明する。
この研究は、精度を犠牲にすることなく、より小型で高速なLCMを迅速に作成する方法を開拓する。
Large language models (LLMs) have revolutionized Natural Language Processing (NLP), but their size creates computational bottlenecks. We introduce a novel approach to create accurate, sparse foundational versions of performant LLMs that achieve full accuracy recovery for fine-tuning tasks at up to 70% sparsity. We achieve this for the LLaMA-2 7B model by combining the SparseGPT one-shot pruning method and sparse pretraining of those models on a subset of the SlimPajama dataset mixed with a Python subset of The Stack dataset. We exhibit training acceleration due to sparsity on Cerebras CS-3 chips that closely matches theoretical scaling. In addition, we establish inference acceleration of up to 3x on CPUs by utilizing Neural Magic's DeepSparse engine and 1.7x on GPUs through Neural Magic's nm-vllm engine. The above gains are realized via sparsity alone, thus enabling further gains through additional use of quantization. Specifically, we show a total speedup on CPUs for sparse-quantized LLaMA models of up to 8.6x. We demonstrate these results across diverse, challenging tasks, including chat, instruction following, code generation, arithmetic reasoning, and summarization to prove their generality. This work paves the way for rapidly creating smaller and faster LLMs without sacrificing accuracy. | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# GREEN: 生成放射線学レポートの評価と誤記
GREEN: Generative Radiology Report Evaluation and Error Notation ( http://arxiv.org/abs/2405.03595v1 ) ライセンス: Link先を確認 | Sophie Ostmeier, Justin Xu, Zhihong Chen, Maya Varma, Louis Blankemeier, Christian Bluethgen, Arne Edward Michalson, Michael Moseley, Curtis Langlotz, Akshay S Chaudhari, Jean-Benoit Delbrouck, | (参考訳) 医用画像に関する正確な医療コミュニケーションが必要であるため、事実の正しさが極めて重要であるため、放射線学報告の評価は難しい問題である。
既存の自動評価指標は、事実の正しさ(例えばBLEUやROUGE)を考慮できないか、解釈可能性(例えばF1CheXpertやF1RadGraph)に制限されている。
本稿では,GREEN(Generative Radiology Report Evaluation and Error Notation)について紹介する。GREENは,言語モデルの自然言語理解を利用して,候補レポートにおける臨床的に有意な誤りを定量的かつ定性的に識別し,説明する手法である。
現在のメトリクスと比較すると、GREENは次のように提供します。
1)専門家の選好に沿ったスコア
2【臨床的に重要な誤りの解釈可能な説明】 エンドユーザーとのフィードバックループを可能にすること、及び
3)商用製品の性能に到達する軽量なオープンソース手法。
GREENをGPT-4と比較し,6人の専門家の誤り数と2人の専門家の好みを検証した。
提案手法は, 専門家の誤差数と高い相関性を示すだけでなく, 従来の手法と比較して, 専門家の好みと高い相関性を示す。
です。
Evaluating radiology reports is a challenging problem as factual correctness is extremely important due to the need for accurate medical communication about medical images. Existing automatic evaluation metrics either suffer from failing to consider factual correctness (e.g., BLEU and ROUGE) or are limited in their interpretability (e.g., F1CheXpert and F1RadGraph). In this paper, we introduce GREEN (Generative Radiology Report Evaluation and Error Notation), a radiology report generation metric that leverages the natural language understanding of language models to identify and explain clinically significant errors in candidate reports, both quantitatively and qualitatively. Compared to current metrics, GREEN offers: 1) a score aligned with expert preferences, 2) human interpretable explanations of clinically significant errors, enabling feedback loops with end-users, and 3) a lightweight open-source method that reaches the performance of commercial counterparts. We validate our GREEN metric by comparing it to GPT-4, as well as to error counts of 6 experts and preferences of 2 experts. Our method demonstrates not only higher correlation with expert error counts, but simultaneously higher alignment with expert preferences when compared to previous approaches." | 翻訳日:2024-05-07 13:17:09 公開日:2024-05-06 |
# Si/SiGeヘテロ構造における谷分割の高分解能プローブとしての走査ゲート顕微鏡の利用に向けて
Towards Utilizing Scanning Gate Microscopy as a High-Resolution Probe of Valley Splitting in Si/SiGe Heterostructures ( http://arxiv.org/abs/2405.03596v1 ) ライセンス: Link先を確認 | Efe Cakar, H. Ekmel Ercan, Gordian Fuchs, Artem O. Denisov, Christopher R. Anderson, Mark F. Gyure, Jason R. Petta, | (参考訳) Si/SiGeヘテロ構造における2つの低層谷状態の分裂に影響を与える物質特性の詳細な理解は、スピン量子ビットの数が増加するにつれてますます重要になる。
走査ゲート顕微鏡は、Si量子井戸の平面上で先端誘起ドットが動き回るときの谷分割の空間的変動を測定する方法として提案されている。
本研究では, 走査ゲート顕微鏡先端の静電モデルと重なり合うゲート構造と, デバイススタック内の3次元シュリンガー・ポアソン方程式の近似解を組み合わせたシミュレーションを開発した。
このシミュレーションを用いて, 電極近傍に形成される先端誘起量子ドットとドレイン電極が, ゲート電極から離れた領域へ断熱的に移動可能であることを示す。
我々は,Si/SiGe界面の欠陥に面した先端誘起ドットを空間的に変換することにより,谷分割の変化を検出することができると主張している。
A detailed understanding of the material properties that affect the splitting between the two low-lying valley states in Si/SiGe heterostructures will be increasingly important as the number of spin qubits is increased. Scanning gate microscopy has been proposed as a method to measure the spatial variation of the valley splitting as a tip-induced dot is moved around in the plane of the Si quantum well. We develop a simulation using an electrostatic model of the scanning gate microscope tip and the overlapping gate structure combined with an approximate solution to the three-dimensional Schr\"odinger-Poisson equation in the device stack. Using this simulation, we show that a tip-induced quantum dot formed near source and drain electrodes can be adiabatically moved to a region far from the gate electrodes. We argue that by spatially translating the tip-induced dot across a defect in the Si/SiGe interface, changes in valley splitting can be detected. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# ウェハスケールにおける追跡可能な島モデル遺伝的アルゴリズム
Trackable Island-model Genetic Algorithms at Wafer Scale ( http://arxiv.org/abs/2405.03605v1 ) ライセンス: Link先を確認 | Matthew Andres Moreno, Connor Yang, Emily Dolson, Luis Zaman, | (参考訳) 850,000プロセッサのCerebras Wafer-Scale Engine(WSE)のようなML/AIハードウェアアクセラレータは、進化的計算能力のスケールアップを大いに約束している。
しかしながら、これらのプラットフォームの大きなプロセッサ数を効率的に活用しながら、基盤となる進化過程の可視性を維持することは依然として課題である。
本稿では,WSEプラットフォーム上でのデジタル進化から系統情報を抽出する問題に焦点をあてる。
WSEハードウェアのためのトラッキング対応非同期島型遺伝的アルゴリズム(GA)フレームワークを提案する。
シミュレーションおよびオンハードのGAベンチマークでは、単純なトラッキング可能なエージェントモデルで、1分間に100万世代以上、人口規模が1600万に達した。
このペースは1日に4回の評価を可能にします。
本研究は,これらの治験の系統的再構成を検証し,根底にある進化状態の推測に適合することを示す。
特に,適応力学が有効か無効かで,ウェハスケールの走行を区別する透視信号の抽出を実証する。
これらのベンチマークと検証試験は、効率的かつ観測可能な高度にスケーラブルな進化的計算の可能性を反映している。
島式GAを実装するカーネルコードは、固定長ゲノムの内容と適合度基準をサポートするためにドロップインカスタマイズをサポートしており、コミュニティ全体の研究利益を向上するために利用することができる。
Emerging ML/AI hardware accelerators, like the 850,000 processor Cerebras Wafer-Scale Engine (WSE), hold great promise to scale up the capabilities of evolutionary computation. However, challenges remain in maintaining visibility into underlying evolutionary processes while efficiently utilizing these platforms' large processor counts. Here, we focus on the problem of extracting phylogenetic information from digital evolution on the WSE platform. We present a tracking-enabled asynchronous island-based genetic algorithm (GA) framework for WSE hardware. Emulated and on-hardware GA benchmarks with a simple tracking-enabled agent model clock upwards of 1 million generations a minute for population sizes reaching 16 million. This pace enables quadrillions of evaluations a day. We validate phylogenetic reconstructions from these trials and demonstrate their suitability for inference of underlying evolutionary conditions. In particular, we demonstrate extraction of clear phylometric signals that differentiate wafer-scale runs with adaptive dynamics enabled versus disabled. Together, these benchmark and validation trials reflect strong potential for highly scalable evolutionary computation that is both efficient and observable. Kernel code implementing the island-model GA supports drop-in customization to support any fixed-length genome content and fitness criteria, allowing it to be leveraged to advance research interests across the community. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# ゼロショット学習のための二重関係マイニングネットワーク
Dual Relation Mining Network for Zero-Shot Learning ( http://arxiv.org/abs/2405.03613v1 ) ライセンス: Link先を確認 | Jinwei Han, Yingguo Gao, Zhiwen Lin, Ke Yan, Shouhong Ding, Yuan Gao, Gui-Song Xia, | (参考訳) Zero-shot Learning (ZSL) は、見知らぬクラスから見つからないクラスへ共有意味知識(属性など)を移すことによって、新しいクラスを認識することを目的としている。
近年,視覚的特徴や属性を空間的注意機構によって整列させるアテンションベース手法が顕著に進歩している。
しかし,これらの手法は空間次元における視覚的セマンティックな関係のみを探索し,異なる属性が類似の注意領域を共有している場合の曖昧さと属性間の意味的関係を議論することは稀である。
上記の問題を緩和するため,より効果的な視覚・意味的相互作用を実現するためのDual Relation Mining Network(DRMN)を提案し,知識伝達のための属性間の意味的関係を学習する。
具体的には,多層特徴融合により視覚情報を豊かにし,視覚的・意味的埋め込みのための空間的注意を喚起する,視覚的・意味的関係マイニングのための二重注意ブロック(DAB)を提案する。
さらに、属性誘導チャネルアテンションを用いて、絡み合ったセマンティック特徴を分離する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて,画像間の属性表現の一般化を促進する。
さらに,人間の定義する意味的属性の補完としてグローバルな分類分岐を導入し,その結果を属性に基づく分類と組み合わせる。
大規模な実験により、DRMNは3つの標準ZSLベンチマーク(CUB、SUN、AwA2)に新しい最先端のパフォーマンスをもたらすことが示された。
Zero-shot learning (ZSL) aims to recognize novel classes through transferring shared semantic knowledge (e.g., attributes) from seen classes to unseen classes. Recently, attention-based methods have exhibited significant progress which align visual features and attributes via a spatial attention mechanism. However, these methods only explore visual-semantic relationship in the spatial dimension, which can lead to classification ambiguity when different attributes share similar attention regions, and semantic relationship between attributes is rarely discussed. To alleviate the above problems, we propose a Dual Relation Mining Network (DRMN) to enable more effective visual-semantic interactions and learn semantic relationship among attributes for knowledge transfer. Specifically, we introduce a Dual Attention Block (DAB) for visual-semantic relationship mining, which enriches visual information by multi-level feature fusion and conducts spatial attention for visual to semantic embedding. Moreover, an attribute-guided channel attention is utilized to decouple entangled semantic features. For semantic relationship modeling, we utilize a Semantic Interaction Transformer (SIT) to enhance the generalization of attribute representations among images. Additionally, a global classification branch is introduced as a complement to human-defined semantic attributes, and we then combine the results with attribute-based classification. Extensive experiments demonstrate that the proposed DRMN leads to new state-of-the-art performances on three standard ZSL benchmarks, i.e., CUB, SUN, and AwA2. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# 次元性低下における非負行列因子化:サーベイ
Nonnegative Matrix Factorization in Dimensionality Reduction: A Survey ( http://arxiv.org/abs/2405.03615v1 ) ライセンス: Link先を確認 | Farid Saberi-Movahed, Kamal Berahman, Razieh Sheikhpour, Yuefeng Li, Shirui Pan, | (参考訳) 次元性低減は、冗長な特徴やノイズ、無関係なデータを排除し、特徴学習の精度を改善し、訓練時間を短縮する上で重要な役割を担っている。
非負行列因子化 (NMF) は次元減少のための人気かつ強力な方法として浮上している。
広範に使われているにもかかわらず、次元の減少という文脈において、NMFを包括的に分析する必要がある。
このギャップに対処するため,本稿では,特徴抽出と特徴選択の両分野におけるNMFの適用性に着目し,NMFの包括的調査を行う。
本稿では,次元還元の分類を導入し,基礎となる概念の理解を深める。
その後、特徴抽出と選択に使用される多種多様なNMFアプローチの概要を掘り下げる。
さらに,NMFの次元化における最新の研究動向と今後の方向性について考察し,さらなる探索・開発を必要とする領域の強調をめざした。
Dimensionality Reduction plays a pivotal role in improving feature learning accuracy and reducing training time by eliminating redundant features, noise, and irrelevant data. Nonnegative Matrix Factorization (NMF) has emerged as a popular and powerful method for dimensionality reduction. Despite its extensive use, there remains a need for a comprehensive analysis of NMF in the context of dimensionality reduction. To address this gap, this paper presents a comprehensive survey of NMF, focusing on its applications in both feature extraction and feature selection. We introduce a classification of dimensionality reduction, enhancing understanding of the underlying concepts. Subsequently, we delve into a thorough summary of diverse NMF approaches used for feature extraction and selection. Furthermore, we discuss the latest research trends and potential future directions of NMF in dimensionality reduction, aiming to highlight areas that need further exploration and development. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# コードラマによるソースコードのエネルギー効率制御実験
A Controlled Experiment on the Energy Efficiency of the Source Code Generated by Code Llama ( http://arxiv.org/abs/2405.03616v1 ) ライセンス: Link先を確認 | Vlad-Andrei Cursaru, Laura Duits, Joel Milligan, Damla Ural, Berta Rodriguez Sanchez, Vincenzo Stoico, Ivano Malavolta, | (参考訳) コンテキスト。
現在、ソフトウェア開発者の83%がコード生成にLLM(Large Language Models)を使用している。
LLMは最近、ソフトウェア開発者の生産性を高め、ソフトウェア開発の時間とコストを削減するために欠かせないものになった。
初心者から専門家まで、開発者はLLMツールを使ってバグを検出し、パッチを当てるだけでなく、生成したコードをソフトウェアに統合する。
しかし、現在、LLMツールによって生成されたソースコードのエネルギー効率の客観的評価は行われていない。
2023年8月にリリースされたCode Llamaは,最新のLLMツールのひとつだ。
ゴール。
本稿では,人間の記述したソースコードに対して,コードラマのエネルギー効率を評価する実験的検討を行った。
方法。
我々は、C++、JavaScript、Pythonで実装された3つの人手によるベンチマークを含む実験を設計する。
私たちはCode Llama氏に、異なるプロンプトと温度を使ってベンチマークのコードを生成するように依頼します。
そこで我々は,実装とエネルギー効率を両立させる。
結果。
本研究では,Code Llamaが生成するコードのエネルギー効率が,選択したプログラミング言語と,現在開発中の特定のコード問題に大きく依存していることを示す。
また、人間の実装は全体的にエネルギー効率が良く、生成されたJavaScriptコードは人間よりも優れています。
さらに、Code Llamaにエネルギー効率のよいコードを生成するよう要求すると、同じか悪いエネルギー効率が得られる。
結論。
私たちの結果によると、Code Llamaを使って生成されたコードは、たとえそのように促されたとしても、エネルギー効率を保証しません。
したがって、ソフトウェア開発者は、開発中のソフトウェアシステムに組み込む前に、生成されたコードのエネルギー効率を評価する必要がある。
Context. Nowadays, 83% of software developers use Large Language Models (LLMs) to generate code. LLMs recently became essential to increase the productivity of software developers and decrease the time and cost of software development. Developers ranging from novices to experts use LLM tools not only to detect and patch bugs, but also to integrate generated code into their software. However, as of today there is no objective assessment of the energy efficiency of the source code generated by LLM tools. Released in August 2023, Code Llama is one of the most recent LLM tools. Goal. In this paper, we present an empirical study that assesses the energy efficiency of Code Llama with respect to human-written source code. Method. We design an experiment involving three human-written benchmarks implemented in C++, JavaScript, and Python. We ask Code Llama to generate the code of the benchmarks using different prompts and temperatures. Therefore, we execute both implementations and profile their energy efficiency. Results. Our study shows that the energy efficiency of code generated by Code Llama is heavily-dependent on the chosen programming language and the specific code problem at hand. Also, human implementations tend to be more energy efficient overall, with generated JavaScript code outperforming its human counterpart. Moreover, explicitly asking Code Llama to generate energy-efficient code results in an equal or worse energy efficiency, as well as using different temperatures seems not to affect the energy efficiency of generated code. Conclusions. According to our results, code generated using Code Llama does not guarantee energy efficiency, even when prompted to do so. Therefore, software developers should evaluate the energy efficiency of generated code before integrating it into the software system under development. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# Rydberg RF受信機の変調転送プロトコル
Modulation transfer protocol for Rydberg RF receivers ( http://arxiv.org/abs/2405.03618v1 ) ライセンス: Link先を確認 | Duc-Anh Trinh, Adwaith K. V., Mickael Branco, Aliénor Rouxel, Sacha Welinski, Perrine Berger, Fabienne Goldfarb, Fabien Bretenaker, | (参考訳) 本稿では,Rydberg RFレシーバの検出感度を,Rydberg レベル間の遷移からの共振場に高めるための変調転送プロトコルを提案する。
このプロトコルは、電磁誘導透明性(EIT)信号を生成するために使用される制御フィールドの位相変調に基づいている。
多成分カップリングレーザとプローブレーザの非線形波動混合は、RFフィールド検出に使用されるプローブレーザに変調を伝達する。
この測定は、原子-光相互作用の半古典シミュレーションと非常によく比較され、センサのRF帯域幅の改善と弱い磁場に対する応答の感度の向上を示す。
We propose and demonstrate a modulation transfer protocol to increase the detection sensitivity of a Rydberg RF receiver to fields out of resonance from the transition between Rydberg levels. This protocol is based on a phase modulation of the control field used to create the Electromagnetically Induced Transparency (EIT) signal. The nonlinear wave-mixing of the multi-component coupling laser and the probe laser transfers the modulation to the probe laser, which is used for RF-field detection. The measurements compare very well to semi-classical simulations of atom-light interaction and show an improvement in the RF bandwidth of the sensor and an improved sensitivity of the response to weak fields. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# モノリシックと分散アーキテクチャのトレードオフ
The trade-offs between Monolithic vs. Distributed Architectures ( http://arxiv.org/abs/2405.03619v1 ) ライセンス: Link先を確認 | Matheus Felisberto, | (参考訳) ソフトウェアアーキテクトは、しばしばトレードオフ分析に従事し、予期せぬ、あるいは見過ごされた不利益のために、しばしば準最適ソリューションに直面します。
このような結果は、企業のビジネスオペレーションやリソース割り当てに有害に影響を与えます。
この記事では、特にモノリシックアーキテクチャと分散アーキテクチャの長所と短所、およびそれらのアーキテクチャ特性との関係について、アーティテクチュラルなスタイルの批判的なレビューを行う。
また、モノリシックから分散ベースのアプリケーションへの移行におけるクラウドコンピューティングの役割についても検討している。
本研究は,産学両分野の論文や書籍など幅広い資料を用いて,理論的基礎から実践的応用までを概観する。
注目すべきトレンドは、おそらくコスト、複雑さ、パフォーマンスなどの要因によって、分散アーキテクチャからモノリシックアーキテクチャへのシフトである。
Software architects frequently engage in trade-off analysis, often confronting sub-optimal solutions due to unforeseen or overlooked disadvantages. Such outcomes can detrimentally affect a company's business operations and resource allocation. This article conducts a critical review of archi- tectural styles, particularly focusing on the strengths and weaknesses of both monolithic and distributed architectures, and their relationship to architectural characteristics. It also explores the role of cloud computing in transitioning from monolithic to distributed-based applications. Utilizing a broad range of sources, including papers and books from both industry and academia, this research provides an overview from theoretical foundations to practical applications. A notable trend observed is a shift back from distributed to monolithic architectures, possibly due to factors such as cost, complexity, and performance. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# Androidのマルウェアを検出する: BERTroidによるニューラルネットワークの埋め込みから手動検証
Detecting Android Malware: From Neural Embeddings to Hands-On Validation with BERTroid ( http://arxiv.org/abs/2405.03620v1 ) ライセンス: Link先を確認 | Meryam Chaieb, Mostafa Anouar Ghorab, Mohamed Aymen Saied, | (参考訳) サイバー脅威やマルウェア攻撃が個人と企業の両方を脅かすようになると、積極的なマルウェア対策の緊急性が増す。
これにより、自動機械学習ソリューションへの関心が高まっている。
注目に基づくディープラーニング手法の最先端カテゴリであるTransformersは、目覚ましい成功を収めている。
本稿では,BERTアーキテクチャ上に構築された革新的なマルウェア検出モデルであるBERTroidを提案する。
全体として、BERTroidはAndroidマルウェアと戦うための有望なソリューションとして登場した。
最先端のソリューションに勝る能力は、悪意のあるソフトウェア攻撃に対する積極的な防御メカニズムとしての可能性を示している。
さらに,複数のデータセット上でBERTroidを評価し,その性能をさまざまなシナリオで評価する。
サイバーセキュリティの動的な状況において、我々のアプローチは、Androidシステム上でのマルウェアの急速な進化に対して、有望なレジリエンスを示してきた。
機械学習モデルは幅広いパターンをキャプチャするが、より深い理解とこれらの振る舞いに対する洞察のための手動検証の役割を強調している。
この人間の介入は、複雑な振る舞いと文脈固有の振る舞いを識別し、それによってモデルの発見を検証および強化するために重要である。
As cyber threats and malware attacks increasingly alarm both individuals and businesses, the urgency for proactive malware countermeasures intensifies. This has driven a rising interest in automated machine learning solutions. Transformers, a cutting-edge category of attention-based deep learning methods, have demonstrated remarkable success. In this paper, we present BERTroid, an innovative malware detection model built on the BERT architecture. Overall, BERTroid emerged as a promising solution for combating Android malware. Its ability to outperform state-of-the-art solutions demonstrates its potential as a proactive defense mechanism against malicious software attacks. Additionally, we evaluate BERTroid on multiple datasets to assess its performance across diverse scenarios. In the dynamic landscape of cybersecurity, our approach has demonstrated promising resilience against the rapid evolution of malware on Android systems. While the machine learning model captures broad patterns, we emphasize the role of manual validation for deeper comprehension and insight into these behaviors. This human intervention is critical for discerning intricate and context-specific behaviors, thereby validating and reinforcing the model's findings. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# オンライン価格の$ε$-Policy Gradient
$ε$-Policy Gradient for Online Pricing ( http://arxiv.org/abs/2405.03624v1 ) ライセンス: Link先を確認 | Lukasz Szpruch, Tanut Treetanthiploet, Yufei Zhang, | (参考訳) 本稿では,モデルベースとモデルフリー強化学習を併用して,オンライン価格学習タスクのための$\epsilon$-policyグラデーションアルゴリズムを提案し,解析する。
このアルゴリズムは、greedy利用を勾配降下ステップに置き換え、モデル推論による学習を容易にすることで、$\epsilon$-greedyアルゴリズムを拡張している。
探索確率$\epsilon$と、勾配勾配最適化と勾配推定誤差の観点から、探索コストを定量化し、提案アルゴリズムの後悔を最適化する。
このアルゴリズムは、$T$の試行に対して$\mathcal{O}(\sqrt{T})$(対数係数まで)を期待された後悔を達成する。
Combining model-based and model-free reinforcement learning approaches, this paper proposes and analyzes an $\epsilon$-policy gradient algorithm for the online pricing learning task. The algorithm extends $\epsilon$-greedy algorithm by replacing greedy exploitation with gradient descent step and facilitates learning via model inference. We optimize the regret of the proposed algorithm by quantifying the exploration cost in terms of the exploration probability $\epsilon$ and the exploitation cost in terms of the gradient descent optimization and gradient estimation errors. The algorithm achieves an expected regret of order $\mathcal{O}(\sqrt{T})$ (up to a logarithmic factor) over $T$ trials. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# レーザーエスケープ:光学探査攻撃の検出と緩和
LaserEscape: Detecting and Mitigating Optical Probing Attacks ( http://arxiv.org/abs/2405.03632v1 ) ライセンス: Link先を確認 | Saleh Khalaj Monfared, Kyle Mitard, Andrew Cannon, Domenic Forte, Shahin Tajik, | (参考訳) 集積回路(IC)のセキュリティは、故障解析手法に依存する高度な物理攻撃によって破壊される可能性がある。
光探査はそのような攻撃の最も顕著な例の1つであり、攻撃中のICの知識が限られているにもかかわらず、数日のうちに達成できる。
残念なことに、文献にはほとんど対策が提案されておらず、実際に作られたものや試験は行われていない。
これらの対策は通常、標準のセルライブラリを変更する必要があり、フィールドプログラマブルゲートアレイ(FPGA)のようなデジタルおよびプログラム可能なプラットフォームと互換性がない。
本研究では,攻撃の防止から検出・応答へと注意を移す。
我々は、光学探査攻撃を検出し軽減するための、最初の完全デジタルかつFPGA互換の対策であるLaserEscapeを紹介する。
LaserEscapeにはデジタル遅延ベースのセンサーが組み込まれており、レーザー光による布の物理的変化をリアルタイムで確実に検出する。
さらに、攻撃に対する応答として、LaserEscapeはランダム化されたハードウェア再構成性を使用して、リアルタイムの隠れアプローチをデプロイする。
それは気付きます
1)標的防御(MTD)を移動させ、秘密鍵の保護のために焦点の探究領域から攻撃対象の機密回路を物理的に移動させる。
2) 目的回路の機能を論理的に難読化し, 機能抽出やリバースエンジニアリングの試みに対処する多型。
28nmFPGA上で保護・保護されていない設計に対して光探査攻撃を行うことにより,本手法の有効性とレジリエンスを実証する。
以上の結果から,チップの動作を中断することなく,光探傷攻撃を確実に検出・緩和できることが示唆された。
The security of integrated circuits (ICs) can be broken by sophisticated physical attacks relying on failure analysis methods. Optical probing is one of the most prominent examples of such attacks, which can be accomplished in a matter of days, even with limited knowledge of the IC under attack. Unfortunately, few countermeasures are proposed in the literature, and none has been fabricated and tested in practice. These countermeasures usually require changing the standard cell libraries and, thus, are incompatible with digital and programmable platforms, such as field programmable gate arrays (FPGAs). In this work, we shift our attention from preventing the attack to detecting and responding to it. We introduce LaserEscape, the first fully digital and FPGA-compatible countermeasure to detect and mitigate optical probing attacks. LaserEscape incorporates digital delay-based sensors to reliably detect the physical alteration on the fabric caused by laser beam irradiations in real time. Furthermore, as a response to the attack, LaserEscape deploys real-time hiding approaches using randomized hardware reconfigurability. It realizes 1) moving target defense (MTD) to physically move the sensitive circuity under attack out of the probing field of focus to protect secret keys and 2) polymorphism to logically obfuscate the functionality of the targeted circuit to counter function extraction and reverse engineering attempts. We demonstrate the effectiveness and resiliency of our approach by performing optical probing attacks on protected and unprotected designs on a 28-nm FPGA. Our results show that optical probing attacks can be reliably detected and mitigated without interrupting the chip's operation. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# ループ閉鎖能を有する高密度SLAMのためのニューラルグラフマッピング
Neural Graph Mapping for Dense SLAM with Efficient Loop Closure ( http://arxiv.org/abs/2405.03633v1 ) ライセンス: Link先を確認 | Leonard Bruns, Jun Zhang, Patric Jensfelt, | (参考訳) 既存のニューラルネットワークベースのSLAM法は、通常、シーン表現として単一のモノリシックフィールドを使用する。
これにより、ループのクロージャ制約の効率的な取り込みやスケーラビリティの制限が防止される。
これらの欠点に対処するために、疎視的SLAMシステムのポーズグラフに軽量なニューラルフィールドを固定するニューラルマッピングフレームワークを提案する。
提案手法は,大規模なループクロージャを統合すると同時に,必要な再積分を制限していることを示す。
さらに,最適化中に複数のループクロージャを考慮に入れた大規模マッピングを成功させることで,提案手法のスケーラビリティを検証し,本手法が品質と実行時間の観点から,既存の最先端手法よりも優れていることを示す。
私たちのコードはhttps://kth-rpl.github.io/neural_graph_mapping/で利用可能です。
Existing neural field-based SLAM methods typically employ a single monolithic field as their scene representation. This prevents efficient incorporation of loop closure constraints and limits scalability. To address these shortcomings, we propose a neural mapping framework which anchors lightweight neural fields to the pose graph of a sparse visual SLAM system. Our approach shows the ability to integrate large-scale loop closures, while limiting necessary reintegration. Furthermore, we verify the scalability of our approach by demonstrating successful building-scale mapping taking multiple loop closures into account during the optimization, and show that our method outperforms existing state-of-the-art approaches on large scenes in terms of quality and runtime. Our code is available at https://kth-rpl.github.io/neural_graph_mapping/. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# フェデレートされた学習プライバシ - 攻撃、防御、アプリケーション、ポリシーのランドスケープ
Federated Learning Privacy: Attacks, Defenses, Applications, and Policy Landscape - A Survey ( http://arxiv.org/abs/2405.03636v1 ) ライセンス: Link先を確認 | Joshua C. Zhao, Saurabh Bagchi, Salman Avestimehr, Kevin S. Chan, Somali Chaterji, Dimitris Dimitriadis, Jiacheng Li, Ninghui Li, Arash Nourian, Holger R. Roth, | (参考訳) 深層学習は、膨大なタスクにまたがる素晴らしい可能性を示しており、この成長に伴って、データに対する不愉快な欲求が生まれてきた。
しかし、ディープラーニングを実現するために必要な大量のデータがパーソナルデバイスに格納されており、プライバシーに関する最近の懸念は、そのようなデータにアクセスする上での課題をさらに強調している。
その結果、フェデレーテッド・ラーニング(FL)は、マシンラーニングモデルの協調トレーニングを可能にする重要なプライバシ保護技術として登場し、生の機密性の高いデータを中央サーバに送信する必要がなくなった。
しかし、サーバにモデル更新を送信するという基本的な前提は、更新がプライベートなトレーニングデータに関する情報を推論するために"リバースエンジニアリング"できない場合にのみ、プライバシ保護である。
このプライバシの前提が保持できないという、さまざまな設定で示されています。
本稿では,FLにおける様々なプライバシー攻撃と防衛方法に関する総合的な文献レビューを行う。
これらの攻撃の現在の制限を特定し、FLクライアントのプライバシが壊れる可能性のある設定を強調します。
FLの業界応用の成功を軽視し、将来的な採用の教訓を導きます。
FLのプライバシー規制の進展状況について調査する。
FLは、参加者のプライバシーを維持しつつ、正確なモデルを生成するという大きな目標に向かっている。
Deep learning has shown incredible potential across a vast array of tasks and accompanying this growth has been an insatiable appetite for data. However, a large amount of data needed for enabling deep learning is stored on personal devices and recent concerns on privacy have further highlighted challenges for accessing such data. As a result, federated learning (FL) has emerged as an important privacy-preserving technology enabling collaborative training of machine learning models without the need to send the raw, potentially sensitive, data to a central server. However, the fundamental premise that sending model updates to a server is privacy-preserving only holds if the updates cannot be "reverse engineered" to infer information about the private training data. It has been shown under a wide variety of settings that this premise for privacy does {\em not} hold. In this survey paper, we provide a comprehensive literature review of the different privacy attacks and defense methods in FL. We identify the current limitations of these attacks and highlight the settings in which FL client privacy can be broken. We dissect some of the successful industry applications of FL and draw lessons for future successful adoption. We survey the emerging landscape of privacy regulation for FL. We conclude with future directions for taking FL toward the cherished goal of generating accurate models while preserving the privacy of the data from its participants. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# Collage: LLMトレーニングのための軽量低精度戦略
Collage: Light-Weight Low-Precision Strategy for LLM Training ( http://arxiv.org/abs/2405.03637v1 ) ライセンス: Link先を確認 | Tao Yu, Gaurav Gupta, Karthick Gopalswamy, Amith Mamidala, Hao Zhou, Jeffrey Huynh, Youngsuk Park, Ron Diamant, Anoop Deoras, Luke Huan, | (参考訳) 大規模なモデルトレーニングは、計算コストの激しさとハードウェアメモリの制限に悩まされている。
現実的な解法は低精度表現であるが、数値的精度の低下と不安定なトレーニングにより、モデルは役に立たない。
低精度浮動小数点は、トレーニング過程における臨界点における誤差が適切に補償されている場合、十分に機能する可能性があると我々は主張する。
本論文では,マルチコンポーネントフロート表現を低精度で利用し,数値誤差を考慮した演算を高精度に行うコラージュを提案する。
トレーニングにおける不正確さの影響を理解するために,学習中に失った情報を追跡し,様々な精度戦略を区別する,シンプルで斬新な指標を提案する。
提案手法は半精度(16$-bit 浮動小数点)のような一般的な低精度で動作し、8$-bit などのより低い精度で動作するように自然に拡張できる。
実験結果から、Colllageを使用した事前トレーニングでは、32ドルの浮動小数点コピーを使用する必要がなくなり、実際のメモリ使用量で最大$3.7\times$ Speedupと$\sim 15\%$から$23\%の差がある16, 32)$-bit混合精度戦略と比較して、同様の/ベタトレーニング性能が得られることがわかった。
Large models training is plagued by the intense compute cost and limited hardware memory. A practical solution is low-precision representation but is troubled by loss in numerical accuracy and unstable training rendering the model less useful. We argue that low-precision floating points can perform well provided the error is properly compensated at the critical locations in the training process. We propose Collage which utilizes multi-component float representation in low-precision to accurately perform operations with numerical errors accounted. To understand the impact of imprecision to training, we propose a simple and novel metric which tracks the lost information during training as well as differentiates various precision strategies. Our method works with commonly used low-precision such as half-precision ($16$-bit floating points) and can be naturally extended to work with even lower precision such as $8$-bit. Experimental results show that pre-training using Collage removes the requirement of using $32$-bit floating-point copies of the model and attains similar/better training performance compared to $(16, 32)$-bit mixed-precision strategy, with up to $3.7\times$ speedup and $\sim 15\%$ to $23\%$ less memory usage in practice. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# 混合量子状態における強弱自発対称性の破れ
Strong-to-Weak Spontaneous Symmetry Breaking in Mixed Quantum States ( http://arxiv.org/abs/2405.03639v1 ) ライセンス: Link先を確認 | Leonardo A. Lessa, Ruochen Ma, Jian-Hao Zhang, Zhen Bi, Meng Cheng, Chong Wang, | (参考訳) 混合量子状態の対称性は、強い対称性(量子アンサンブル内の個々の純状態が同じ電荷で対称)と弱い対称性(全アンサンブルにのみ適用される)の2つの異なる形態で表すことができる。
本稿では,強い対称性を弱い対称性に分解する新しいタイプの自発対称性破壊(SSB)について検討する。
弱対称性のSSBは長距離2点相関関数 $\mathrm{Tr}(O_xO^{\dagger}_y\rho)$ で測定されるが、強弱SSB(SW-SSB)は忠実度 $F(\rho,O_xO^{\dagger}_y\rho O_yO^{\dagger}_x)$ で測定される。
SW-SSBが混合状態量子相の普遍的性質であることは、SW-SSBの現象が対称的な低深さ局所量子チャネルに対して堅牢であるという意味で証明する。
我々は、(固定対称性の電荷を持つ)正準アンサンブルにおける非零温度の熱状態は、自発的に強い対称性を破るべきであると論じる。
さらに,デコヒーレンスがSW-SSBを誘導する非熱的シナリオを考察し,結合ランダム性を持つ古典統計モデルによって記述された相転移を導いた。
特に、デコヒードIsingモデルのSW-SSBトランジションは、祝福されたトーリックコードデオーダビリティトランジションの"未修正"バージョンと見なすことができる。
我々は、デコヒードイジングモデルにおいて、忠実度相関器によって定義されるSW-SSB遷移が、チャネル回復性の観点から唯一の物理的遷移であることを確認した。
SW-SSBの他の(等価な)定義についても、高いR'enyi指標との相関関数を通して論じる。
Symmetry in mixed quantum states can manifest in two distinct forms: strong symmetry, where each individual pure state in the quantum ensemble is symmetric with the same charge, and weak symmetry, which applies only to the entire ensemble. This paper explores a novel type of spontaneous symmetry breaking (SSB) where a strong symmetry is broken to a weak one. While the SSB of a weak symmetry is measured by the long-ranged two-point correlation function $\mathrm{Tr}(O_xO^{\dagger}_y\rho)$, the strong-to-weak SSB (SW-SSB) is measured by the fidelity $F(\rho, O_xO^{\dagger}_y\rho O_yO^{\dagger}_x)$, dubbed the fidelity correlator. We prove that SW-SSB is a universal property of mixed-state quantum phases, in the sense that the phenomenon of SW-SSB is robust against symmetric low-depth local quantum channels. We argue that a thermal state at a nonzero temperature in the canonical ensemble (with fixed symmetry charge) should have spontaneously broken strong symmetry. Additionally, we study non-thermal scenarios where decoherence induces SW-SSB, leading to phase transitions described by classical statistical models with bond randomness. In particular, the SW-SSB transition of a decohered Ising model can be viewed as the "ungauged" version of the celebrated toric code decodability transition. We confirm that, in the decohered Ising model, the SW-SSB transition defined by the fidelity correlator is the only physical transition in terms of channel recoverability. We also comment on other (inequivalent) definitions of SW-SSB, through correlation functions with higher R\'enyi indices. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# 修正教師付きコントラスト学習法による乳癌組織像の分類
Classification of Breast Cancer Histopathology Images using a Modified Supervised Contrastive Learning Method ( http://arxiv.org/abs/2405.03642v1 ) ライセンス: Link先を確認 | Matina Mahdizadeh Sani, Ali Royat, Mahdieh Soleymani Baghshah, | (参考訳) ディープニューラルネットワークは、医療画像処理タスクにおいて、特に様々な疾患の分類と検出において、顕著な成果を達成している。
しかし、限られたデータに直面すると、これらのネットワークは重大な脆弱性に直面し、利用可能な限られた情報を過度に記憶することで過度に適合する。
この研究は、教師付きコントラスト学習法を改善し、偽陽性の影響を減らすことで、上記の課題に対処する。
完全教師付き学習に大きく依存する既存の方法とは異なり、我々の手法は、利用可能なラベル付きデータの使用とともに、自己教師付き学習の利点を活用する。
乳がん病理像からなるBreakHisデータセットを用いて, 画像レベルでは1.45%, 患者レベルでは1.42%の分類精度が得られた。
この改良は93.63%の絶対精度に対応しており、より適切な表現空間を学習するためにデータ特性を活用するアプローチの有効性を強調している。
Deep neural networks have reached remarkable achievements in medical image processing tasks, specifically classifying and detecting various diseases. However, when confronted with limited data, these networks face a critical vulnerability, often succumbing to overfitting by excessively memorizing the limited information available. This work addresses the challenge mentioned above by improving the supervised contrastive learning method to reduce the impact of false positives. Unlike most existing methods that rely predominantly on fully supervised learning, our approach leverages the advantages of self-supervised learning in conjunction with employing the available labeled data. We evaluate our method on the BreakHis dataset, which consists of breast cancer histopathology images, and demonstrate an increase in classification accuracy by 1.45% at the image level and 1.42% at the patient level compared to the state-of-the-art method. This improvement corresponds to 93.63% absolute accuracy, highlighting our approach's effectiveness in leveraging data properties to learn more appropriate representation space. | 翻訳日:2024-05-07 13:07:25 公開日:2024-05-06 |
# 自己教師付き学習によるトラッカー誤差検出による人間関係最小限の高品質物体トラックの収集
Collecting Consistently High Quality Object Tracks with Minimal Human Involvement by Using Self-Supervised Learning to Detect Tracker Errors ( http://arxiv.org/abs/2405.03643v1 ) ライセンス: Link先を確認 | Samreen Anjum, Suyog Jain, Danna Gurari, | (参考訳) 自動的なオブジェクトトラッカーと人間入力の少ないオブジェクトトラッカーを組み合わせることで、高品質なオブジェクトトラックを一貫して生成するハイブリッドフレームワークを提案する。
鍵となるアイデアは、各データセットのモジュールを調整して、オブジェクトトラッカーが故障したタイミングをインテリジェントに決定し、継続するトラッキングのためにオブジェクトを再ローカライズするために人間が参加するようにすることだ。
提案手法では,未ラベル映像における自己教師付き学習を活用して,対象対象物に対する適切な表現を学習し,追跡された領域を積極的に監視し,トラッカーの故障時期を決定する。
ラベル付きデータを必要としないため、新しいオブジェクトカテゴリにアプローチを適用することができる。
3つのデータセットの実験では、メソッドが既存のアプローチ、特に小さく、速く動き、あるいは隠蔽されたオブジェクトよりも優れていることが示されています。
We propose a hybrid framework for consistently producing high-quality object tracks by combining an automated object tracker with little human input. The key idea is to tailor a module for each dataset to intelligently decide when an object tracker is failing and so humans should be brought in to re-localize an object for continued tracking. Our approach leverages self-supervised learning on unlabeled videos to learn a tailored representation for a target object that is then used to actively monitor its tracked region and decide when the tracker fails. Since labeled data is not needed, our approach can be applied to novel object categories. Experiments on three datasets demonstrate our method outperforms existing approaches, especially for small, fast moving, or occluded objects. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# LLMsがサイバーセキュリティと出会う: 体系的な文献レビュー
When LLMs Meet Cybersecurity: A Systematic Literature Review ( http://arxiv.org/abs/2405.03644v1 ) ライセンス: Link先を確認 | Jie Zhang, Haoyu Bu, Hui Wen, Yu Chen, Lun Li, Hongsong Zhu, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、サイバーセキュリティなど、さまざまな分野に新たな道を開いた。
サイバーセキュリティにおけるLSMの適用についての最初の調査にもかかわらず、この研究領域の包括的な概要は見当たらない。
本稿では,25のLLMと10以上の下流シナリオにまたがる180以上の作品の分析を含む,体系的な文献レビューを提供することで,このギャップを埋める。
包括的概要は、サイバーセキュリティ指向のLSMの構築、様々なサイバーセキュリティタスクにおけるLSMの応用、およびこの分野における既存の課題とさらなる研究の3つの重要な研究課題に対処する。
本研究の目的は、サイバーセキュリティの実践の強化におけるLLMの広範な可能性に光を当てることであり、このドーミンにLLMを適用する上で貴重な資源となることである。
また、サイバーセキュリティのためのLCMに関する実践的ガイドをhttps://github.com/tmylla/Awesome-LLM4Cybersecurity.comで定期的に更新しています。
The rapid advancements in large language models (LLMs) have opened new avenues across various fields, including cybersecurity, which faces an ever-evolving threat landscape and need for innovative technologies. Despite initial explorations into the application of LLMs in cybersecurity, there is a lack of a comprehensive overview of this research area. This paper bridge this gap by providing a systematic literature review, encompassing an analysis of over 180 works, spanning across 25 LLMs and more than 10 downstream scenarios. Our comprehensive overview addresses three critical research questions: the construction of cybersecurity-oriented LLMs, LLMs' applications in various cybersecurity tasks, and the existing challenges and further research in this area. This study aims to shed light on the extensive potential of LLMs in enhancing cybersecurity practices, and serve as a valuable resource for applying LLMs in this doamin. We also maintain and regularly updated list of practical guides on LLMs for cybersecurity at https://github.com/tmylla/Awesome-LLM4Cybersecurity. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# フォトニックプロセッサ上のHOMFLY-PT多項式の計算
Calculating HOMFLY-PT polynomials on a photonic processor ( http://arxiv.org/abs/2405.03645v1 ) ライセンス: Link先を確認 | Ivan Dyakonov, Ilya Kondratyev, Sergey Mironov, Andrey Morozov, | (参考訳) 本稿では,フォトニックプロセッサ上での結び目多項式の計算手法について議論する。
結び目多項式の計算は計算が難しい問題であるため、新しい高度な計算手法を使うことが興味深い。
ここでは、基本表現においてトレフォイル結び目の最も単純な結び目多項式を計算することによって概念の証明を示す。
しかし、このアプローチはより複雑な結び目や表現に容易に一般化できる。
同じ演算子は、同じ効果を持つ量子コンピュータでも実現できる。
In this paper we discuss an approach to calculate knot polynomials on a photonic processor. Calculations of knot polynomials is a computationally difficult problem and therefore it is interesting to use new advanced calculation methods to find them. Here we present a proof of concept by calculating the simplest knot polynomial of the trefoil knot in fundamental representation. This approach, however, can easily be generalized to more complex knots and representations. Same operators can also be realized on a quantum computer with the same effect. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# 選択二分木状態における絡み合い-Dicke/Total spin state, Particle number projected BCS state
Entanglement in selected Binary Tree States: Dicke/Total spin states, particle number projected BCS states ( http://arxiv.org/abs/2405.03647v1 ) ライセンス: Link先を確認 | Denis Lacroix, | (参考訳) バイナリツリー状態(英: Binary Tree State、BTS)とは、量子レジスター上で量子ビットの集合によって生成される分解を順次行う状態である。
このような状態は、総スピンや粒子数対称性のような大域対称性が課されるとき、フォック空間で扱われる多体系において自然に現れることがある。
例えば、ディック状態(Dicke state)、個々のスピンが1/2$の粒子の集合に対する全スピンの固有状態、あるいは、BCS状態が粒子番号に投影された状態、あるいは小さな超流動系において射影されたBCS(英語版)と呼ばれる状態などである。
n$ qubits あるいは軌道の集合に記述された BTS 状態から、$ k$ qubits の任意の部分集合の絡み合いエントロピーを解析する。
具体的には、興味のサブシステムのノイマンエンタングルメントエントロピーに$k$ qubits/ Particles von Neumannエンタングルメントエントロピーにアクセスするために、実用的な方法が開発されている。
これらのエントロピーの性質は、スケーリング特性、上界、あるいはこれらのエントロピーがゆらぎとどのように相関するかなど、議論される。
図面はディック州とBCS州に向けられている。
Binary Tree States (BTS) are states whose decomposition on a quantum register basis formed by a set of qubits can be made sequentially. Such states sometimes appear naturally in many-body systems treated in Fock space when a global symmetry is imposed, like the total spin or particle number symmetries. Examples are the Dicke states, the eigenstates of the total spin for a set of particles having individual spin $1/2$, or states obtained by projecting a BCS states onto particle number, also called projected BCS in small superfluid systems. Starting from a BTS state described on the set of $n$ qubits or orbitals, the entanglement entropy of any subset of $ k$ qubits is analyzed. Specifically, a practical method is developed to access the $k$ qubits/particles von Neumann entanglement entropy of the subsystem of interest. Properties of these entropies are discussed, including scaling properties, upper bounds, or how these entropies correlate with fluctuations. Illustrations are given for the Dicke state and the projected BCS states. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# 自己ガイド型スパーラス相関緩和を用いたロバスト分類器の学習
Learning Robust Classifiers with Self-Guided Spurious Correlation Mitigation ( http://arxiv.org/abs/2405.03649v1 ) ライセンス: Link先を確認 | Guangtao Zheng, Wenqian Ye, Aidong Zhang, | (参考訳) ディープ・ニューラル分類器は、入力の急激な属性とターゲットの間の素早い相関に頼り、その一般化能力を阻害する可能性がある。
急激な相関に頑健な訓練用分類器は、典型的にはデータの急激な相関のアノテーションに依存している。
本稿では,アノテーションのない設定に取り組み,自己誘導型スプリアス相関緩和フレームワークを提案する。
本フレームワークは,実験的リスク最小化で得られた分類器に適したきめ細かなトレーニングラベルを自動的に構築し,スプリアス相関に対するロバスト性を向上させる。
前記微粒なトレーニングラベルは、新規な突発性埋め込み空間において同定された分類器の異なる予測挙動で定式化される。
本研究では,概念的属性を自動的に検出した空間と,クラス属性の相関がどの程度の確率で予測されるかを測定する新しいスプリアスネス指標を構築した。
予測行動の違いを識別するために分類器を訓練することで,先行知識を知らずに素早い相関への依存を減らし,実世界の5つのデータセットにおいて先行手法より優れることを示す。
Deep neural classifiers tend to rely on spurious correlations between spurious attributes of inputs and targets to make predictions, which could jeopardize their generalization capability. Training classifiers robust to spurious correlations typically relies on annotations of spurious correlations in data, which are often expensive to get. In this paper, we tackle an annotation-free setting and propose a self-guided spurious correlation mitigation framework. Our framework automatically constructs fine-grained training labels tailored for a classifier obtained with empirical risk minimization to improve its robustness against spurious correlations. The fine-grained training labels are formulated with different prediction behaviors of the classifier identified in a novel spuriousness embedding space. We construct the space with automatically detected conceptual attributes and a novel spuriousness metric which measures how likely a class-attribute correlation is exploited for predictions. We demonstrate that training the classifier to distinguish different prediction behaviors reduces its reliance on spurious correlations without knowing them a priori and outperforms prior methods on five real-world datasets. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# 生成コンテンツ豊か化
Generated Contents Enrichment ( http://arxiv.org/abs/2405.03650v1 ) ライセンス: Link先を確認 | Mahdi Naseri, Jiayan Qiu, Zhou Wang, | (参考訳) 本稿では,生成コンテンツエンリッチメント(GCE)と呼ばれる新しい人工知能生成タスクについて検討する。
視覚的にリアルなコンテンツを生成するための限定的な意味論によって、与えられたテキスト記述を暗黙的に豊かにする従来の人工知能コンテンツ生成タスクとは異なり、提案したGCEは、視覚的、構造的に合理的で、意味的に豊富である視覚的およびテキスト的領域の両方において、コンテンツリッチ化を明示的に実行しようと試みている。
本稿では, GCE の解決に向けて, エンリッチメントにおける意味論と意味間関係を明確に探求するディープ・エンド・ツー・エンド手法を提案する。
具体的には、まず入力記述を意味グラフとしてモデル化し、各ノードはオブジェクトを表し、各エッジはオブジェクト間の関係に対応する。
次に、入力シーン記述の上にグラフ畳み込みネットワークを導入し、リッチオブジェクトとその入力オブジェクトとの関係を予測する。
最後に、濃厚なグラフを画像合成モデルに入力し、視覚コンテンツ生成を行う。
The Visual Genome dataset on the Visual Genome showed promising and visually plausible results。
In this paper, we investigate a novel artificial intelligence generation task, termed as generated contents enrichment (GCE). Different from conventional artificial intelligence contents generation task that enriches the given textual description implicitly with limited semantics for generating visually real content, our proposed GCE strives to perform content enrichment explicitly on both the visual and textual domain, from which the enriched contents are visually real, structurally reasonable, and semantically abundant. Towards to solve GCE, we propose a deep end-to-end method that explicitly explores the semantics and inter-semantic relationships during the enrichment. Specifically, we first model the input description as a semantic graph, wherein each node represents an object and each edge corresponds to the inter-object relationship. We then adopt Graph Convolutional Networks on top of the input scene description to predict the enriching objects and their relationships with the input objects. Finally, the enriched graph is fed into an image synthesis model to carry out the visual contents generation. Our experiments conducted on the Visual Genome dataset exhibit promising and visually plausible results. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# クロスエンコーダを用いたk-NN探索のための適応検索とスケーラブルインデックス化
Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders ( http://arxiv.org/abs/2405.03651v1 ) ライセンス: Link先を確認 | Nishant Yadav, Nicholas Monath, Manzil Zaheer, Rob Fergus, Andrew McCallum, | (参考訳) クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
既存のアプローチでは、CEの類似性を2エンコーダ(DE)またはCUR行列の分解に適合するベクトル埋め込み空間に近似することで、CEを用いたk-NN探索を行う。
DEベースの検索と参照のアプローチは、新しいドメインに対するリコールの低さに悩まされ、Dによる検索はCEから切り離される。
CURベースのアプローチは、DEベースのアプローチよりも正確だが、アイテムの埋め込みを計算するには、非常に多くのCEコールが必要になるため、大規模にデプロイするには実用的ではない。
本稿では,提案したスパース行列因数分解法を用いて,CEスコアを近似するために潜時クエリとアイテム埋め込みを効率的に計算し,CE類似度を近似したk-NN探索を行う。
一連の列車問合せに対する問合せCEスコアを含むスパース行列を分解することにより、アイテム埋め込みをオフラインで計算する。
提案手法は,CUR法に比べて少数のCE呼び出ししか必要とせず,高い品質の近似を生成できるとともに,DEMを利用して蒸留によるDDEの計算および資源集約的な微調整を回避しつつ,埋め込み空間を初期化することができる。
テスト時、アイテムの埋め込みは固定され、検索はラウンドで行われ、相互に交互に行われる。
イ これまでに検索した項目のCEスコアの近似における誤差を最小化して、検査クエリの埋め込みを推定すること。
b) より多くの項目を取得するために更新されたテストクエリの埋め込みを使用する。
我々のk-NNサーチ手法は、D-basedアプローチよりも最大5%(k=1)と54%(k=100)のリコールを改善する。
さらに, 提案手法は, CUR法で最大100倍, DE法で最大5倍の高速化を実現し, ベースライン上でのk-NN検索リコールのマッチングや改善を実現している。
Cross-encoder (CE) models which compute similarity by jointly encoding a query-item pair perform better than embedding-based models (dual-encoders) at estimating query-item relevance. Existing approaches perform k-NN search with CE by approximating the CE similarity with a vector embedding space fit either with dual-encoders (DE) or CUR matrix factorization. DE-based retrieve-and-rerank approaches suffer from poor recall on new domains and the retrieval with DE is decoupled from the CE. While CUR-based approaches can be more accurate than the DE-based approach, they require a prohibitively large number of CE calls to compute item embeddings, thus making it impractical for deployment at scale. In this paper, we address these shortcomings with our proposed sparse-matrix factorization based method that efficiently computes latent query and item embeddings to approximate CE scores and performs k-NN search with the approximate CE similarity. We compute item embeddings offline by factorizing a sparse matrix containing query-item CE scores for a set of train queries. Our method produces a high-quality approximation while requiring only a fraction of CE calls as compared to CUR-based methods, and allows for leveraging DE to initialize the embedding space while avoiding compute- and resource-intensive finetuning of DE via distillation. At test time, the item embeddings remain fixed and retrieval occurs over rounds, alternating between a) estimating the test query embedding by minimizing error in approximating CE scores of items retrieved thus far, and b) using the updated test query embedding for retrieving more items. Our k-NN search method improves recall by up to 5% (k=1) and 54% (k=100) over DE-based approaches. Additionally, our indexing approach achieves a speedup of up to 100x over CUR-based and 5x over DE distillation methods, while matching or improving k-NN search recall over baselines. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# 深部生成モデルによる拡散MRIの視野拡張
Field-of-View Extension for Diffusion MRI via Deep Generative Models ( http://arxiv.org/abs/2405.03652v1 ) ライセンス: Link先を確認 | Chenyu Gao, Shunxing Bao, Michael Kim, Nancy Newlin, Praitayini Kanakaraj, Tianyuan Yao, Gaurav Rudravaram, Yuankai Huo, Daniel Moyer, Kurt Schilling, Walter Kukull, Arthur Toga, Derek Archer, Timothy Hohman, Bennett Landman, Zhiyuan Li, | (参考訳) 目的:拡散MRI(dMRI)では,全脳組織の微細構造と接続性の体積および束解析が不完全視野(FOV)によって著しく阻害される可能性がある。
本研究の目的は、未完成なFOVで既存のdMRIスキャンから直接欠落したスライスを出力する方法を開発することである。
完全FOVによるインプット画像は、不完全FOVによる破損データに対する全脳トラクトグラフィーを改善することができると仮定する。
したがって,本手法は,有意なdMRIデータを捨てる上で望ましい代替手段を提供する。
アプローチ: 不完全なFOVを用いたdMRIスキャンにおいて, 欠損脳領域を推定する深層生成モデルに基づくフレームワークを提案する。
このモデルは拡散強調画像(DWI)の拡散特性と、対応する構造画像に明らかな解剖学的特徴の両方を学習し、不完全なFOVの外側で欠落したDWIのスライスを効率的に出力することができる。
結果: WRAPデータセットでは,PSNRb0=22.397,SSIMb0=0.905,PSNRb1300=22.479,SSIMb1300=0.893,NACCデータセットではPSNRb0=21.304,SSIMb0=0.892,PSNRb1300=21.599,SSIMb1300=0.877を得た。
提案手法は,WRAPデータセットとNACCデータセットの72トラクト (p < 0.001) の平均Diceスコアの増加とともに,トラクトグラフィーの精度を改善した。
結論: 提案手法は, 完全不完全FOVを用いたdMRIデータにおける十分な計算性能を達成し, 破損したデータの修復を図った。
提案手法はより正確で完全かつ拡張されたFOVで全脳トラクトグラフィーを施行し,アルツハイマー病関連結束解析における不確かさを低減した。
Purpose: In diffusion MRI (dMRI), the volumetric and bundle analyses of whole-brain tissue microstructure and connectivity can be severely impeded by an incomplete field-of-view (FOV). This work aims to develop a method for imputing the missing slices directly from existing dMRI scans with an incomplete FOV. We hypothesize that the imputed image with complete FOV can improve the whole-brain tractography for corrupted data with incomplete FOV. Therefore, our approach provides a desirable alternative to discarding the valuable dMRI data, enabling subsequent tractography analyses that would otherwise be challenging or unattainable with corrupted data. Approach: We propose a framework based on a deep generative model that estimates the absent brain regions in dMRI scans with incomplete FOV. The model is capable of learning both the diffusion characteristics in diffusion-weighted images (DWI) and the anatomical features evident in the corresponding structural images for efficiently imputing missing slices of DWI outside of incomplete FOV. Results: For evaluating the imputed slices, on the WRAP dataset the proposed framework achieved PSNRb0=22.397, SSIMb0=0.905, PSNRb1300=22.479, SSIMb1300=0.893; on the NACC dataset it achieved PSNRb0=21.304, SSIMb0=0.892, PSNRb1300=21.599, SSIMb1300= 0.877. The proposed framework improved the tractography accuracy, as demonstrated by an increased average Dice score for 72 tracts (p < 0.001) on both the WRAP and NACC datasets. Conclusions: Results suggest that the proposed framework achieved sufficient imputation performance in dMRI data with incomplete FOV for improving whole-brain tractography, thereby repairing the corrupted data. Our approach achieved more accurate whole-brain tractography results with extended and complete FOV and reduced the uncertainty when analyzing bundles associated with Alzheimer's Disease. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# LLMは複雑な悪意のあるクエリを深く検出できるか? 難読化インテントによる脱獄フレームワーク
Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent ( http://arxiv.org/abs/2405.03654v1 ) ライセンス: Link先を確認 | Shang Shang, Xinqiang Zhao, Zhongjiang Yao, Yepeng Yao, Liya Su, Zijing Fan, Xiaodan Zhang, Zhengwei Jiang, | (参考訳) そこで,本研究では,ユーザプロンプトの背後にある真の意図を隠蔽して,その脆弱性を悪用するブラックボックス・ジェイルブレイク攻撃手法IntentObfuscatorを提案する。
このフレームワークでは、クエリの複雑さとあいまいさを操り、悪意のある意図の検出を効果的に回避する「Obscure Intention」と「Create Ambiguity」の2つの実装を詳述する。
本稿では,ChatGPT-3.5,ChatGPT-4,Qwen,Baichuanなど複数のモデルを対象としたIntentObfuscator法の有効性を実証的に検証した。
特に、週に1億人のアクティブユーザーを抱えるChatGPT-3.5での我々のテストは、83.65\%という驚くべき成功率を達成した。
私たちはまた、グラフィック暴力、人種差別、性差別、政治的感受性、サイバーセキュリティの脅威、犯罪スキルといった様々なタイプの機密コンテンツにも検証を拡大し、LLMコンテンツセキュリティフレームワークに対する「レッドチーム」戦略の強化に対する我々の発見の実質的な影響を証明しました。
To demonstrate and address the underlying maliciousness, we propose a theoretical hypothesis and analytical approach, and introduce a new black-box jailbreak attack methodology named IntentObfuscator, exploiting this identified flaw by obfuscating the true intentions behind user prompts.This approach compels LLMs to inadvertently generate restricted content, bypassing their built-in content security measures. We detail two implementations under this framework: "Obscure Intention" and "Create Ambiguity", which manipulate query complexity and ambiguity to evade malicious intent detection effectively. We empirically validate the effectiveness of the IntentObfuscator method across several models, including ChatGPT-3.5, ChatGPT-4, Qwen and Baichuan, achieving an average jailbreak success rate of 69.21\%. Notably, our tests on ChatGPT-3.5, which claims 100 million weekly active users, achieved a remarkable success rate of 83.65\%. We also extend our validation to diverse types of sensitive content like graphic violence, racism, sexism, political sensitivity, cybersecurity threats, and criminal skills, further proving the substantial impact of our findings on enhancing 'Red Team' strategies against LLM content security frameworks. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# 断熱法による量子状態生成の指数最適化
Exponential optimization of quantum state preparation via adiabatic thermalization ( http://arxiv.org/abs/2405.03656v1 ) ライセンス: Link先を確認 | Davide Cugini, Davide Nigro, Mattia Bruno, Dario Gerace, | (参考訳) 量子コンピュータレジスタ上の与えられた量子状態の準備は典型的に要求される操作であり、問題のサイズに応じて指数関数的にスケールするいくつかの基本ゲートを必要とする。
熱化時間の関数として誤差が指数関数的に減少する状態準備のための断熱定理を用いて、断熱進化に使用されるハミルトン時間に対する特性時間依存性の明示的な解析式を導出する。
この知識をエクスプロイトし、アディベート準備を修飾するプレコンディショニング項を設計し、その特性時間を短縮し、状態準備において指数関数的な優位性を与える。
本手法の有効性は, プロトタイプスピンモデルに対する広範な数値実験により証明し, 短期量子プロセッサ上でのトロッター進化による多体モデルの量子シミュレーションを行うための有望な戦略を与える。
The preparation of a given quantum state on a quantum computing register is a typically demanding operation, requiring a number of elementary gates that scales exponentially with the size of the problem. Using the adiabatic theorem for state preparation, whose error decreases exponentially as a function of the thermalization time, we derive an explicit analytic expression for the dependence of the characteristic time on the Hamiltonian used in the adiabatic evolution. Exploiting this knowledge, we then design a preconditioning term that modifies the adiabatic preparation, thus reducing its characteristic time and hence giving an exponential advantage in state preparation. We prove the efficiency of our method with extensive numerical experiments on prototypical spin-models, which gives a promising strategy to perform quantum simulations of manybody models via Trotter evolution on near-term quantum processors. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# 分布比較のための新しいロバスト部分$p$-Wasserstein-based Metric
A New Robust Partial $p$-Wasserstein-Based Metric for Comparing Distributions ( http://arxiv.org/abs/2405.03664v1 ) ライセンス: Link先を確認 | Sharath Raghvendra, Pouyan Shirzadian, Kaiyi Zhang, | (参考訳) 2ドルのワッサーシュタイン距離は、分布間の微妙な幾何学的差異に敏感であり、非常に強力な相似性計量である。
しかし、この感度のため、小さな外れ値の質量は、2つの類似した分布の間の2ドル=ワッサーシュタイン距離を著しく増加させる。
同様に、サンプリング誤差は、$\mathbb{R}^2$の$n$のサンプルに対して2ドル=ワッサーシュタイン距離を$n^{-1/4}$のレートで真の距離に収束させる。
我々は,部分的な2ドルワッサーシュタイン距離の計算に基づいて,$k$-RPWと呼ばれる$k \ge 0$でパラメータ化された新しい距離の族を導入する。
1)$k$-RPW が計量特性を満たすこと、(2)$k$-RPW が小さな外れ値質量に対して頑健であること、(3)$k$ が定数であるとき、$k$-RPW は$\mathbb{R}^2$ のサンプル上の経験的分布の間の距離が$n^{-1/3}$ の速度で真の距離に収束することを示し、これは$n^{-1/4} の収束速度よりも速い。
部分的な$p$-ワッサーシュタイン距離を用いて、我々の距離を任意の$p \in [1,\infty]$に拡張する。
パラメータ $k$ または $p$ を適切に設定することで、総変量、$p$-ワッサーシュタイン、L'evy-Prokhorov 距離までの距離を減らすことができる。
実験により,ノイズの多い実世界のデータセットにおける画像検索タスクにおいて,1ドル=ワッサースタイン,2ドル=ワッサースタイン,TV距離と比較して高い精度が得られることが示された。
The $2$-Wasserstein distance is sensitive to minor geometric differences between distributions, making it a very powerful dissimilarity metric. However, due to this sensitivity, a small outlier mass can also cause a significant increase in the $2$-Wasserstein distance between two similar distributions. Similarly, sampling discrepancy can cause the empirical $2$-Wasserstein distance on $n$ samples in $\mathbb{R}^2$ to converge to the true distance at a rate of $n^{-1/4}$, which is significantly slower than the rate of $n^{-1/2}$ for $1$-Wasserstein distance. We introduce a new family of distances parameterized by $k \ge 0$, called $k$-RPW, that is based on computing the partial $2$-Wasserstein distance. We show that (1) $k$-RPW satisfies the metric properties, (2) $k$-RPW is robust to small outlier mass while retaining the sensitivity of $2$-Wasserstein distance to minor geometric differences, and (3) when $k$ is a constant, $k$-RPW distance between empirical distributions on $n$ samples in $\mathbb{R}^2$ converges to the true distance at a rate of $n^{-1/3}$, which is faster than the convergence rate of $n^{-1/4}$ for the $2$-Wasserstein distance. Using the partial $p$-Wasserstein distance, we extend our distance to any $p \in [1,\infty]$. By setting parameters $k$ or $p$ appropriately, we can reduce our distance to the total variation, $p$-Wasserstein, and the L\'evy-Prokhorov distances. Experiments show that our distance function achieves higher accuracy in comparison to the $1$-Wasserstein, $2$-Wasserstein, and TV distances for image retrieval tasks on noisy real-world data sets. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# MemoryMamba: 欠陥認識のためのメモリ拡張状態空間モデル
MemoryMamba: Memory-Augmented State Space Model for Defect Recognition ( http://arxiv.org/abs/2405.03673v1 ) ライセンス: Link先を確認 | Qianning Wang, He Hu, Yucheng Zhou, | (参考訳) 製造工程の自動化が進むにつれ、精密で洗練された欠陥検出技術への需要が高まっている。
既存の欠陥認識手法の視覚モデルは、現代の製造環境における欠陥の複雑さやバリエーションを扱うには不十分である。
これらのモデルは、特に、限定的または不均衡な欠陥データを含むシナリオで苦労する。
本研究では,新しいメモリ拡張状態空間モデル(SSM)であるMemoryMambaを紹介する。
MemoryMambaは、ステートスペースモデルとメモリ拡張メカニズムを統合することで、システムはトレーニングにおいて不可欠な欠陥固有の情報を維持および取得することができる。
そのアーキテクチャは、依存関係をキャプチャし、欠陥検出に不可欠な欠陥特性を複雑化するように設計されている。
実験では、MemoryMambaは、さまざまな欠陥タイプと複雑さを持つ4つの産業データセットで評価された。
このモデルは、様々な欠陥認識シナリオに適応する能力を示すなど、他の手法よりも一貫して優れていた。
As automation advances in manufacturing, the demand for precise and sophisticated defect detection technologies grows. Existing vision models for defect recognition methods are insufficient for handling the complexities and variations of defects in contemporary manufacturing settings. These models especially struggle in scenarios involving limited or imbalanced defect data. In this work, we introduce MemoryMamba, a novel memory-augmented state space model (SSM), designed to overcome the limitations of existing defect recognition models. MemoryMamba integrates the state space model with the memory augmentation mechanism, enabling the system to maintain and retrieve essential defect-specific information in training. Its architecture is designed to capture dependencies and intricate defect characteristics, which are crucial for effective defect detection. In the experiments, MemoryMamba was evaluated across four industrial datasets with diverse defect types and complexities. The model consistently outperformed other methods, demonstrating its capability to adapt to various defect recognition scenarios. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# 3次元理解型言語画像モデル
Language-Image Models with 3D Understanding ( http://arxiv.org/abs/2405.03685v1 ) ライセンス: Link先を確認 | Jang Hyun Cho, Boris Ivanovic, Yulong Cao, Edward Schmerling, Yue Wang, Xinshuo Weng, Boyi Li, Yurong You, Philipp Krähenbühl, Yan Wang, Marco Pavone, | (参考訳) MLLM(Multi-modal large language model)は、様々な2Dビジョンと言語タスクにおいて驚くべき能力を示している。
MLLMの知覚能力をグラウンドに拡張し、3次元空間における画像について推論する。
そこで我々はまず,複数の既存の2Dおよび3D認識データセットを共通タスクの定式化の下で組み合わせ,LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
1)立方体-LLMは2Dコンテキスト情報から3D理解を改善するためにチェーン・オブ・シントを適用できる。
2) Cube-LLM は複雑で多様な命令に従うことができ、汎用的な入力および出力形式に適応できる。
(3)Cube-LLMは、専門家から2Dボックスや候補となる3Dボックスなど、視覚的に誘導することができる。
アウトドアベンチマーク実験により,3次元グラウンド推論のためのTalk2Carデータセット上でのAP-BEVの21.3ポイント,駆動シナリオに関する複雑な推論のためのDriveLMデータセット上での17.7ポイントにおいて,Cube-LLMが既存のベースラインを大幅に上回っていることが示された。
Cube-LLMは、2DグラウンドのrefCOCO(87.0)平均スコアの2Dグラウンドや、複雑な推論のためのVQAv2、GQA、SQA、POPEなどの視覚的質問応答ベンチマークといった一般的なMLLMベンチマークの競合結果も示している。
私たちのプロジェクトはhttps://janghyuncho.github.io/Cube-LLM.comで公開されています。
Multi-modal large language models (MLLMs) have shown incredible capabilities in a variety of 2D vision and language tasks. We extend MLLMs' perceptual capabilities to ground and reason about images in 3-dimensional space. To that end, we first develop a large-scale pre-training dataset for 2D and 3D called LV3D by combining multiple existing 2D and 3D recognition datasets under a common task formulation: as multi-turn question-answering. Next, we introduce a new MLLM named Cube-LLM and pre-train it on LV3D. We show that pure data scaling makes a strong 3D perception capability without 3D specific architectural design or training objective. Cube-LLM exhibits intriguing properties similar to LLMs: (1) Cube-LLM can apply chain-of-thought prompting to improve 3D understanding from 2D context information. (2) Cube-LLM can follow complex and diverse instructions and adapt to versatile input and output formats. (3) Cube-LLM can be visually prompted such as 2D box or a set of candidate 3D boxes from specialists. Our experiments on outdoor benchmarks demonstrate that Cube-LLM significantly outperforms existing baselines by 21.3 points of AP-BEV on the Talk2Car dataset for 3D grounded reasoning and 17.7 points on the DriveLM dataset for complex reasoning about driving scenarios, respectively. Cube-LLM also shows competitive results in general MLLM benchmarks such as refCOCO for 2D grounding with (87.0) average score, as well as visual question answering benchmarks such as VQAv2, GQA, SQA, POPE, etc. for complex reasoning. Our project is available at https://janghyuncho.github.io/Cube-LLM. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# 大規模言語モデルによる情報操作目標,戦術,ナラティブフレームの探索
Large Language Models Reveal Information Operation Goals, Tactics, and Narrative Frames ( http://arxiv.org/abs/2405.03688v1 ) ライセンス: Link先を確認 | Keith Burghardt, Kai Chen, Kristina Lerman, | (参考訳) 敵対的な情報操作は、公正な選挙を弱め、政策に関する世論を操り、詐欺を助長することによって社会を不安定にすることができる。
その広範な発生と潜在的影響にもかかわらず、我々の影響キャンペーンに対する理解は、メッセージの手動分析と観察可能な行動の主観的解釈によって制限される。
本稿では,これらの制限を大規模言語モデル (LLM) で緩和できるかどうかを,協調キャンペーンアノテーションのケーススタディとして GPT-3.5 を用いて検討する。
まずGPT-3.5を用いて,10年以上にわたる識別情報処理126件を精査する。
我々は, LLM と基底的真理記述の間の密接な(不完全な)合意を定量化するために, 多数の指標を利用する。
次に、2022年のフランス大統領選挙と2023年のバリカラン・フィリピン・アメリカの軍事演習をそれぞれ議論する2つの大きな多言語データセット(元Twitter)から、協調的なキャンペーンを抽出する。
各キャンペーンは、GPT-3.5を用いて、特定の関心事に関連する投稿を分析し、重要な出来事(選挙の日時など)の前後の目標、戦術、物語のフレームを抽出する。
GPT-3.5は主観的解釈に異を唱えることもあるが、LLMがテキストから高次指標を抽出し、従来の方法と比較してより完全な情報キャンペーンのイメージを提供する可能性を示している。
Adversarial information operations can destabilize societies by undermining fair elections, manipulating public opinions on policies, and promoting scams. Despite their widespread occurrence and potential impacts, our understanding of influence campaigns is limited by manual analysis of messages and subjective interpretation of their observable behavior. In this paper, we explore whether these limitations can be mitigated with large language models (LLMs), using GPT-3.5 as a case-study for coordinated campaign annotation. We first use GPT-3.5 to scrutinize 126 identified information operations spanning over a decade. We utilize a number of metrics to quantify the close (if imperfect) agreement between LLM and ground truth descriptions. We next extract coordinated campaigns from two large multilingual datasets from X (formerly Twitter) that respectively discuss the 2022 French election and 2023 Balikaran Philippine-U.S. military exercise in 2023. For each coordinated campaign, we use GPT-3.5 to analyze posts related to a specific concern and extract goals, tactics, and narrative frames, both before and after critical events (such as the date of an election). While the GPT-3.5 sometimes disagrees with subjective interpretation, its ability to summarize and interpret demonstrates LLMs' potential to extract higher-order indicators from text to provide a more complete picture of the information campaigns compared to previous methods. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# 言語モデルからのポースプライオリティ
Pose Priors from Language Models ( http://arxiv.org/abs/2405.03689v1 ) ライセンス: Link先を確認 | Sanjay Subramanian, Evonne Ng, Lea Müller, Dan Klein, Shiry Ginosar, Trevor Darrell, | (参考訳) 本研究では,人間の3次元ポーズを推定する際に,正確な物理的接触制約を強制するゼロショットポーズ最適化手法を提案する。
我々の中心的な洞察は、言語は物理的相互作用を記述するためにしばしば使用されるため、大きな事前訓練されたテキストベースのモデルは、ポーズ推定の先行として振る舞うことができるということである。
そこで我々は,この知見を利用して,LMM(Large Multimodal Model)によって生成された自然言語記述子をトラクタブルな損失に変換することにより,ポーズ推定を改善することができる。
そのシンプルさにもかかわらず、我々の手法は驚くほど説得力のある人物のポーズを再現し、社会的および身体的相互作用のセマンティクスを正確に捉えている。
本手法は,接触点の人為的アノテーションや特化モデルの訓練を必要とする,より複雑な最先端の手法と競合することを示す。
さらに,従来の手法と異なり,本手法は自己接触と対人接触を解消するための統一的な枠組みを提供する。
We present a zero-shot pose optimization method that enforces accurate physical contact constraints when estimating the 3D pose of humans. Our central insight is that since language is often used to describe physical interaction, large pretrained text-based models can act as priors on pose estimation. We can thus leverage this insight to improve pose estimation by converting natural language descriptors, generated by a large multimodal model (LMM), into tractable losses to constrain the 3D pose optimization. Despite its simplicity, our method produces surprisingly compelling pose reconstructions of people in close contact, correctly capturing the semantics of the social and physical interactions. We demonstrate that our method rivals more complex state-of-the-art approaches that require expensive human annotation of contact points and training specialized models. Moreover, unlike previous approaches, our method provides a unified framework for resolving self-contact and person-to-person contact. | 翻訳日:2024-05-07 12:57:40 公開日:2024-05-06 |
# 計算複雑性と量子解釈
Computational complexity and quantum interpretations ( http://arxiv.org/abs/2405.03657v1 ) ライセンス: Link先を確認 | Vivek Kumar, M. P. Singh, R. Srikanth, | (参考訳) 計算複雑性理論において、$\textbf{BQP}$ が $\textbf{BPP}$ と同じであるかどうかはまだ分かっていない。
プリマ・ファシエは、この数学的問題は、量子状態が現実の要素なのか観測者の知識なのかという根本的な問題とは全く無関係であると予想する。
対照的に、物理理論における計算の複雑さは、その物理的解釈を制約する可能性があると論じる。
特に量子の場合、量子力学の主観的な解釈は、$\textbf{BQP} = \textbf{BPP}$という命題を好んでいる。
したがって、$\textbf{BPP} \subset \textbf{BQP}$ であれば、量子力学の現実論的解釈が好まれる。
In computational complexity theory, it remains to be understood whether $\textbf{BQP}$ is the same as $\textbf{BPP}$. Prima facie, one would expect that this mathematical question is quite unrelated to the foundational question of whether the quantum state is an element of reality or of the observer's knowledge. By contrast, here we argue that the complexity of computation in a physical theory may constrain its physical interpretation. Specifically in the quantum case, we argue that a subjective interpretation of the quantum mechanics favors the proposition $\textbf{BQP} = \textbf{BPP}$. Therefore, if $\textbf{BPP} \subset \textbf{BQP}$, then a realist interpretation of quantum mechanics would be favored. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# データ駆動型固体構成則の概観
A review on data-driven constitutive laws for solids ( http://arxiv.org/abs/2405.03658v1 ) ライセンス: Link先を確認 | Jan Niklas Fuhg, Govinda Anantha Padmanabha, Nikolaos Bouklas, Bahador Bahmani, WaiChing Sun, Nikolaos N. Vlassis, Moritz Flaschel, Pietro Carrara, Laura De Lorenzis, | (参考訳) 本稿では、固体の経路非依存および経路依存応答を記述する構成則を発見し、エンコードし、代理し、エミュレートする最先端のデータ駆動技術を紹介する。
本研究の目的は,過去数十年に開発された多種多様な方法論を組織的に分類し,様々なスケールで機械的挙動を解釈・予測するための様々な手法の利点と欠点を議論することである。
機械学習に基づく手法とモデルフリー手法を区別し,その解釈可能性と必要なデータの学習プロセス/タイプに基づいてアプローチを分類し,一般化と信頼性の鍵となる問題について議論する。
データ・アベイラビリティ・アウェア・コンテキストでこれらをどのように整理するかのロードマップを提供しようとしている。
また、データサンプリング技術、実験の設計、検証、検証など、関連する側面にも触れています。
This review article highlights state-of-the-art data-driven techniques to discover, encode, surrogate, or emulate constitutive laws that describe the path-independent and path-dependent response of solids. Our objective is to provide an organized taxonomy to a large spectrum of methodologies developed in the past decades and to discuss the benefits and drawbacks of the various techniques for interpreting and forecasting mechanics behavior across different scales. Distinguishing between machine-learning-based and model-free methods, we further categorize approaches based on their interpretability and on their learning process/type of required data, while discussing the key problems of generalization and trustworthiness. We attempt to provide a road map of how these can be reconciled in a data-availability-aware context. We also touch upon relevant aspects such as data sampling techniques, design of experiments, verification, and validation. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# カメラポーズを伴わないスパースビュー合成のための構成最適化手法
A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose ( http://arxiv.org/abs/2405.03659v1 ) ライセンス: Link先を確認 | Kaiwen Jiang, Yang Fu, Mukund Varma T, Yash Belhe, Xiaolong Wang, Hao Su, Ravi Ramamoorthi, | (参考訳) 入力画像のスパース集合からの新しいビュー合成は、特にカメラポーズが欠落したり不正確な場合には、非常に実践的な問題である。
カメラポーズの直接最適化とニューラルレイディアンス場アルゴリズムにおける推定深度の利用は、ポーズと深さのカップリングや単眼深度推定の不正確さのため、通常は良い結果を出さない。
本稿では,最近の3次元ガウススプラッティング法を活用し,カメラポーズを伴わないスパースビュー合成のための新しい構成と最適化法を開発した。
具体的には、単分子深度と画素を3次元の世界に投影することで、解を段階的に構築する。
構築中、トレーニングビューと対応するレンダリング画像の2次元対応を検知し、解を最適化する。
我々は、カメラのポーズと奥行きの調整とカメラ登録のための一元化可能なパイプラインを開発し、その後にバックプロジェクションを行う。
また、ガウススプラッティングにおいて期待面という新たな概念を導入し、最適化に不可欠である。
これらのステップにより粗い解が実現され、標準最適化法を用いて低域通過フィルタと精細化が可能となる。
筆者らは,3つの広視野ビューで,タンクとテンプルと静的ハイクスのデータセットを用いて,近似カメラポーズ情報を含む競合手法よりもはるかに高品質な結果を示した。
さらに,データセットを半分使用しても,従来のInstantNGPおよびGaussian Splattingアルゴリズムよりも多くのビューと性能が向上した。
Novel view synthesis from a sparse set of input images is a challenging problem of great practical interest, especially when camera poses are absent or inaccurate. Direct optimization of camera poses and usage of estimated depths in neural radiance field algorithms usually do not produce good results because of the coupling between poses and depths, and inaccuracies in monocular depth estimation. In this paper, we leverage the recent 3D Gaussian splatting method to develop a novel construct-and-optimize method for sparse view synthesis without camera poses. Specifically, we construct a solution progressively by using monocular depth and projecting pixels back into the 3D world. During construction, we optimize the solution by detecting 2D correspondences between training views and the corresponding rendered images. We develop a unified differentiable pipeline for camera registration and adjustment of both camera poses and depths, followed by back-projection. We also introduce a novel notion of an expected surface in Gaussian splatting, which is critical to our optimization. These steps enable a coarse solution, which can then be low-pass filtered and refined using standard optimization methods. We demonstrate results on the Tanks and Temples and Static Hikes datasets with as few as three widely-spaced views, showing significantly better quality than competing methods, including those with approximate camera pose information. Moreover, our results improve with more views and outperform previous InstantNGP and Gaussian Splatting algorithms even when using half the dataset. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# CICA: ゼロショット文書画像分類のためのコンテントインジェクトコントラストアライメント
CICA: Content-Injected Contrastive Alignment for Zero-Shot Document Image Classification ( http://arxiv.org/abs/2405.03660v1 ) ライセンス: Link先を確認 | Sankalp Sinha, Muhammad Saif Ullah Khan, Talha Uddin Sheikh, Didier Stricker, Muhammad Zeshan Afzal, | (参考訳) ゼロショット学習は視覚認識の幅広い分野で広く研究されており、近年は大きな関心を集めている。
しかし、文書画像分類におけるゼロショット学習に関する現在の研究はほとんど残っていない。
既存の研究では、ゼロショット推論のみに焦点が当てられているか、あるいはその評価は、認識領域におけるゼロショット評価の確立された基準と一致しない。
我々は、ZSL(Zero-Shot Learning)とGZSL(Generalized Zero-Shot Learning)の設定において、このギャップに対処するための包括的な文書画像分類分析を提供する。
我々の方法論と評価は、この領域の確立した実践と一致している。
さらに,RVL-CDIPデータセットに対してゼロショット分割を提案する。
さらに,CLIPのゼロショット学習能力を高めるフレームワークであるCICA(ki-ka)についても紹介する。
CICAは、汎用文書関連テキスト情報を利用するように設計された新しい「コンテンツモジュール」で構成されている。
このモジュールによって抽出された差別的特徴は、CLIPのテキストと画像の特徴と整合している。
我々のモジュールは、CLIPのZSLトップ-1精度を6.7%改善し、GZSLハーモニック平均はRVL-CDIPデータセットで24%向上した。
私たちのモジュールは軽量で、CLIPにパラメータを3.3%追加するだけであります。
本研究は,ゼロショット文書分類における今後の研究の方向性を定めている。
Zero-shot learning has been extensively investigated in the broader field of visual recognition, attracting significant interest recently. However, the current work on zero-shot learning in document image classification remains scarce. The existing studies either focus exclusively on zero-shot inference, or their evaluation does not align with the established criteria of zero-shot evaluation in the visual recognition domain. We provide a comprehensive document image classification analysis in Zero-Shot Learning (ZSL) and Generalized Zero-Shot Learning (GZSL) settings to address this gap. Our methodology and evaluation align with the established practices of this domain. Additionally, we propose zero-shot splits for the RVL-CDIP dataset. Furthermore, we introduce CICA (pronounced 'ki-ka'), a framework that enhances the zero-shot learning capabilities of CLIP. CICA consists of a novel 'content module' designed to leverage any generic document-related textual information. The discriminative features extracted by this module are aligned with CLIP's text and image features using a novel 'coupled-contrastive' loss. Our module improves CLIP's ZSL top-1 accuracy by 6.7% and GZSL harmonic mean by 24% on the RVL-CDIP dataset. Our module is lightweight and adds only 3.3% more parameters to CLIP. Our work sets the direction for future research in zero-shot document classification. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# ウォームスタート」アルゴリズムと予測を用いた競合戦略
Competitive strategies to use "warm start" algorithms with predictions ( http://arxiv.org/abs/2405.03661v1 ) ライセンス: Link先を確認 | Vaidehi Srinivas, Avrim Blum, | (参考訳) 本稿では,温暖化開始アルゴリズムの学習と予測利用の問題点について考察する。
この設定では、アルゴリズムは問題のインスタンスと解の予測を与える。
アルゴリズムのランタイムは、予測された解からインスタンスの真の解までの距離によって制限される。
従来の研究では、ある分布からインスタンスをiidに引いた場合、ほぼ最適な固定予測(Dinitz et al, NeurIPS 2021)を学習でき、対向オンラインの場合、後向きの最良の固定予測と競合することができる(Khodak et al, NeurIPS 2022)。
この研究では、より強いベンチマークに対して、$k$の予測セットを$\mathbf{P}$とする競合保証を与える。
つまり、$\mathbf{P}$ のインスタンスを解く「最適オフラインコスト」とは、真解から $\mathbf{P}$ の最も近い元への距離である。
これは$k$-mediansの目的関数に類似している。
分布設定では、最適オフラインコストよりも高い$O(k)$係数のコストを発生させる単純な戦略を示す。
次に、学習可能な粗い情報を、インスタンス空間を「類似した」インスタンスのグループに分割する形で活用する方法を示します。
最後に、オンライン版の問題を考慮し、オフライン戦略と競合し、$k$の予測や“トラジェクトリ”の移動セットを維持でき、予測の移動量について課金される。
我々は、少なくとも$O(k^4 \ln^2 k)$のアルゴリズムを、$k$トラジェクトリの任意のオフライン戦略の倍の処理を行う。
このアルゴリズムは決定論的(適応的敵に悪影響を与える)であり、$k$の設定には不適当である。
したがって、保証はすべての$k$を同時に保持する。
We consider the problem of learning and using predictions for warm start algorithms with predictions. In this setting, an algorithm is given an instance of a problem, and a prediction of the solution. The runtime of the algorithm is bounded by the distance from the predicted solution to the true solution of the instance. Previous work has shown that when instances are drawn iid from some distribution, it is possible to learn an approximately optimal fixed prediction (Dinitz et al, NeurIPS 2021), and in the adversarial online case, it is possible to compete with the best fixed prediction in hindsight (Khodak et al, NeurIPS 2022). In this work we give competitive guarantees against stronger benchmarks that consider a set of $k$ predictions $\mathbf{P}$. That is, the "optimal offline cost" to solve an instance with respect to $\mathbf{P}$ is the distance from the true solution to the closest member of $\mathbf{P}$. This is analogous to the $k$-medians objective function. In the distributional setting, we show a simple strategy that incurs cost that is at most an $O(k)$ factor worse than the optimal offline cost. We then show a way to leverage learnable coarse information, in the form of partitions of the instance space into groups of "similar" instances, that allows us to potentially avoid this $O(k)$ factor. Finally, we consider an online version of the problem, where we compete against offline strategies that are allowed to maintain a moving set of $k$ predictions or "trajectories," and are charged for how much the predictions move. We give an algorithm that does at most $O(k^4 \ln^2 k)$ times as much work as any offline strategy of $k$ trajectories. This algorithm is deterministic (robust to an adaptive adversary), and oblivious to the setting of $k$. Thus the guarantee holds for all $k$ simultaneously. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# 大気乱流緩和のための拡散型テンプレートレジストレーション
Diffeomorphic Template Registration for Atmospheric Turbulence Mitigation ( http://arxiv.org/abs/2405.03662v1 ) ライセンス: Link先を確認 | Dong Lao, Congli Wang, Alex Wong, Stefano Soatto, | (参考訳) 本研究では, 大気乱流により劣化した画像の集合体に基づく放射能の回復手法について述べる。
教師付きデータは技術的には入手できないことが多いため、この逆問題を解決するためには仮定とバイアスを課し、それらを明示的にモデル化する。
変形を推定するためにヒューリスティックスによって潜時光を初期化する代わりに、画像の1つを基準として選択し、この画像の変形を、その画像から他の画像への光フローの集約によってモデル化し、中央極限定理によって課された先行値を利用する。
そして、新しいフロー反転モジュールで、モデルはテンプレートに対して各イメージを登録するが、テンプレートを外し、テンプレートの初期化の悪いアーティファクトを避ける。
この手法の堅牢性を説明するために、我々は単純に
(i)参照として第1フレームを選択して
二 最も簡単な光学的流れを用いてワーピングを推定するが、その単純さに拘わらず、最先端の性能を達成するため、最終的な復元において登録の改善は決定的である。
このメソッドは、より洗練されたパイプラインやドメイン固有のメソッドにシームレスに統合することで、さらに改善できる強力なベースラインを確立する。
We describe a method for recovering the irradiance underlying a collection of images corrupted by atmospheric turbulence. Since supervised data is often technically impossible to obtain, assumptions and biases have to be imposed to solve this inverse problem, and we choose to model them explicitly. Rather than initializing a latent irradiance ("template") by heuristics to estimate deformation, we select one of the images as a reference, and model the deformation in this image by the aggregation of the optical flow from it to other images, exploiting a prior imposed by Central Limit Theorem. Then with a novel flow inversion module, the model registers each image TO the template but WITHOUT the template, avoiding artifacts related to poor template initialization. To illustrate the robustness of the method, we simply (i) select the first frame as the reference and (ii) use the simplest optical flow to estimate the warpings, yet the improvement in registration is decisive in the final reconstruction, as we achieve state-of-the-art performance despite its simplicity. The method establishes a strong baseline that can be further improved by integrating it seamlessly into more sophisticated pipelines, or with domain-specific methods if so desired. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# ScrewMimic:スクリュー・スペース・プロジェクションによる人間ビデオからのバイマチュアルな模倣
ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection ( http://arxiv.org/abs/2405.03666v1 ) ライセンス: Link先を確認 | Arpit Bahety, Priyanka Mandikal, Ben Abbatematteo, Roberto Martín-Martín, | (参考訳) 双方向操作は、多くの自由度と、意味のある振る舞いを生成するために必要な厳密な空間的および時間的同期のため、ロボット工学における長年にわたる課題である。
人間は、他の人間を観察し、遊びを通して能力を改善することで、バイマニュアル操作のスキルを学ぶ。
本研究の目的は、ロボットが人間のビデオデモからバイマニュアル操作の動作を学習し、インタラクションを通じてそれらを微調整できるようにすることである。
心理学やバイオメカニクスにおける精巧な研究に触発されて、両手間の相互作用を連続的なキネマティック・リンケージとしてモデル化することを提案し、特に、両手操作のための新しいアクション・スペースを定義するために使用するスクリュー・モーションとして、スクリュー・アクションを提案する。
我々は、この新しい行動表現を活用するフレームワークであるScrewMimicを導入し、人間の実演と自己指導型政策微調整の学習を容易にする。
我々の実験は、ScrewMimicが1人の人間のビデオデモからいくつかの複雑なバイマニュアル動作を学習できることを示し、両腕の元の動き空間において、デモと微調整を直接解釈するベースラインよりも優れていることを示した。
詳しくは、https://robin-lab.cs.utexas.edu/ScrewMimic/
Bimanual manipulation is a longstanding challenge in robotics due to the large number of degrees of freedom and the strict spatial and temporal synchronization required to generate meaningful behavior. Humans learn bimanual manipulation skills by watching other humans and by refining their abilities through play. In this work, we aim to enable robots to learn bimanual manipulation behaviors from human video demonstrations and fine-tune them through interaction. Inspired by seminal work in psychology and biomechanics, we propose modeling the interaction between two hands as a serial kinematic linkage -- as a screw motion, in particular, that we use to define a new action space for bimanual manipulation: screw actions. We introduce ScrewMimic, a framework that leverages this novel action representation to facilitate learning from human demonstration and self-supervised policy fine-tuning. Our experiments demonstrate that ScrewMimic is able to learn several complex bimanual behaviors from a single human video demonstration, and that it outperforms baselines that interpret demonstrations and fine-tune directly in the original space of motion of both arms. For more information and video results, https://robin-lab.cs.utexas.edu/ScrewMimic/ | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# 情報駆動型手法による断層検出とモニタリング:方法・理論・応用
Fault Detection and Monitoring using an Information-Driven Strategy: Method, Theory, and Application ( http://arxiv.org/abs/2405.03667v1 ) ライセンス: Link先を確認 | Camilo Ramírez, Jorge F. Silva, Ferhat Tamssaouet, Tomás Rojas, Marcos E. Orchard, | (参考訳) システムが障害発生時に検出できることは、致命的な失敗を防ぐ上で、最重要事項である。
本研究では,新しいドリフト検出器を用いた情報駆動型断層検出手法を提案する。
本手法は,付加的雑音モデル(モデルドリフト)の入出力関係におけるドリフトの同定に適しており,分布自由な相互情報(MI)推定器に基づいている。
提案手法は事前の故障例を必要としないため,大規模なシステムモデルに対して分散フリーに適用することができる。
私たちのコアコントリビューションは2つです。
まず, 故障検出, モデルドリフト検出, および2つの確率変数間の独立性テストの関連性を示す。
第二に、提案したMIベースの故障検出手法の理論的特性をいくつか証明する。
(i)強い一貫性。
(ii)非デフォルトケースの指数的高速検出、及び
三 検査の重要度及び威力の両面の制御
結論として,航空機用ターボファンエンジンの合成データとベンチマークデータセットN-CMAPSSを用いて,我々の理論を検証した。
これらの実験結果は,多くの実践的かつ現実的な環境での方法論の有用性を裏付けるものであり,理論的な結果は,他の手法では提供できない性能保証を示すものである。
The ability to detect when a system undergoes an incipient fault is of paramount importance in preventing a critical failure. In this work, we propose an information-driven fault detection method based on a novel concept drift detector. The method is tailored to identifying drifts in input-output relationships of additive noise models (i.e., model drifts) and is based on a distribution-free mutual information (MI) estimator. Our scheme does not require prior faulty examples and can be applied distribution-free over a large class of system models. Our core contributions are twofold. First, we demonstrate the connection between fault detection, model drift detection, and testing independence between two random variables. Second, we prove several theoretical properties of the proposed MI-based fault detection scheme: (i) strong consistency, (ii) exponentially fast detection of the non-faulty case, and (iii) control of both significance levels and power of the test. To conclude, we validate our theory with synthetic data and the benchmark dataset N-CMAPSS of aircraft turbofan engines. These empirical results support the usefulness of our methodology in many practical and realistic settings, and the theoretical results show performance guarantees that other methods cannot offer. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# Geminiを使ったタスクツリーのプロンプト:方法論と洞察
Prompting Task Trees using Gemini: Methodologies and Insights ( http://arxiv.org/abs/2405.03671v1 ) ライセンス: Link先を確認 | Pallavi Tandra, | (参考訳) ロボットはあらゆるテクノロジーの未来であり、あらゆる高度な技術が最終的には、より効率的なロボットを作るために使われる。
今日の大きな課題は、知識表現を使ってロボットを正確に、共感的に訓練することだ。
本稿では,非構造的知識表現の活用方法と,それらを有意義な構造化表現に変換する方法についての知見を提供する。
Robots are the future of every technology where every advanced technology eventually will be used to make robots which are more efficient. The major challenge today is to train the robots exactly and empathetically using knowledge representation. This paper gives you insights of how we can use unstructured knowledge representation and convert them to meaningful structured representation with the help of prompt engineering which can be eventually used in the robots to make help them understand how human brain can make wonders with the minimal data or objects can providing to them. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# バグの多い敵の例の防御を切断する:コードの1行の修正がSabreを破る
Cutting through buggy adversarial example defenses: fixing 1 line of code breaks Sabre ( http://arxiv.org/abs/2405.03672v1 ) ライセンス: Link先を確認 | Nicholas Carlini, | (参考訳) SabreはIEEE S&P 2024で受け入れられた敵の例に対する防御である。
まず,勾配マスキングの明確な兆候を示す評価の重大な欠陥を明らかにする。
次に、この勾配マスキングの原因を示す:元の評価コードにバグがある。
元のリポジトリにある1行のコードを修正することで、Sabreの堅牢な精度を0%に削減します。
これに対応して、著者らは防御を修正し、原論文に記載されていない新しい防御部品を導入する。
しかし、この修正には2つ目のバグが含まれている。もう1行のコードを変更することで、ロバストな精度がベースラインレベル以下に低下する。
Sabre is a defense to adversarial examples that was accepted at IEEE S&P 2024. We first reveal significant flaws in the evaluation that point to clear signs of gradient masking. We then show the cause of this gradient masking: a bug in the original evaluation code. By fixing a single line of code in the original repository, we reduce Sabre's robust accuracy to 0%. In response to this, the authors modify the defense and introduce a new defense component not described in the original paper. But this fix contains a second bug; modifying one more line of code reduces robust accuracy to below baseline levels. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# トポロジカル量子電池
Topological Quantum Batteries ( http://arxiv.org/abs/2405.03675v1 ) ライセンス: Link先を確認 | Zhi-Guang Lu, Guoqing Tian, Xin-You Lü, Cheng Shang, | (参考訳) 本稿では,2つの原子をトポロジ的特徴を持つ1次元格子に結合するトポロジカル量子電池の革新的な設計法を提案する。
本手法を用いて, 量子電池(QB)の熱力学特性を解析的に検討した。
まず、コヒーレントな境界状態のみがQBの貯蔵エネルギーに大きく寄与することを示す。
我々は、位相的に非自明な位相において、量子充電器から量子電池(QB)へのほぼ完全なエネルギー移動を観測する。
逆に、位相的に自明な位相において、マルコフ極限の下では、退化ゼロエネルギー境界状態の出現によりQBの充電過程はほぼ完全に禁止される。
さらに, 最大エネルギー貯蔵量は相境界における特異な挙動を示す。
第2に、QBと量子チャージャーの直接結合は、暗黒状態と空孔様の着衣状態の存在によって促進されるエルゴトロピー免疫を亜格子散逸に誘導する。
さらに,量子ゼノ効果の出現とともに散逸が増大するにつれて,QBsの帯電力は過渡的に増強されることを示す。
本研究は, 構造型貯水池工学を通してQBの性能向上を図るための洞察に富んだガイドラインを提供する。
We propose an innovative design for topological quantum batteries that involves coupling two atoms to a one-dimensional lattice with topological features. Employing the resolvent method, we analytically explore the thermodynamic performances of quantum batteries (QBs). First, we demonstrate that only coherent bound states significantly contribute to the stored energy of QBs. We observe near-perfect energy transfer from the quantum charger to the quantum battery (QB) in the topologically nontrivial phase. Conversely, in the topologically trivial phase, we reveal that under the Markov limit, the charging process of the QB is almost completely prohibited due to the emergence of degenerate zero-energy bound states. Moreover, we discover that the maximum energy storage exhibits singular behavior at the phase boundaries. Second, we find that direct coupling between the QB and quantum charger renders the ergotropy immune to sublattice dissipation, facilitated by the presence of a dark state and vacancy-like dressed bound state. Further, we show that as dissipation intensifies along with the emergence of the quantum Zeno effect, the charging power of QBs is transiently enhanced. Our findings provide insightful guidelines for practically enhancing the performance of QBs through structured reservoir engineering. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# なぜSAMはラベルノイズにロバストなのか?
Why is SAM Robust to Label Noise? ( http://arxiv.org/abs/2405.03676v1 ) ライセンス: Link先を確認 | Christina Baek, Zico Kolter, Aditi Raghunathan, | (参考訳) SAM(Sharpness-Aware Minimization)は、自然画像や言語タスクにおける最先端のパフォーマンスを実現することで最もよく知られている。
しかし、最も顕著な改善(数十パーセント)はラベルノイズの存在にある。
SAMのラベルノイズの頑健さを理解するには、損失景観の「平らな」領域に横たわっているミニマの頑健さを特徴付けることから離れる必要がある。
特に、損失が収束するずっと前に、ラベルノイズ下でのピーク性能は早期に停止する。
SAMのロバスト性は、ロジット項の変化によって引き起こされるものと、ネットワークジャコビアンの変化によって引き起こされるものである。
第一は線形ロジスティック回帰(英語版)において観察でき、SAMはクリーンな例から勾配寄与を確実に上向きにする。
この明示的なアップウェイト化はニューラルネットワークでも観測可能であるが、SAMを介入して修正してこの効果を取り除くと、驚くべきことに、パフォーマンスの目に見える劣化は見られない。
より深いネットワークにおけるSAMの効果は、代わりに、SAMがネットワークジャコビアンに与える影響によって完全に説明される。
理論的には、2層線形ネットワークにおけるこのジャコビアン効果によって誘導される暗黙の正則化を導出する。
我々の分析により、これらの規則化効果を明示的に誘発するSAMの安価な代替手段が、現実世界のデータセットでトレーニングされたディープネットワークの利点を大いに回復することがわかった。
Sharpness-Aware Minimization (SAM) is most known for achieving state-of the-art performances on natural image and language tasks. However, its most pronounced improvements (of tens of percent) is rather in the presence of label noise. Understanding SAM's label noise robustness requires a departure from characterizing the robustness of minimas lying in "flatter" regions of the loss landscape. In particular, the peak performance under label noise occurs with early stopping, far before the loss converges. We decompose SAM's robustness into two effects: one induced by changes to the logit term and the other induced by changes to the network Jacobian. The first can be observed in linear logistic regression where SAM provably up-weights the gradient contribution from clean examples. Although this explicit up-weighting is also observable in neural networks, when we intervene and modify SAM to remove this effect, surprisingly, we see no visible degradation in performance. We infer that SAM's effect in deeper networks is instead explained entirely by the effect SAM has on the network Jacobian. We theoretically derive the implicit regularization induced by this Jacobian effect in two layer linear networks. Motivated by our analysis, we see that cheaper alternatives to SAM that explicitly induce these regularization effects largely recover the benefits in deep networks trained on real-world datasets. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# ヒューマン・イン・ザ・ループ LLM による協調談話分析への取り組み
Towards A Human-in-the-Loop LLM Approach to Collaborative Discourse Analysis ( http://arxiv.org/abs/2405.03677v1 ) ライセンス: Link先を確認 | Clayton Cohn, Caitlin Snyder, Justin Montenegro, Gautam Biswas, | (参考訳) LLMは、人間の入力を用いて出力を文脈化する能力を示しており、様々なタスクにおいて人間のレベルパフォーマンスにマッチしたり、打ち負かしたりすることが多い。
しかし、LLMは、学生の協調談話における相乗的学習の特徴付けにはまだ使われていない。
本研究は,GPT-4-Turboを用いたヒューマン・イン・ザ・ループ・イン・ループ・プロンプト・エンジニアリング・アプローチの導入に向けた第一歩である。
予備的な知見は, GPT-4-Turboが, 学生の相乗学習を人間に匹敵する方法で特徴付けることができる可能性を示し, 今後の研究を保証している。
LLMs have demonstrated proficiency in contextualizing their outputs using human input, often matching or beating human-level performance on a variety of tasks. However, LLMs have not yet been used to characterize synergistic learning in students' collaborative discourse. In this exploratory work, we take a first step towards adopting a human-in-the-loop prompt engineering approach with GPT-4-Turbo to summarize and categorize students' synergistic learning during collaborative discourse. Our preliminary findings suggest GPT-4-Turbo may be able to characterize students' synergistic learning in a manner comparable to humans and that our approach warrants further investigation. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# 室内パノラマを自動で消し去る「Empty Room」
An Empty Room is All We Want: Automatic Defurnishing of Indoor Panoramas ( http://arxiv.org/abs/2405.03682v1 ) ライセンス: Link先を確認 | Mira Slavcheva, Dave Gausebeck, Kevin Chen, David Buchhofer, Azwad Sabik, Chen Ma, Sachal Dhillon, Olaf Brandt, Alan Dolhasz, | (参考訳) 本研究では,室内パノラマ画像から家具品を除去する際の塗装結果を改善するために,安定拡散を利用したパイプラインを提案する。
具体的には,空間配置推定に頼らずに幾何学的に検証可能な高忠実度インピントを,コンテキスト,ドメイン固有モデル微調整,画像ブレンドの改善によっていかに高忠実度インピントを生成するかを説明する。
我々は,他の家具除去技術よりも質的,定量的な改善を実演する。
We propose a pipeline that leverages Stable Diffusion to improve inpainting results in the context of defurnishing -- the removal of furniture items from indoor panorama images. Specifically, we illustrate how increased context, domain-specific model fine-tuning, and improved image blending can produce high-fidelity inpaints that are geometrically plausible without needing to rely on room layout estimation. We demonstrate qualitative and quantitative improvements over other furniture removal techniques. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# ビデオLMMのための複雑なビデオ推論とロバストネス評価スイート
Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs ( http://arxiv.org/abs/2405.03690v1 ) ライセンス: Link先を確認 | Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Jameel Hassan, Muzammal Naseer, Federico Tombari, Fahad Shahbaz Khan, Salman Khan, | (参考訳) 近年のLLM(Large Language Models)の進歩は,ビデオ理解タスクを幅広く扱えるビデオ大マルチモーダルモデル(Video Large Multi-LMM)の開発につながっている。
これらのモデルは、ロボット工学、AIアシスタント、医療画像、自動運転車といった現実世界のアプリケーションにデプロイされる可能性がある。
私たちの日常生活におけるビデオ-LMMの普及は、複雑な実世界のコンテキストにおける人間のような推論と相互作用能力のミラーリングにおいて、彼らの堅牢なパフォーマンスを保証し、評価することの重要性を浮き彫りにしている。
しかしながら、既存のビデオLMMのベンチマークでは、主に一般的なビデオ理解能力に焦点が当てられ、実世界のコンテキストにおける複雑なビデオに対する推論能力の評価や、テキストクエリとしてユーザプロンプトのレンズを通してこれらのモデルの堅牢性に焦点が当てられている。
本稿では,11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する新しいベンチマーク,CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)を提案する。
我々は、オープンソースとクローズドソースの両方を含む最近の9つのモデルを評価し、ビデオ-LMMのほとんどが、複雑なビデオを扱う際に、ロバストさと推論に苦しむことを発見した。
本研究では,既存のビデオLMMの性能向上を図るため,DSCP(Dual-Step Contextual Prompting)技術を開発した。
我々の発見は、高度な堅牢性と推論能力を備えた次世代の人間中心型AIシステムを構築する上で、貴重な洞察を提供する。
私たちのデータセットとコードは、https://mbzuai-oryx.github.io/CVRR-Evaluation-Suite/で公開されています。
Recent advancements in Large Language Models (LLMs) have led to the development of Video Large Multi-modal Models (Video-LMMs) that can handle a wide range of video understanding tasks. These models have the potential to be deployed in real-world applications such as robotics, AI assistants, medical imaging, and autonomous vehicles. The widespread adoption of Video-LMMs in our daily lives underscores the importance of ensuring and evaluating their robust performance in mirroring human-like reasoning and interaction capabilities in complex, real-world contexts. However, existing benchmarks for Video-LMMs primarily focus on general video comprehension abilities and neglect assessing their reasoning capabilities over complex videos in the real-world context, and robustness of these models through the lens of user prompts as text queries. In this paper, we present the Complex Video Reasoning and Robustness Evaluation Suite (CVRR-ES), a novel benchmark that comprehensively assesses the performance of Video-LMMs across 11 diverse real-world video dimensions. We evaluate 9 recent models, including both open-source and closed-source variants, and find that most of the Video-LMMs, {especially open-source ones,} struggle with robustness and reasoning when dealing with complex videos. Based on our analysis, we develop a training-free Dual-Step Contextual Prompting (DSCP) technique to enhance the performance of existing Video-LMMs. Our findings provide valuable insights for building the next generation of human-centric AI systems with advanced robustness and reasoning capabilities. Our dataset and code are publicly available at: https://mbzuai-oryx.github.io/CVRR-Evaluation-Suite/. | 翻訳日:2024-05-07 12:46:34 公開日:2024-05-06 |
# シリコンバレーの群衆の知恵: LLM Ensemble Prediction Capability Rival Human Crowd Accuracy
Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy ( http://arxiv.org/abs/2402.19379v4 ) ライセンス: Link先を確認 | Philipp Schoenegger, Indre Tuminauskaite, Peter S. Park, Philip E. Tetlock, | (参考訳) 実際の人間の予測精度は、「群衆の知恵」効果に依存しており、個々の予測者の群集に集結することで、将来の出来事に関する予測が著しく改善される。
大規模言語モデル(LLM)の予測能力に関する過去の研究は、フロンティアのLLMは、個人予測家として、人間の群衆予測トーナメントアグリゲーションのゴールドスタンダードに比べて性能が劣っていることを示唆している。
研究1では、12個のLLMの群集からなるLLMアンサンブルアプローチを用いて、この研究を拡大する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントの925人の予測者の群集と比較した。
我々の事前登録された主要な分析は、LLMの群集が単純な非情報ベンチマークよりも優れており、統計的にヒトの群集と異なるものではないことを示している。
探索的解析において、これらの2つのアプローチは中規模効果の同値境界に対して等価であることがわかった。
また, 正解と負解がほぼ均等に分かれているにもかかわらず, 平均モデル予測が50%以上であるような収差効果も観測した。
さらに,研究2では,人間の認知的アウトプットに基づいてLCM予測(GPT-4とClaude 2)を改善することができるかどうかを検証した。
両モデルの予測精度は、中央値の人間の予測を情報として露出することで、精度を17%から28%向上させることで得られる。
以上の結果から, LLMは, 簡易かつ実用的な予測集計手法により, 人体予測トーナメントに匹敵する予測精度を達成できることが示唆された。
これはLLMの「群集の知恵」効果を再現し、社会全体で様々な用途に利用を開放する。
Human forecasting accuracy in practice relies on the 'wisdom of the crowd' effect, in which predictions about future events are significantly improved by aggregating across a crowd of individual forecasters. Past work on the forecasting ability of large language models (LLMs) suggests that frontier LLMs, as individual forecasters, underperform compared to the gold standard of a human crowd forecasting tournament aggregate. In Study 1, we expand this research by using an LLM ensemble approach consisting of a crowd of twelve LLMs. We compare the aggregated LLM predictions on 31 binary questions to that of a crowd of 925 human forecasters from a three-month forecasting tournament. Our preregistered main analysis shows that the LLM crowd outperforms a simple no-information benchmark and is not statistically different from the human crowd. In exploratory analyses, we find that these two approaches are equivalent with respect to medium-effect-size equivalence bounds. We also observe an acquiescence effect, with mean model predictions being significantly above 50%, despite an almost even split of positive and negative resolutions. Moreover, in Study 2, we test whether LLM predictions (of GPT-4 and Claude 2) can be improved by drawing on human cognitive output. We find that both models' forecasting accuracy benefits from exposure to the median human prediction as information, improving accuracy by between 17% and 28%: though this leads to less accurate predictions than simply averaging human and machine forecasts. Our results suggest that LLMs can achieve forecasting accuracy rivaling that of human crowd forecasting tournaments: via the simple, practically applicable method of forecast aggregation. This replicates the 'wisdom of the crowd' effect for LLMs, and opens up their use for a variety of applications throughout society. | 翻訳日:2024-05-07 12:36:45 公開日:2024-05-06 |
# 複雑さの単純さ : 深部分割モデルを用いた視覚的複雑さの説明
Simplicity in Complexity : Explaining Visual Complexity using Deep Segmentation Models ( http://arxiv.org/abs/2403.03134v3 ) ライセンス: Link先を確認 | Tingke Shen, Surabhi S Nath, Aenne Brielmann, Peter Dayan, | (参考訳) 視覚刺激の複雑さは、注意、エンゲージメント、記憶可能性、時間知覚、美的評価など多くの認知現象において重要な役割を果たす。
その重要性にもかかわらず、複雑さは理解されず、皮肉にも、以前の画像複雑性のモデルは極めて複雑であった。
複雑さを説明する手作りの機能を見つけようとする試みは数多くあったが、これらの機能は一般的にデータセット固有のものであるため、一般化に失敗している。
一方、近年の研究では、複雑さを予測するためにディープニューラルネットワークが採用されているが、これらのモデルは解釈が困難であり、問題の理論的理解を導くものではない。
本稿では,画像のセグメントベース表現を用いた複雑性のモデル化を提案する。
我々は,複数の粒度のセグメント数と画像中のクラス数を定量化するために,SAMとFC-CLIPという最先端のセグメンテーションモデルを用いている。
この2つの特徴は、自然主義的なシーンとアートイメージの6つの異なるイメージセットにまたがる。
これは、画像の複雑さが驚くほど単純であることを示している。
The complexity of visual stimuli plays an important role in many cognitive phenomena, including attention, engagement, memorability, time perception and aesthetic evaluation. Despite its importance, complexity is poorly understood and ironically, previous models of image complexity have been quite complex. There have been many attempts to find handcrafted features that explain complexity, but these features are usually dataset specific, and hence fail to generalise. On the other hand, more recent work has employed deep neural networks to predict complexity, but these models remain difficult to interpret, and do not guide a theoretical understanding of the problem. Here we propose to model complexity using segment-based representations of images. We use state-of-the-art segmentation models, SAM and FC-CLIP, to quantify the number of segments at multiple granularities, and the number of classes in an image respectively. We find that complexity is well-explained by a simple linear model with these two features across six diverse image-sets of naturalistic scene and art images. This suggests that the complexity of images can be surprisingly simple. | 翻訳日:2024-05-07 12:36:45 公開日:2024-05-06 |
# MVMoE:Mixture-of-Expertsを用いたマルチタスク車両ルーティングソリューション
MVMoE: Multi-Task Vehicle Routing Solver with Mixture-of-Experts ( http://arxiv.org/abs/2405.01029v2 ) ライセンス: Link先を確認 | Jianan Zhou, Zhiguang Cao, Yaoxin Wu, Wen Song, Yining Ma, Jie Zhang, Chi Xu, | (参考訳) 車両ルーティング問題(VRP)を解決するための学習は、多くの注目を集めている。
しかし、ほとんどのニューラルソルバは特定の問題に対して独立して構成され、訓練されているだけで、より汎用的で実践的ではない。
本稿では,VRPの変種を同時に扱える統一型ニューラルソルバを開発することを目的とする。
具体的には,Mix-of-experts (MVMoE) を用いたマルチタスク車両ルーティング方式を提案する。
さらに,MVMoEの階層的ゲーティング機構を開発し,経験的性能と計算複雑性の良好なトレードオフを提供する。
実験により,10のVRP変種に対してゼロショットの一般化性能を著しく向上させ,少数の設定と実世界のベンチマークインスタンスに対して良好な結果を示す。
さらに,VRPの解法におけるMoE構成の影響について広範な研究を行い,分布外データに直面する場合の階層的ゲーティングの優位性について検討した。
ソースコードは、https://github.com/RoyalSkye/Routing-MVMoE.comで入手できる。
Learning to solve vehicle routing problems (VRPs) has garnered much attention. However, most neural solvers are only structured and trained independently on a specific problem, making them less generic and practical. In this paper, we aim to develop a unified neural solver that can cope with a range of VRP variants simultaneously. Specifically, we propose a multi-task vehicle routing solver with mixture-of-experts (MVMoE), which greatly enhances the model capacity without a proportional increase in computation. We further develop a hierarchical gating mechanism for the MVMoE, delivering a good trade-off between empirical performance and computational complexity. Experimentally, our method significantly promotes zero-shot generalization performance on 10 unseen VRP variants, and showcases decent results on the few-shot setting and real-world benchmark instances. We further conduct extensive studies on the effect of MoE configurations in solving VRPs, and observe the superiority of hierarchical gating when facing out-of-distribution data. The source code is available at: https://github.com/RoyalSkye/Routing-MVMoE. | 翻訳日:2024-05-07 12:36:45 公開日:2024-05-06 |
# 校正ニューラルネットワークの特徴抽出と分類層
Decoupling Feature Extraction and Classification Layers for Calibrated Neural Networks ( http://arxiv.org/abs/2405.01196v3 ) ライセンス: Link先を確認 | Mikkel Jordahn, Pablo M. Olmos, | (参考訳) ディープニューラルネットワーク(DNN)は、多くの分類アプリケーションにおいて大きな可能性を示してきたが、過度にパラメータ化された場合、キャリブレーションが不十分であることが広く知られている。
モデル精度を犠牲にすることなくDNNキャリブレーションを改善することは極めて重要であり、医療分野などの安全クリティカルな応用への関心も高い。
本研究では,WRN (Wide Residual Networks) やVisual Transformer (ViT) などの過度にパラメータ化されたDNNアーキテクチャにおいて,特徴抽出層と分類層のトレーニングを分離することで,精度を維持しながらモデルのキャリブレーションを大幅に改善し,トレーニングコストを低減できることを示す。
さらに、DNNの最後の隠れ層出力にガウスを配置し、分類訓練段階においてモデルを変動的に訓練することで、キャリブレーションをさらに改善することを示す。
本稿では,複数の画像分類ベンチマークデータセットに対して,VTおよびWRNアーキテクチャ間のキャリブレーションを改善する手法を提案する。
Deep Neural Networks (DNN) have shown great promise in many classification applications, yet are widely known to have poorly calibrated predictions when they are over-parametrized. Improving DNN calibration without comprising on model accuracy is of extreme importance and interest in safety critical applications such as in the health-care sector. In this work, we show that decoupling the training of feature extraction layers and classification layers in over-parametrized DNN architectures such as Wide Residual Networks (WRN) and Visual Transformers (ViT) significantly improves model calibration whilst retaining accuracy, and at a low training cost. In addition, we show that placing a Gaussian prior on the last hidden layer outputs of a DNN, and training the model variationally in the classification training stage, even further improves calibration. We illustrate these methods improve calibration across ViT and WRN architectures for several image classification benchmark datasets. | 翻訳日:2024-05-07 12:36:45 公開日:2024-05-06 |
# 熱状態のインフレーション複雑性
Inflationary complexity of thermal state ( http://arxiv.org/abs/2405.01433v2 ) ライセンス: Link先を確認 | Tao Li, Lei-Hua Liu, | (参考訳) 本研究では, 単体インフレーション, 変形分散関係, および非自明音速に対して, 閉系と開系でそれぞれ熱的効果を有する2モード圧縮状態のインフレーション複雑性を系統的に検討する。
様々な量子重力の枠組みは、このような改良された分散関係と非自明な音速をもたらす可能性があるため、我々の分析はほとんどのインフレーションモデルに有効である。
$
(a)$。
閉系の方法におけるクリロフ複雑性の数値は、クリロフ複雑性の進化は熱効果を考慮に入れれば、圧縮された角度パラメータに大きく依存することを示している。
$
(b)$。
回路の複雑さの数値は、熱的効果があるかどうかに関わらず、常に進化が増大していることを示している。
$
(c)$。
オープンシステムの手法を利用して、まず波動関数を構築する。
我々の研究は、クリャロフの複雑性の進化が、熱効果に影響を及ぼすいくつかのピークを増大させ、クリャロフの複雑さは熱効果なしで常に増大することを示している。
$
(d)$。
また、クリャロフエントロピーを閉系と開系で計算し、宇宙が熱くなればなるほど、宇宙はカオスになることを示す。
さらに、Krylov複雑性とKrylovエントロピーの導出は、波動関数の構成の有効性を確認する弱散逸近似の下で閉系の場合、うまく回復することができる。
最後に、Lanczos係数の数値は、非自明な音速が他の2つの場合と比較して最小限のカオスを持つことを示している。
In this work, we systematically investigate the inflationary complexity of the two-mode squeezed state with thermal effect for the single field inflation, modified dispersion relation, and non-trivial sound speed with the method of closed system and open system, respectively. Since the various quantum gravitational framework could lead to this kind of modified dispersion relation and non-trivial sound speed, so that our analysis is valid for most inflationary models. $(a)$. The numeric of Krylov complexity in the method of the closed system indicates that the evolution of Krylov complexity highly depends on the squeezed angle parameter once taking the thermal effect into account, which will decay into some very tiny values, but the Krylov complexity will always enhance without thermal effect. $(b)$. The numeric of circuit complexity shows that the evolution is always increasing no matter whether there are thermal effects or not which is independent of the evolution of squeezed angle parameter. $(c)$. By utilizing the method of open system, we first construct the wave function. Our investigations show the evolution of Krylov complexity will enhance upon some peaks factoring in the thermal effects and the Krylov complexity will always increase without thermal effect. $(d)$. We also calculate the Krylov entropy in the method of closed system and open system, which indicates that the hotter the universe is, the more chaotic the universe becomes. Furthermore, our derivation for the Krylov complexity and Krylov entropy could nicely recover into the case of closed system under the weak dissipative approximation, which confirms the validity of construction for the wave function. Finally, our numeric of Lanczos coefficient shows that the non-trivial sound speed has minimal chaos compared to the other two cases. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# レート制約付き変分オートエンコーダによる未学習例の精製
Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders ( http://arxiv.org/abs/2405.01460v2 ) ライセンス: Link先を確認 | Yi Yu, Yufei Wang, Song Xia, Wenhan Yang, Shijian Lu, Yap-Peng Tan, Alex C. Kot, | (参考訳) 未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
これらの毒殺攻撃に対する防御は、訓練中に特定の介入が採用されたかどうかに基づいて分類することができる。
第一のアプローチは、敵の訓練のような訓練時間防衛であり、毒殺効果を軽減できるが、計算的に集中している。
もうひとつのアプローチは、いくつかの単純な圧縮からなるイメージショート・スクイーズ(画像ショート・スクイーズ)の事前トレーニングである。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
まず,速度制約付き変分オートエンコーダ(VAE)を明らかにし,UEの摂動を抑制する傾向を示す。
この現象の理論的解析を行う。
これらの知見に基づいて、学習可能なクラスワイド埋め込みで摂動を遠ざける不整形変分オートエンコーダ(D-VAE)を導入する。
このネットワークに基づいて、2段階の浄化手法が自然に開発されている。
第1段階は摂動を大まかに排除することに焦点を当て、第2段階は洗練された無毒な結果をもたらし、様々なシナリオにおける有効性と堅牢性を保証する。
CIFAR-10, CIFAR-100, 100-class ImageNet-subset を用いた大規模実験を行った。
コードはhttps://github.com/yuyi-sd/D-VAE.comで入手できる。
Unlearnable examples (UEs) seek to maximize testing error by making subtle modifications to training examples that are correctly labeled. Defenses against these poisoning attacks can be categorized based on whether specific interventions are adopted during training. The first approach is training-time defense, such as adversarial training, which can mitigate poisoning effects but is computationally intensive. The other approach is pre-training purification, e.g., image short squeezing, which consists of several simple compressions but often encounters challenges in dealing with various UEs. Our work provides a novel disentanglement mechanism to build an efficient pre-training purification method. Firstly, we uncover rate-constrained variational autoencoders (VAEs), demonstrating a clear tendency to suppress the perturbations in UEs. We subsequently conduct a theoretical analysis for this phenomenon. Building upon these insights, we introduce a disentangle variational autoencoder (D-VAE), capable of disentangling the perturbations with learnable class-wise embeddings. Based on this network, a two-stage purification approach is naturally developed. The first stage focuses on roughly eliminating perturbations, while the second stage produces refined, poison-free results, ensuring effectiveness and robustness across various scenarios. Extensive experiments demonstrate the remarkable performance of our method across CIFAR-10, CIFAR-100, and a 100-class ImageNet-subset. Code is available at https://github.com/yuyi-sd/D-VAE. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# FeNNol: 力場強化ニューラルネットワークポテンシャル構築のための効率的で柔軟なライブラリ
FeNNol: an Efficient and Flexible Library for Building Force-field-enhanced Neural Network Potentials ( http://arxiv.org/abs/2405.01491v2 ) ライセンス: Link先を確認 | Thomas Plé, Olivier Adjoua, Louis Lagardère, Jean-Philip Piquemal, | (参考訳) ニューラルネットワーク間ポテンシャル(NNP)は、最近、アブ初期分子動力学シミュレーションの高コストを回避しつつ、複雑な分子システムを正確にモデル化する強力なツールであることが証明されている。
近年、モデルアーキテクチャの進歩や機械学習(ML)とより伝統的で物理的に動機付けられた力場相互作用を組み合わせたハイブリッドモデルの開発により、MLポテンシャルの設計空間が大幅に増大している。
本稿では、力場強化ニューラルネットワークポテンシャルの構築、トレーニング、実行のための新しいライブラリであるFeNNolについて述べる。
ハイブリッドモデルを構築するためのフレキシブルでモジュラーなシステムを提供しており、明示的なプログラミングを必要とせずに、最先端の埋め込みとMLパラメータ化された物理的相互作用の項を簡単に組み合わせることができる。
さらに、FeNNolは、Jox Pythonライブラリの自動微分とジャストインタイムコンパイル機能を活用して、NNPの迅速な評価を可能にし、ML電位と標準力場のパフォーマンスギャップを縮小する。
一般的なANI-2xモデルは、コモディティGPU(GPU=グラフィックス処理ユニット)上のAMOEBA偏光力場とほぼ同等のシミュレーション速度に達する。
FeNNolは、幅広い分子シミュレーション問題に対して、新しいハイブリッドNPアーキテクチャの開発と応用を促進することを願っている。
Neural network interatomic potentials (NNPs) have recently proven to be powerful tools to accurately model complex molecular systems while bypassing the high numerical cost of ab-initio molecular dynamics simulations. In recent years, numerous advances in model architectures as well as the development of hybrid models combining machine-learning (ML) with more traditional, physically-motivated, force-field interactions have considerably increased the design space of ML potentials. In this paper, we present FeNNol, a new library for building, training and running force-field-enhanced neural network potentials. It provides a flexible and modular system for building hybrid models, allowing to easily combine state-of-the-art embeddings with ML-parameterized physical interaction terms without the need for explicit programming. Furthermore, FeNNol leverages the automatic differentiation and just-in-time compilation features of the Jax Python library to enable fast evaluation of NNPs, shrinking the performance gap between ML potentials and standard force-fields. This is demonstrated with the popular ANI-2x model reaching simulation speeds nearly on par with the AMOEBA polarizable force-field on commodity GPUs (GPU=Graphics processing unit). We hope that FeNNol will facilitate the development and application of new hybrid NNP architectures for a wide range of molecular simulation problems. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# ShadowNav:ダークネスにおける月面航法のための自律的グローバルローカライゼーション
ShadowNav: Autonomous Global Localization for Lunar Navigation in Darkness ( http://arxiv.org/abs/2405.01673v2 ) ライセンス: Link先を確認 | Deegan Atha, R. Michael Swan, Abhishek Cauligi, Anne Bettens, Edwin Goh, Dima Kogan, Larry Matthies, Masahiro Ono, | (参考訳) 慣性フレームにおけるローバーのポーズを自律的に決定する能力は、他の惑星の天体上での次世代の表面ローバーミッションに必要な重要な能力である。
現在進行中のローバーのミッションでは、ポーズ推定のドリフトを手動で修正するためにグランド・イン・ザ・ループの介入を使用しており、この人間の監督は、ローバーが自律的に操作できる距離をボトルネックにし、科学的な測定を行う。
本稿では,暗闇や夜間の運転に重点を置いた,月面のグローバルローカライゼーションのための自律的アプローチであるShadowNavを紹介する。
我々のアプローチでは、ルナークレーターの先端をランドマークとして使用し、検出されたクレーターと検出されたクレーターをオフボードマップ上の既知のクレーターに関連付けるために粒子フィルタリング手法を用いています。
ステレオカメラと外部照明源を備えたLunarローバーの概念を用いてShadowNavフレームワークを開発する際の重要な設計決定について論じる。
最後に,アリゾナ州シンダーレイクスにおけるフィールドテストにおいて,Lunarシミュレーション環境とデータの両方において提案手法の有効性を実証した。
The ability to determine the pose of a rover in an inertial frame autonomously is a crucial capability necessary for the next generation of surface rover missions on other planetary bodies. Currently, most on-going rover missions utilize ground-in-the-loop interventions to manually correct for drift in the pose estimate and this human supervision bottlenecks the distance over which rovers can operate autonomously and carry out scientific measurements. In this paper, we present ShadowNav, an autonomous approach for global localization on the Moon with an emphasis on driving in darkness and at nighttime. Our approach uses the leading edge of Lunar craters as landmarks and a particle filtering approach is used to associate detected craters with known ones on an offboard map. We discuss the key design decisions in developing the ShadowNav framework for use with a Lunar rover concept equipped with a stereo camera and an external illumination source. Finally, we demonstrate the efficacy of our proposed approach in both a Lunar simulation environment and on data collected during a field test at Cinder Lakes, Arizona. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# SOAR:状態空間モデルとプログラム可能な勾配を用いた航空画像の小型物体検出の進歩
SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients ( http://arxiv.org/abs/2405.01699v2 ) ライセンス: Link先を確認 | Tushar Verma, Jyotsna Singh, Yash Bhartari, Rishi Jarwal, Suraj Singh, Shubhkarman Singh, | (参考訳) 空中画像における小さな物体検出は、小さな物体に固有の最小限のデータと、大きな物体や背景ノイズによって隠蔽される確率によって、コンピュータビジョンにおいて重大な課題を呈する。
トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如から生じる制約に直面し、様々な向きやスケールのオブジェクトでパフォーマンスに悪影響を及ぼす。
これにより、より適応的で軽量なモデルの必要性が浮き彫りになる。
そこで本研究では,小型航空機の検知とセグメンテーション機能を大幅に向上する2つの革新的な手法を提案する。
まず,Programmable Gradient Information (PGI) を利用した,新たに導入された軽量YOLO v9アーキテクチャ上でのSAHIフレームワークの利用について検討する。
本稿では,位置認識型視覚理解を容易にするために位置埋め込みを取り入れた視覚マンバモデルと,効果的な視覚コンテキストモデリングのための新しい双方向状態空間モデル(SSM)を組み合わせる。
この状態空間モデルは、CNNの線形複雑性とトランスフォーマーの世界的な受容領域をうまく利用し、リモートセンシング画像分類に特に有効である。
実験の結果, 検出精度と処理効率が大幅に向上し, 様々な航空シナリオにまたがる実時間小物体検出への適用性が検証された。
本稿では,これらの手法が空中物体認識技術の今後の進歩の基盤モデルとして機能する可能性についても論じる。
ソースコードはここでアクセス可能である。
Small object detection in aerial imagery presents significant challenges in computer vision due to the minimal data inherent in small-sized objects and their propensity to be obscured by larger objects and background noise. Traditional methods using transformer-based models often face limitations stemming from the lack of specialized databases, which adversely affect their performance with objects of varying orientations and scales. This underscores the need for more adaptable, lightweight models. In response, this paper introduces two innovative approaches that significantly enhance detection and segmentation capabilities for small aerial objects. Firstly, we explore the use of the SAHI framework on the newly introduced lightweight YOLO v9 architecture, which utilizes Programmable Gradient Information (PGI) to reduce the substantial information loss typically encountered in sequential feature extraction processes. The paper employs the Vision Mamba model, which incorporates position embeddings to facilitate precise location-aware visual understanding, combined with a novel bidirectional State Space Model (SSM) for effective visual context modeling. This State Space Model adeptly harnesses the linear complexity of CNNs and the global receptive field of Transformers, making it particularly effective in remote sensing image classification. Our experimental results demonstrate substantial improvements in detection accuracy and processing efficiency, validating the applicability of these approaches for real-time small object detection across diverse aerial scenarios. This paper also discusses how these methodologies could serve as foundational models for future advancements in aerial object recognition technologies. The source code will be made accessible here. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# マルチタスクベンチマークにおける多様性と安定性の因果的トレードオフ
Inherent Trade-Offs between Diversity and Stability in Multi-Task Benchmarks ( http://arxiv.org/abs/2405.01719v2 ) ライセンス: Link先を確認 | Guanhua Zhang, Moritz Hardt, | (参考訳) 社会的選択論のレンズを用いた機械学習におけるマルチタスクベンチマークについて検討する。
我々は、モデルが候補であり、タスクが投票者である、ベンチマークと選挙システムの間の類似性を描く。
これは、基数ベンチマークと順序ベンチマークの区別を示唆している。
前者の集計スコアは1つのモデルランキングに分類され、後者の集計スコアは各タスクごとにランク付けされる。
順序数ベンチマークにアローの不合理性定理を適用し、順序数系の固有の制限、特に無関係なモデルの包含に対する感度を強調する。
Arrowの定理に触発されて、既存のマルチタスクベンチマークにおける無関係な変化に対する多様性と感受性の強いトレードオフを実証的に実証した。
この結果は、私たちが導入した多様性と感度の新しい定量的尺度に基づいています。
感度は、タスクの無関係な変更がベンチマークに与える影響を定量化する。
多様性は、タスク間のモデルランキングにおける不一致の度合いを捉えます。
正確な計算が困難であるため,両測度に対する効率的な近似アルゴリズムを開発した。
7つのベンチマークと11の順序ベンチマークに関する広範な実験を通じて、多様性と安定性の間に明確なトレードオフが示されている。
さらに、既存のベンチマークの集計されたランキングは、無関係な変更の下で非常に不安定であることを示す。
コードとデータはhttps://socialfoundations.github.io/benchbench/で公開されている。
We examine multi-task benchmarks in machine learning through the lens of social choice theory. We draw an analogy between benchmarks and electoral systems, where models are candidates and tasks are voters. This suggests a distinction between cardinal and ordinal benchmark systems. The former aggregate numerical scores into one model ranking; the latter aggregate rankings for each task. We apply Arrow's impossibility theorem to ordinal benchmarks to highlight the inherent limitations of ordinal systems, particularly their sensitivity to the inclusion of irrelevant models. Inspired by Arrow's theorem, we empirically demonstrate a strong trade-off between diversity and sensitivity to irrelevant changes in existing multi-task benchmarks. Our result is based on new quantitative measures of diversity and sensitivity that we introduce. Sensitivity quantifies the impact that irrelevant changes to tasks have on a benchmark. Diversity captures the degree of disagreement in model rankings across tasks. We develop efficient approximation algorithms for both measures, as exact computation is computationally challenging. Through extensive experiments on seven cardinal benchmarks and eleven ordinal benchmarks, we demonstrate a clear trade-off between diversity and stability: The more diverse a multi-task benchmark, the more sensitive to trivial changes it is. Additionally, we show that the aggregated rankings of existing benchmarks are highly unstable under irrelevant changes. The codes and data are available at https://socialfoundations.github.io/benchbench/. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# SSUMamba:ハイパースペクトル画像復調のための空間スペクトル選択状態空間モデル
SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising ( http://arxiv.org/abs/2405.01726v2 ) ライセンス: Link先を確認 | Guanyiman Fu, Fengchao Xiong, Jianfeng Lu, Jun Zhou, Yuntao Qian, | (参考訳) ハイパースペクトル画像(HSI)のデノイングは、画像内メカニズムや環境要因から生じるノイズにより、重要な前処理手順である。
スペクトル相関,空間自己相似性,空間スペクトル相関といったHSIのドメイン固有知識を活用することは,深層学習に基づく認知に不可欠である。
既存の手法はしばしば、時間、空間の複雑さ、計算の複雑さによって制約され、これらの先行を別々に探索する戦略を採用する。
これらの戦略は、いくつかの冗長な情報を避けることができるが、画像復元に肯定的な影響を与える、より広く、より根底にある長距離空間スペクトル情報を見落としてしまう。
本稿では,空間スペクトル選択状態モデルに基づくU字型ネットワークであるSpatial-Spectral U-Mamba(SSUMamba)を提案する。
状態空間モデル(SSM)計算における線形空間複雑性のおかげで,モジュール内の全地球空間スペクトル相関が得られる。
本研究では3次元HSIにおける複数方向の情報フローのモデル化を支援する空間スペクトル交互走査(SSAS)戦略を提案する。
実験の結果,本手法は比較手法よりも優れていた。
ソースコードはhttps://github.com/lronkitty/SSUMamba.comから入手できる。
Denoising hyperspectral images (HSIs) is a crucial preprocessing procedure due to the noise originating from intra-imaging mechanisms and environmental factors. Utilizing domain-specific knowledge of HSIs, such as spectral correlation, spatial self-similarity, and spatial-spectral correlation, is essential for deep learning-based denoising. Existing methods are often constrained by running time, space complexity, and computational complexity, employing strategies that explore these priors separately. While these strategies can avoid some redundant information, they inevitably overlook broader and more underlying long-range spatial-spectral information that positively impacts image restoration. This paper proposes a Spatial-Spectral Selective State Space Model-based U-shaped network, termed Spatial-Spectral U-Mamba (SSUMamba), for hyperspectral image denoising. We can obtain complete global spatial-spectral correlation within a module thanks to the linear space complexity in State Space Model (SSM) computations. We introduce a Spatial-Spectral Alternating Scan (SSAS) strategy for HSIs, which helps model the information flow in multiple directions in 3-D HSIs. Experimental results demonstrate that our method outperforms compared methods. The source code will be available at https://github.com/lronkitty/SSUMamba. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# Torch2Chip: プロトタイプハードウェアアクセラレータ設計のためのエンドツーエンドでカスタマイズ可能なDeep Neural Network Compression and Deployment Toolkit
Torch2Chip: An End-to-end Customizable Deep Neural Network Compression and Deployment Toolkit for Prototype Hardware Accelerator Design ( http://arxiv.org/abs/2405.01775v2 ) ライセンス: Link先を確認 | Jian Meng, Yuan Liao, Anupreetham Anupreetham, Ahmed Hasssan, Shixing Yu, Han-sok Suh, Xiaofeng Hu, Jae-sun Seo, | (参考訳) モデル圧縮の開発は、ASICやFPGAによる様々なニューラルネットワークアクセラレータの進化によって継続的に動機付けられている。
アルゴリズム側では、量子化やプルーニングの最終的な目標は、低消費電力ハードウェア上での高価なDNN計算を加速させることである。
しかしながら、このような"Design-and-deploy"ワークフローは、現在のハードウェア・アルゴリズムの共同設計コミュニティにおいて、未解決の課題に直面している。
第一に、最先端の量子化アルゴリズムは精度の劣化を無視して低い精度を達成することができるが、最新のディープラーニングフレームワーク(例えば、PyTorch)は、非減衰可能な8ビット精度、データフォーマット、パラメータ抽出しかサポートできない。
第二に、量子化の目的は、低精度のデータによる計算を可能にすることである。
しかし、現在のSoTAアルゴリズムは量子化整数を中間結果として扱い、一方、量子化器の最終出力は「分散」浮動小数点値であり、実際的な要求を無視し、整数パラメータ抽出と層融合のためのハードウェア設計者に追加の作業負荷を加える。
最後に、業界によって設計された圧縮ツールキットは、自社製品または少数のアルゴリズムに制約される。
現在のツールキットの限られた自由度と未探索のカスタマイズは、ASICまたはFPGAベースのアクセル設計を妨げている。
これらの課題を解決するために,Torch2Chipを提案する。Torch2Chipはオープンソースで,完全にカスタマイズ可能で,ユーザ設計の圧縮と自動モデル融合とパラメータ抽出をサポートする高性能ツールキットである。
Torch2Chip には階層型設計ワークフローが組み込まれており、ユーザカスタマイズ圧縮アルゴリズムは CNN または Vision Transformer (ViT) を使ったプロトタイプチップ検証用のデプロイ可能なフォーマットに直接組み込まれている。
コードはhttps://github.com/SeoLabCornell/torch2chipで公開されている。
The development of model compression is continuously motivated by the evolution of various neural network accelerators with ASIC or FPGA. On the algorithm side, the ultimate goal of quantization or pruning is accelerating the expensive DNN computations on low-power hardware. However, such a "design-and-deploy" workflow faces under-explored challenges in the current hardware-algorithm co-design community. First, although the state-of-the-art quantization algorithm can achieve low precision with negligible degradation of accuracy, the latest deep learning framework (e.g., PyTorch) can only support non-customizable 8-bit precision, data format, and parameter extraction. Secondly, the objective of quantization is to enable the computation with low-precision data. However, the current SoTA algorithm treats the quantized integer as an intermediate result, while the final output of the quantizer is the "discretized" floating-point values, ignoring the practical needs and adding additional workload to hardware designers for integer parameter extraction and layer fusion. Finally, the compression toolkits designed by the industry are constrained to their in-house product or a handful of algorithms. The limited degree of freedom in the current toolkit and the under-explored customization hinder the prototype ASIC or FPGA-based accelerator design. To resolve these challenges, we propose Torch2Chip, an open-sourced, fully customizable, and high-performance toolkit that supports user-designed compression followed by automatic model fusion and parameter extraction. Torch2Chip incorporates the hierarchical design workflow, and the user-customized compression algorithm will be directly packed into the deployment-ready format for prototype chip verification with either CNN or vision transformer (ViT). The code is available at https://github.com/SeoLabCornell/torch2chip. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# オープンソースコミュニティにおけるコミット権の獲得方法
How to Gain Commit Rights in Modern Top Open Source Communities? ( http://arxiv.org/abs/2405.01803v2 ) ライセンス: Link先を確認 | Xin Tan, Yan Gong, Geyu Huang, Haohua Wu, Li Zhang, | (参考訳) オープンソースソフトウェア(OSS)プロジェクトの成功は、様々なコミュニティの役割からの自発的な貢献に依存しており、コミッタとなることは、信頼とより高い特権の獲得を意味する。
現状研究はコミッターになるための要件に重点を置いているが、そのほとんどはインタビューやいくつかの仮説に基づいており、コミッターの資格に関する包括的理解を欠いている。
これらの政策のテーマ分析を通じて、プロジェクト、コミュニケーション、長期参加など9つのテーマに分類される26のコードからなるコミッタ資格の分類を構築した。
また、異なるOSSコミュニティガバナンスモデルで強調されるコミッタ資格のバリエーションについても強調する。
例えば、コアメンテナのモデルバリュープロジェクトの理解に追従するプロジェクトや、企業が支援するモデルに追従するプロジェクトは、ユーザの課題解決に重点を置いている。
そこで,本研究では,8つのメトリクスセットを提案し,2つのOSSプロジェクトのサバイバル分析を行い,これらの資格が実際にどのように実装されているかを理解する。
参加時間が経過するとコミット権獲得の可能性が低下し,コミュニティの方針と概ね一致していることが判明した。
高品質なコードを提出し、積極的にコードレビューを行い、関連するプロジェクトへの広範なコントリビューションを行う開発者は、コミット権限を与えられる傾向にある。
しかし、正確に整合しない資格もあり、適切に評価されていない資格もある。
この研究は、現代のOSSコミュニティにおける信頼確立の理解に寄与し、コミット権の配分を改善するコミュニティを支援し、OSS参加を通じて自己実現を実現する開発者を支援する。
The success of open source software (OSS) projects relies on voluntary contributions from various community roles.Being a committer signifies gaining trust and higher privileges. Substantial studies have focused on the requirements of becoming a committer, but most of them are based on interviews or several hypotheses, lacking a comprehensive understanding of committers' qualifications.We explore both the policies and practical implementations of committer qualifications in modern top OSS communities. Through a thematic analysis of these policies, we construct a taxonomy of committer qualifications, consisting of 26 codes categorized into nine themes, including Personnel-related to Project, Communication, and Long-term Participation. We also highlight the variations in committer qualifications emphasized in different OSS community governance models. For example, projects following the core maintainer model value project comprehension, while projects following the company-backed model place significant emphasis on user issue resolution. Then, we propose eight sets of metrics and perform survival analysis on two representative OSS projects to understand how these qualifications are implemented in practice. We find that the probability of gaining commit rights decreases as participation time passes.The selection criteria in practice are generally consistent with the community policies. Developers who submit high-quality code, actively engage in code review, and make extensive contributions to related projects are more likely to be granted commit rights. However, there are some qualifications that do not align precisely, and some are not adequately evaluated. This study contributes to the understanding of trust establishment in modern top OSS communities, assists communities in better allocating commit rights, and supports developers in achieving self-actualization through OSS participation. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# ギャップの閉鎖:ニューラル・ネットワーク・パラメトリゼーションによるマルコフサンプリング下でのアクター・クライトのグローバル・コンバージェンス(Last Iterate)の実現
Closing the Gap: Achieving Global Convergence (Last Iterate) of Actor-Critic under Markovian Sampling with Neural Network Parametrization ( http://arxiv.org/abs/2405.01843v2 ) ライセンス: Link先を確認 | Mudit Gaur, Amrit Singh Bedi, Di Wang, Vaneet Aggarwal, | (参考訳) Actor-Critic(AC)アルゴリズムの現在最先端の理論解析は、AC実装の実践的な側面に対処する上で著しく遅れている。
この重要なギャップは、ACの実践的な実装に合わせて分析を行うために橋渡しが必要である。
そこで本論文では,アクタ/アクタ/アクタ/アクタ/アクタ/マルチ層ニューラルネットワークパラメトリゼーション,テキストbf{M}アルコビアンサンプリング,テキストbf{C}非連続状態-アクション空間,テキストbf{L}astイテレートの性能,およびテキストbf{G}ロバル最適性について,MCMCLGの基準を検討することを提案する。
これらの側面は実質的に重要であり、既存のACアルゴリズムの理論解析ではほとんど見過ごされてきた。
本研究は,5つの重要な実践的側面(MCLG基準の範囲)をすべて包含するACアルゴリズムの包括的理論的解析を提供することにより,これらのギャップに対処する。
我々は、大域収束サンプル複雑性境界を$\tilde{\mathcal{O}}\left({\epsilon^{-3}}\right)$とする。
我々は,MDPの弱勾配支配特性と,批判的推定における誤差のユニークな解析を用いて,この結果を実現する。
The current state-of-the-art theoretical analysis of Actor-Critic (AC) algorithms significantly lags in addressing the practical aspects of AC implementations. This crucial gap needs bridging to bring the analysis in line with practical implementations of AC. To address this, we advocate for considering the MMCLG criteria: \textbf{M}ulti-layer neural network parametrization for actor/critic, \textbf{M}arkovian sampling, \textbf{C}ontinuous state-action spaces, the performance of the \textbf{L}ast iterate, and \textbf{G}lobal optimality. These aspects are practically significant and have been largely overlooked in existing theoretical analyses of AC algorithms. In this work, we address these gaps by providing the first comprehensive theoretical analysis of AC algorithms that encompasses all five crucial practical aspects (covers MMCLG criteria). We establish global convergence sample complexity bounds of $\tilde{\mathcal{O}}\left({\epsilon^{-3}}\right)$. We achieve this result through our novel use of the weak gradient domination property of MDP's and our unique analysis of the error in critic estimation. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# 財務報告における説明可能なリスク分類
Explainable Risk Classification in Financial Reports ( http://arxiv.org/abs/2405.01881v2 ) ライセンス: Link先を確認 | Xue Wen Tan, Stanley Kok, | (参考訳) 米国内の上場企業はすべて、同社の豊富な情報を含む年間10Kの財務報告を提出する必要がある。
本稿では、FinBERT-XRCと呼ばれる10-Kのレポートを入力として、関連する企業の再帰変動リスクを自動的に評価する、説明可能なディープラーニングモデルを提案する。
従来のシステムとは対照的に,提案モデルでは,単語,文,コーパスの3段階の分類決定について,同時に説明を行った。
これにより、エンドユーザーに予測の包括的解釈を提供する。
これは、アルゴリズム予測の透明性と説明責任が意思決定プロセスへの応用において重要な役割を果たす金融分野において特に重要である。
新たな解釈可能性とは別に、我々のモデルは6年間にわたる10-Kレポートの大規模な実世界のデータセットの実験において、最先端の予測精度を上回ります。
Every publicly traded company in the US is required to file an annual 10-K financial report, which contains a wealth of information about the company. In this paper, we propose an explainable deep-learning model, called FinBERT-XRC, that takes a 10-K report as input, and automatically assesses the post-event return volatility risk of its associated company. In contrast to previous systems, our proposed model simultaneously offers explanations of its classification decision at three different levels: the word, sentence, and corpus levels. By doing so, our model provides a comprehensive interpretation of its prediction to end users. This is particularly important in financial domains, where the transparency and accountability of algorithmic predictions play a vital role in their application to decision-making processes. Aside from its novel interpretability, our model surpasses the state of the art in predictive accuracy in experiments on a large real-world dataset of 10-K reports spanning six years. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# Got Root? Linux Priv-Escベンチマーク
Got Root? A Linux Priv-Esc Benchmark ( http://arxiv.org/abs/2405.02106v2 ) ライセンス: Link先を確認 | Andreas Happe, Jürgen Cito, | (参考訳) Linuxシステムは、現代のコンピューティング環境のインフラに不可欠なものであり、不正アクセスを防ぐために堅牢なセキュリティ対策を必要とする。
プリビレージエスカレーション攻撃は重大な脅威であり、攻撃者は通常、最初の低特権アカウントから全権限のルートアカウントに特権を昇格させることができる。
脆弱性のあるシステムのベンチマークセットは、人間と自動ツールの両方が行う特権エスカレーション手法の有効性を評価する上で非常に重要である。
彼らの振る舞いを分析することで、ディフェンダーは信頼されたLinuxシステムをより強化し、インフラストラクチャを破壊的な攻撃から保護することができる。
このギャップに対処するため、我々はLinuxの特権エスカレーションのための包括的なベンチマークを開発した。
これは、人間と合成アクターのパフォーマンスを評価し比較するための標準化されたプラットフォームを提供する。
Linux systems are integral to the infrastructure of modern computing environments, necessitating robust security measures to prevent unauthorized access. Privilege escalation attacks represent a significant threat, typically allowing attackers to elevate their privileges from an initial low-privilege account to the all-powerful root account. A benchmark set of vulnerable systems is of high importance to evaluate the effectiveness of privilege-escalation techniques performed by both humans and automated tooling. Analyzing their behavior allows defenders to better fortify their entrusted Linux systems and thus protect their infrastructure from potentially devastating attacks. To address this gap, we developed a comprehensive benchmark for Linux privilege escalation. It provides a standardized platform to evaluate and compare the performance of human and synthetic actors, e.g., hacking scripts or automated tooling. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# 中国のオープンソースデータセットにおけるLLMベースのASRの可能性
Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets ( http://arxiv.org/abs/2405.02132v2 ) ライセンス: Link先を確認 | Xuelong Geng, Tianyi Xu, Kun Wei, Bingshen Mu, Hongfei Xue, He Wang, Yangze Li, Pengcheng Guo, Yuhang Dai, Longhao Li, Mingchen Shao, Lei Xie, | (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにおいて非並列効果を示し、自動音声認識(ASR)とLLMを統合することが主流となっている。
この勢いを生かして、我々の研究は、このパラダイムを大規模なオープンソースの中国のデータセットで詳細に検討する。
具体的には,言語基盤エンコーダ-LLM ASRパラダイムの文脈において,音声エンコーダ,LLM,およびプロジェクタモジュールの様々な構成の影響を評価することを目的とする。
さらに,モデルが聴覚情報とテキスト情報を整合させる能力を高めるために,3段階の学習手法を導入する。
このアプローチの実装は、ASRコンポーネントの戦略的統合と並行して、AISHELL-1、Test_Net、Test_Meetingテストセット上でのSOTAパフォーマンスを実現しました。
我々の分析は,LLMに基づくAIRシステムにおける将来の研究の実証的基盤を示し,中国のデータセットを用いた性能最適化に関する洞察を提供する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、再現可能な研究を促進するためにトレーニング済みのモデルとトレーニングログを公開します。
Large Language Models (LLMs) have demonstrated unparalleled effectiveness in various NLP tasks, and integrating LLMs with automatic speech recognition (ASR) is becoming a mainstream paradigm. Building upon this momentum, our research delves into an in-depth examination of this paradigm on a large open-source Chinese dataset. Specifically, our research aims to evaluate the impact of various configurations of speech encoders, LLMs, and projector modules in the context of the speech foundation encoder-LLM ASR paradigm. Furthermore, we introduce a three-stage training approach, expressly developed to enhance the model's ability to align auditory and textual information. The implementation of this approach, alongside the strategic integration of ASR components, enabled us to achieve the SOTA performance on the AISHELL-1, Test_Net, and Test_Meeting test sets. Our analysis presents an empirical foundation for future research in LLM-based ASR systems and offers insights into optimizing performance using Chinese datasets. We will publicly release all scripts used for data preparation, training, inference, and scoring, as well as pre-trained models and training logs to promote reproducible research. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |
# 大規模事前学習モデルの活用による学習不要なディープフェイク音声認識
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models ( http://arxiv.org/abs/2405.02179v2 ) ライセンス: Link先を確認 | Alessandro Pianese, Davide Cozzolino, Giovanni Poggi, Luisa Verdoliva, | (参考訳) 一般化は現在のオーディオディープフェイク検出器の主要な問題であり、アウト・オブ・ディストリビューションデータに対する信頼性の高い結果の提供に苦慮している。
より正確な合成法が開発されるスピードを考えると、訓練されていないデータでもうまく機能する手法を設計することが非常に重要である。
本稿では,音声深度検出のための大規模事前学習モデルの可能性について検討する。
この目的のために、話者検証フレームワークで検出問題を修正し、テスト中の音声サンプルとクレームIDの音声とのミスマッチにより偽音声を露呈する。
このパラダイムでは、訓練に偽の音声サンプルは不要であり、ルートにおける生成方法とのリンクを切断し、完全な一般化能力を確保する。
機能は汎用的な大規模な事前訓練モデルによって抽出され、特定の偽検出や話者検証データセットのトレーニングや微調整は不要である。
検出時には、テスト中のアイデンティティの限定された音声断片のみが必要となる。
コミュニティに広く普及しているいくつかのデータセットの実験では、事前学習されたモデルに基づく検出器は優れた性能を示し、強力な一般化能力を示し、分散データにおける教師付き手法に匹敵し、分布外データでそれらを克服している。
Generalization is a main issue for current audio deepfake detectors, which struggle to provide reliable results on out-of-distribution data. Given the speed at which more and more accurate synthesis methods are developed, it is very important to design techniques that work well also on data they were not trained for. In this paper we study the potential of large-scale pre-trained models for audio deepfake detection, with special focus on generalization ability. To this end, the detection problem is reformulated in a speaker verification framework and fake audios are exposed by the mismatch between the voice sample under test and the voice of the claimed identity. With this paradigm, no fake speech sample is necessary in training, cutting off any link with the generation method at the root, and ensuring full generalization ability. Features are extracted by general-purpose large pre-trained models, with no need for training or fine-tuning on specific fake detection or speaker verification datasets. At detection time only a limited set of voice fragments of the identity under test is required. Experiments on several datasets widespread in the community show that detectors based on pre-trained models achieve excellent performance and show strong generalization ability, rivaling supervised methods on in-distribution data and largely overcoming them on out-of-distribution data. | 翻訳日:2024-05-07 12:26:52 公開日:2024-05-06 |