このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240101となっている論文です。

PDF登録状況(公開日: 20240101)

TitleAuthorsAbstract論文公表日・翻訳日
# TBDD: IoTにおけるブロックチェーンシャーディングのための新しい信頼ベースのDRL駆動フレームワーク

TBDD: A New Trust-based, DRL-driven Framework for Blockchain Sharding in IoT ( http://arxiv.org/abs/2401.00632v1 )

ライセンス: Link先を確認
Zixu Zhang, Guangsheng Yu, Caijun Sun, Xu Wang, Ying Wang, Ming Zhang, Wei Ni, Ren Ping Liu, Andrew Reeves, Nektarios Georgalas, (参考訳) シャードブロックチェーンとIoTを統合することで、信頼性の問題と最適化されたデータフローに対するソリューションが提示される。 Shardingは、ノードを並列シャードに分割することで、ブロックチェーンのスケーラビリティを向上するが、不正なノードがシャードをターゲットとしてブロックチェーン全体を破壊する攻撃に対して、脆弱性がある。 このようなシステムでは、セキュリティとスケーラビリティのバランスをとることが重要です。 Deep Reinforcement Learning (DRL) は動的で複雑なシステムと多次元の最適化を扱う。 本稿では,信頼に基づくDRL駆動型(\textsc{TbDd})フレームワークを導入し,ネットワークセキュリティを維持しながらノード割り当てを動的に調整し,スループットを向上する。 包括的信頼評価機構により、 \textsc{TbDd} はノードタイプを識別し、潜在的な脅威に対してターゲットリシャーディングを実行する。 このモデルは不完全なノードに対する耐性を最大化し、ノードの移動頻度を最適化し、シャード内のノードの分布を保証し、シャーディングリスクのバランスをとる。 厳密な評価は、従来のランダム、コミュニティ、信頼に基づくシャーディング手法よりも、シャードリスク均衡とクロスシャードトランザクションの削減において、textsc{TbDd}の優位性を証明している。

Integrating sharded blockchain with IoT presents a solution for trust issues and optimized data flow. Sharding boosts blockchain scalability by dividing its nodes into parallel shards, yet it's vulnerable to the $1\%$ attacks where dishonest nodes target a shard to corrupt the entire blockchain. Balancing security with scalability is pivotal for such systems. Deep Reinforcement Learning (DRL) adeptly handles dynamic, complex systems and multi-dimensional optimization. This paper introduces a Trust-based and DRL-driven (\textsc{TbDd}) framework, crafted to counter shard collusion risks and dynamically adjust node allocation, enhancing throughput while maintaining network security. With a comprehensive trust evaluation mechanism, \textsc{TbDd} discerns node types and performs targeted resharding against potential threats. The model maximizes tolerance for dishonest nodes, optimizes node movement frequency, ensures even node distribution in shards, and balances sharding risks. Rigorous evaluations prove \textsc{TbDd}'s superiority over conventional random-, community-, and trust-based sharding methods in shard risk equilibrium and reducing cross-shard transactions.
翻訳日:2024-03-25 12:57:08 公開日:2024-01-01
# HexE -- Puzzle と Timestamp を用いた音声チャットにおける音声コンテンツのセキュア化

HexE -- Securing Audio Contents in Voice Chat using Puzzle and Timestamp ( http://arxiv.org/abs/2401.00765v1 )

ライセンス: Link先を確認
Aadhitya A, (参考訳) 暗号は情報保護の研究である。 内容の整理や置換によって情報を揺るがす物理過程であり、誰でも理解することが困難になる。 今日の世界では、通常のブラウジングから重要な支払いトランザクションの実行に至るまで、セキュリティが日々の生活の必然的な部分になっています。 ハッカーは、私たちが日々行っているアプリやWebサイトのセキュリティを破り、貴重な情報を救い出すために、無限に働きます。 このため、ユーザに影響を与える違法な活動が数多く行われている。 そのような違法行為の1つは、2人のユーザー間の音声通信をタップすることである。 暗号化されていない場合は、ユーザ間の通信が損なわれ、問題が発生する。 この行為を防ぐ方法の1つは、レシーバーが復号する有効な鍵を持っていなければ、コンテンツが改ざんされないように、オーディオを暗号化することである。 HexE」と呼ばれる提案された解決策は、ファイルヘッダを操作せずに音声ファイルを暗号化して復号するパズルベースのアルゴリズムを作成することを目的としている。 このアルゴリズムは、送信側と受信側の両方で受け入れられるNxN SuDoKuベースのパズルで動作する。 イベントのタイムスタンプ(UNIXベース)を使用して、パズルからのグリッドが選択され、暗号化と復号の両方のキーとして機能する。 タイムスタンプがわずかに調整された場合、プロセスは復号化時に失敗し、機密性が保証される。 オーディオファイルをセキュアにするための別のアプローチは、暗号化されたオーディオを格納するパズルアルゴリズムと共にIPFS(Inter Planetary File System)を実装することである。 これにより、オーディオファイルが保護される。

Cryptography is the study of securing information. It is the physical process that scrambles the information by rearrangement and substitution of content, so that it becomes difficult for anyone to understand. In today's world, security has become an inevitable part of our day-to-day life, right from normal browsing to performing critical payment transactions. Hackers work endlessly to break the security present in the apps/websites on which we perform day-to-day operations and salvage valuable information. Because of this, many illegal activities have taken place which affect the user. One such illegal activity is tapping the voice communication between two users. If left unencrypted, the communication between the users is compromised, thereby causing issues. One way to prevent this act is to encrypt the audio in that the contents cannot have tampered with unless the receiver has the valid key to decrypt it. The proposed solution termed "HexE" aims to create a puzzle-based algorithm which would encrypt and decrypt the audio files without manipulating the file header, thus securing the contents. The algorithm works on an NxN SuDoKu-based puzzle which is accepted both by the sender and receiver. Using the timestamp of the event (UNIX based), a grid from the puzzle is chosen which in turn will act as the key for both encryption and decryption. If the timestamp is slightly adjusted, the process will end up in failure during decryption, thus ensuring confidentiality. Another approach to secure the audio files is to implement IPFS (Inter Planetary File System) alongside the puzzle algorithm in which the encrypted audio is stored on it and the receiver can fetch the audio provided if the valid IPFS Hash of the file is present. In this way, the audio file is secured.
翻訳日:2024-03-25 12:57:08 公開日:2024-01-01
# 拡張性プロセッサの自動合成命令セット改善のためのアルゴリズム

Algorithms for Improving the Automatically Synthesized Instruction Set of an Extensible Processor ( http://arxiv.org/abs/2401.00772v1 )

ライセンス: Link先を確認
Peter Sovietov, (参考訳) 拡張可能な命令セットを持つプロセッサは、今日では様々なドメインのプログラム可能なハードウェアアクセラレータとしてよく使われている。 RISC-Vや他の拡張可能なプロセッサアーキテクチャを拡張する際には、特別な命令を設計するタスクが発生する。 このタスクは、命令合成アルゴリズムを用いて自動的に解決できる。 本稿では、クラスタ化された合成命令(共通操作クラスタリングアルゴリズム)内のプログラムの共通操作(複数の操作によって消費される結果)を再計算し、冗長な(他の命令と等価な)合成命令(仮定関数アルゴリズム)を同定することにより、既知のアプローチに加えて使用可能なアルゴリズムを検討し、合成命令セットを改善する。 開発したアルゴリズムの実験的評価を,暗号と3次元グラフィックの領域で行った。 Magma 暗号テストでは、共通演算クラスタリングアルゴリズムはコンパイルされたコードのサイズを9%削減し、置換関数アルゴリズムは合成された命令セットの拡張サイズを2倍削減できる。 AES暗号テストでは、共通演算クラスタリングアルゴリズムはコンパイルされたコードのサイズを10%削減し、置換関数アルゴリズムは合成された命令セットの拡張サイズを2.5倍削減できる。 最後に,Volume Ray-Castingテストからの命令セット拡張に対して,代入関数アルゴリズムを用いることで,機能を失うことなく,問題固有の命令拡張セットのサイズを5から2に減らすことができる。

Processors with extensible instruction sets are often used today as programmable hardware accelerators for various domains. When extending RISC-V and other similar extensible processor architectures, the task of designing specialized instructions arises. This task can be solved automatically by using instruction synthesis algorithms. In this paper, we consider algorithms that can be used in addition to the known approaches and improve the synthesized instruction sets by recomputing common operations (the result of which is consumed by multiple operations) of a program inside clustered synthesized instructions (common operations clustering algorithm), and by identifying redundant (which have equivalents among the other instructions) synthesized instructions (subsuming functions algorithm). Experimental evaluations of the developed algorithms are presented for the tests from the domains of cryptography and three-dimensional graphics. For Magma cipher test, the common operations clustering algorithm allows reducing the size of the compiled code by 9%, and the subsuming functions algorithm allows reducing the synthesized instruction set extension size by 2 times. For AES cipher test, the common operations clustering algorithm allows reducing the size of the compiled code by 10%, and the subsuming functions algorithm allows reducing the synthesized instruction set extension size by 2.5 times. Finally, for the instruction set extension from Volume Ray-Casting test, the additional use of subsuming functions algorithm allows reducing problem-specific instruction extension set size from 5 to only 2 instructions without losing its functionality.
翻訳日:2024-03-25 12:57:08 公開日:2024-01-01
# IoTベースのクラウドシステムにおけるプライバシ保護データ: AI統合に関する総合的な調査

Privacy-Preserving Data in IoT-based Cloud Systems: A Comprehensive Survey with AI Integration ( http://arxiv.org/abs/2401.00794v1 )

ライセンス: Link先を確認
D. Dhinakaran, S. M. Udhaya Sankar, D. Selvaraj, S. Edwin Raja, (参考訳) モノのインターネット(Internet of Things)デバイスとクラウドコンピューティングの統合が増加するにつれ、プライバシ保護の最も重要な重要性が目の前に浮かび上がっている。 本調査では,IoTとクラウドシステムの動的交点におけるプライバシ問題の状況について,慎重に調査する。 包括的な文献レビューは、既存の研究を合成し、鍵となる課題を照明し、プライバシー保護技術の新たなトレンドを識別する。 多様なアプローチの分類は、暗号化技術、匿名化戦略、アクセス制御機構、人工知能の急成長する統合に関する微妙な理解を明らかにしている。 注目すべきトレンドとしては、動的匿名化のための機械学習の注入、セキュアな計算のためのホモモルフィック暗号化、AI駆動のアクセス制御システムなどがある。 この調査の結論は、IoTベースのクラウド環境内の機密データをセキュアにするための多面的戦略を理解するための基礎となる、全体像に寄与する。 この調査から得られた洞察は、IoTとクラウドコンピューティングの進化の展望の中で、プライバシー保護の複雑な領域をナビゲートする研究者、実践者、政策立案者に貴重なリソースを提供する。

As the integration of Internet of Things devices with cloud computing proliferates, the paramount importance of privacy preservation comes to the forefront. This survey paper meticulously explores the landscape of privacy issues in the dynamic intersection of IoT and cloud systems. The comprehensive literature review synthesizes existing research, illuminating key challenges and discerning emerging trends in privacy preserving techniques. The categorization of diverse approaches unveils a nuanced understanding of encryption techniques, anonymization strategies, access control mechanisms, and the burgeoning integration of artificial intelligence. Notable trends include the infusion of machine learning for dynamic anonymization, homomorphic encryption for secure computation, and AI-driven access control systems. The culmination of this survey contributes a holistic view, laying the groundwork for understanding the multifaceted strategies employed in securing sensitive data within IoT-based cloud environments. The insights garnered from this survey provide a valuable resource for researchers, practitioners, and policymakers navigating the complex terrain of privacy preservation in the evolving landscape of IoT and cloud computing
翻訳日:2024-03-25 12:57:08 公開日:2024-01-01
# 機械学習を用いた拡散MRI

Diffusion MRI with Machine Learning ( http://arxiv.org/abs/2402.00019v1 )

ライセンス: Link先を確認
Davood Karimi(参考訳) 拡散強調磁気共鳴イメージング(dMRI)は、脳の微細構造と構造的接続性の非侵襲的な評価のようなユニークな機能を提供する。 しかし,臨床的,科学的目的で有用な情報を抽出するためにdMRIデータを解析することは困難である。 dMRI測定は、しばしば強いノイズやアーティファクトに悩まされ、通常、データには高いセッション間およびスキャン間不均一性があり、脳構造におけるかなりのオブジェクト間変動があり、測定と興味の現象の関係は非常に複雑である。 近年,dMRI解析における機械学習手法の利用が増加している。 本書は, マイクロ構造マッピング, トラクトグラフィ, ホワイトマタートラクト解析, データ前処理, 調和化に対処した手法に着目し, これらの取り組みを評価することを目的とする。 本稿では,既存手法の主な発見,強み,弱点を概説し,今後の研究課題を提案する。 機械学習は、dMRI分析の難しい課題に取り組むのに非常に適しているかもしれない。 しかし、これが起こるためには、既存のメソッドと重大な未解決の問題に対処する必要がある。 評価プラクティスの不足、豊富なトレーニングデータセットと検証ベンチマークの欠如、モデルの一般化性、信頼性、説明可能性に関する懸念などが含まれている。

Diffusion-weighted magnetic resonance imaging (dMRI) offers unique capabilities such as noninvasive assessment of brain's micro-structure and structural connectivity. However, analyzing the dMRI data to extract useful information for clinical and scientific purposes is challenging. The dMRI measurements often suffer from strong noise and artifacts, there is usually high inter-session and inter-scanner heterogeneity in the data and considerable inter-subject variability in brain structure, and the relationship between measurements and the phenomena of interest can be highly complex. Recent years have witnessed increasing use of machine learning methods for dMRI analysis. This manuscript aims to assess these efforts, with a focus on methods that have addressed micro-structure mapping, tractography, white matter tract analysis, as well as data preprocessing and harmonization. We summarize the main findings, strengths, and weaknesses of the existing methods and suggest topics for future research. We find that machine learning may be exceptionally suited to tackle some of the difficult tasks in dMRI analysis. However, for this to happen, several shortcomings of existing methods and critical unresolved issues need to be addressed. These include deficient evaluation practices, lack of rich training datasets and validation benchmarks, as well as model generalizability, reliability, and explainability concerns.
翻訳日:2024-02-04 05:21:20 公開日:2024-01-01
# ニューラルネットワークのヌル空間特性と画像ステガノグラフィへの応用

Null Space Properties of Neural Networks with Applications to Image Steganography ( http://arxiv.org/abs/2401.10262v1 )

ライセンス: Link先を確認
Xiang Li, Kevin M. Short(参考訳) 本稿ではニューラルネットワークのヌル空間特性について考察する。 線形写像から非線形写像へのヌル空間の定義を拡張し、ニューラルネットワークにおけるヌル空間の存在について議論する。 与えられたニューラルネットワークのヌルスペースは、最終的な予測に寄与しない入力データの部分を教えてくれるので、ニューラルネットワークを騙すことができます。 これは、ニューラルネットワークが悪用できる固有の弱点を明らかにする。 ここで述べる応用の一つは、画像ステガノグラフィーの方法である。 MNISTのような画像データセットの実験を通して、ニューラルネットワークが選択した隠れ画像クラスを選択することを強制するために、ヌル空間コンポーネントを使用することが可能であることを示した。 結論は、人間のビューアが見るものと、ニューラルネットワークが実際に予測するために使っている画像の一部を比較することで、ニューラルネットワークの‘sees’が私たちが期待するものとは全く異なることを示す。

This paper explores the null space properties of neural networks. We extend the null space definition from linear to nonlinear maps and discuss the presence of a null space in neural networks. The null space of a given neural network can tell us the part of the input data that makes no contribution to the final prediction so that we can use it to trick the neural network. This reveals an inherent weakness in neural networks that can be exploited. One application described here leads to a method of image steganography. Through experiments on image datasets such as MNIST, we show that we can use null space components to force the neural network to choose a selected hidden image class, even though the overall image can be made to look like a completely different image. We conclude by showing comparisons between what a human viewer would see, and the part of the image that the neural network is actually using to make predictions and, hence, show that what the neural network ``sees'' is completely different than what we would expect.
翻訳日:2024-01-28 16:29:56 公開日:2024-01-01
# 大規模言語モデルにおける高速かつ最適ウェイト更新

Fast and Optimal Weight Update for Pruned Large Language Models ( http://arxiv.org/abs/2401.02938v1 )

ライセンス: Link先を確認
Vladim\'ir Bo\v{z}a(参考訳) 大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため難しい作業である。 主な難点は刈り取り後にモデルを微調整することであり、重みを落として失われた性能を回復する必要がある。 最近のアプローチでは、微調整を完全に無視し、効率的な刈り取り基準にフォーカスするか、各層の挙動を保ちながら層単位での重み付けを試みている。 しかし、レイヤ単位での重み付け更新であってもllmsにはコストがかかり、以前の作業は様々な近似を頼りにしている。 本稿では,乗算器の交互方向法(admm)に基づいて,プルーニング層に対する高速かつ最適重み更新アルゴリズムを提案する。 簡単な反復型プルーニングマスク選択と組み合わせて,多種多様なLLMにおける最先端プルーニング性能を実現する。 コードはhttps://github.com/fmfi-compbio/admm-pruningで入手できる。

Pruning large language models (LLMs) is a challenging task due to their enormous size. The primary difficulty is fine-tuning the model after pruning, which is needed to recover the lost performance caused by dropping weights. Recent approaches have either ignored fine-tuning entirely, focusing on efficient pruning criteria, or attempted layer-wise weight updates, preserving the behavior of each layer. However, even layer-wise weight updates can be costly for LLMs, and previous works have resorted to various approximations. In our paper, we propose a fast and optimal weight update algorithm for pruned layers based on the Alternating Direction Method of Multipliers (ADMM). Coupled with a simple iterative pruning mask selection, our algorithm achieves state-of-the-art pruning performance across a wide range of LLMs. Code is available at https://github.com/fmfi-compbio/admm-pruning.
翻訳日:2024-01-15 09:44:36 公開日:2024-01-01
# メンタルヘルスにおける大規模言語モデル:スコーピング・レビュー

Large Language Models in Mental Health Care: a Scoping Review ( http://arxiv.org/abs/2401.02984v1 )

ライセンス: Link先を確認
Yining Hua, Fenglin Liu, Kailai Yang, Zehan Li, Yi-han Sheu, Peilin Zhou, Lauren V. Moran, Sophia Ananiadou, Andrew Beam(参考訳) 目的: 大規模言語モデル(LLM)の利用の増加は、メンタルヘルスの文脈における応用と結果の包括的なレビューの必要性を刺激する。 このスコーピングレビューは、精神医療におけるLLMの既存の開発と応用を批判的に分析することを目的としており、その成功を強調し、これらの専門分野における課題と限界を特定する。 Materials and Methods: 2023年11月に6つのデータベース(PubMed, Web of Science, Google Scholar, arXiv, medRxiv, PsyArXiv)を使用して、Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA)ガイドラインの2020年バージョンに従って、広範な文献検索が行われた。 最初は313の出版物が同定され、調査対象基準を適用した後、最終審査のために34の出版物が選択された。 結果: 精神医療におけるllmの応用範囲は, 診断, 治療, 患者の関与度向上など多様であった。 主な課題は、データ可用性と信頼性、精神状態の微妙な処理、効果的な評価方法である。 精度とアクセシビリティの改善は成功したものの、臨床応用可能性と倫理的考察のギャップは明らかであり、堅牢なデータの必要性、標準化された評価、学際的な協力の必要性が指摘された。 結論: LLMは精神保健の進歩に有望な可能性を示し, 診断, 患者支援に応用した。 継続的な進歩は、フレームワークの強化、厳密なデータセットの開発、技術的洗練、倫理的統合、精神医療におけるllmの効果的かつ安全に適用することに焦点を当てた、協力的で多分野の努力に依存している。

Objective: The growing use of large language models (LLMs) stimulates a need for a comprehensive review of their applications and outcomes in mental health care contexts. This scoping review aims to critically analyze the existing development and applications of LLMs in mental health care, highlighting their successes and identifying their challenges and limitations in these specialized fields. Materials and Methods: A broad literature search was conducted in November 2023 using six databases (PubMed, Web of Science, Google Scholar, arXiv, medRxiv, and PsyArXiv) following the 2020 version of the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) guidelines. A total of 313 publications were initially identified, and after applying the study inclusion criteria, 34 publications were selected for the final review. Results: We identified diverse applications of LLMs in mental health care, including diagnosis, therapy, patient engagement enhancement, etc. Key challenges include data availability and reliability, nuanced handling of mental states, and effective evaluation methods. Despite successes in accuracy and accessibility improvement, gaps in clinical applicability and ethical considerations were evident, pointing to the need for robust data, standardized evaluations, and interdisciplinary collaboration. Conclusion: LLMs show promising potential in advancing mental health care, with applications in diagnostics, and patient support. Continued advancements depend on collaborative, multidisciplinary efforts focused on framework enhancement, rigorous dataset development, technological refinement, and ethical integration to ensure the effective and safe application of LLMs in mental health care.
翻訳日:2024-01-15 09:34:18 公開日:2024-01-01
# BIBench: 大規模言語モデルのベンチマークデータ分析知識

BIBench: Benchmarking Data Analysis Knowledge of Large Language Models ( http://arxiv.org/abs/2401.02982v1 )

ライセンス: Link先を確認
Shu Liu, Shangqing Zhao, Chenghao Jia, Xinlin Zhuang, Zhaoguang Long, Man Lan(参考訳) 大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。 しかし、データ分析の専門分野、特にデータ駆動思考に焦点をあてた能力と信頼性は依然として不確実である。 このギャップを埋めるために、ビジネスインテリジェンス(BI)のコンテキスト内でLLMのデータ分析能力を評価するために設計された包括的なベンチマークであるBIBenchを紹介する。 BIBench は3次元にわたる LLM を評価する。 1) 基礎知識,モデルの数値的推論及び金融概念への親密性の評価 2)bi知識応用は,テキスト情報を迅速に理解し,複数の視点から分析質問を生成するモデルの能力を決定する。 3)bi技術スキル,実世界のデータ分析課題に対処するためのモデルによる技術知識の利用の検討。 BIBenchは11のサブタスクで構成され、分類、抽出、生成の3つのカテゴリにまたがる。 さらに、100万以上のデータポイントを持つドメイン固有のデータセットであるBIChatを、微調整LDM用に開発しました。 BIBenchmark、BIChat、および評価スクリプトを \url{https://github.com/cubenlp/BIBench} でリリースします。 本ベンチマークは,データ解析分野におけるLCMの深度分析とLCMの進歩の促進を図ることを目的とする。

Large Language Models (LLMs) have demonstrated impressive capabilities across a wide range of tasks. However, their proficiency and reliability in the specialized domain of Data Analysis, particularly with a focus on data-driven thinking, remain uncertain. To bridge this gap, we introduce BIBench, a comprehensive benchmark designed to evaluate the data analysis capabilities of LLMs within the context of Business Intelligence (BI). BIBench assesses LLMs across three dimensions: 1) BI foundational knowledge, evaluating the models' numerical reasoning and familiarity with financial concepts; 2) BI knowledge application, determining the models' ability to quickly comprehend textual information and generate analysis questions from multiple views; and 3) BI technical skills, examining the models' use of technical knowledge to address real-world data analysis challenges. BIBench comprises 11 sub-tasks, spanning three categories of task types: classification, extraction, and generation. Additionally, we've developed BIChat, a domain-specific dataset with over a million data points, to fine-tune LLMs. We will release BIBenchmark, BIChat, and the evaluation scripts at \url{https://github.com/cubenlp/BIBench}. This benchmark aims to provide a measure for in-depth analysis of LLM abilities and foster the advancement of LLMs in the field of data analysis.
翻訳日:2024-01-15 09:33:46 公開日:2024-01-01
# ドメイン固有LLMの微調整と利用法

Fine-tuning and Utilization Methods of Domain-specific LLMs ( http://arxiv.org/abs/2401.02981v1 )

ライセンス: Link先を確認
Cheonsu Jeong(参考訳) 近年のLLM(Pre-trained Large Language Models)のリリースは大きな注目を集めている。 本研究では,LLMの微調整と活用のアプローチ,LLMの動向,基礎モデル,ドメイン固有の事前学習手法について検討する。 金融セクターに焦点をあてて、データセットの選択、前処理、モデル選択、金融のLLM微調整に不可欠な考慮事項を詳述している。 本研究は,金融データの特異な特徴に対処し,ドメイン固有の語彙の構築と,セキュリティと規制の遵守について考察する。 LLMファインチューニングの実践的応用として,金融分野でのドメイン固有LLMの生成手順と実装について概説する。 株価予測、金融ニュースの感情分析、自動文書処理、調査、情報抽出、顧客サービス強化など様々な金融事例を例示する。 本研究は、金融分野におけるLLMの可能性を探り、限界を特定し、改善の方向性を提案し、今後の研究に有用な洞察を提供する。 最終的に、ビジネスにおける自然言語処理技術を進歩させ、業界全体での金融サービスにおける積極的にLLMの利用を示唆している。

Recent releases of pre-trained Large Language Models (LLMs) have gained considerable traction, yet research on fine-tuning and employing domain-specific LLMs remains scarce. This study investigates approaches for fine-tuning and leveraging domain-specific LLMs, highlighting trends in LLMs, foundational models, and methods for domain-specific pre-training. Focusing on the financial sector, it details dataset selection, preprocessing, model choice, and considerations crucial for LLM fine-tuning in finance. Addressing the unique characteristics of financial data, the study explores the construction of domain-specific vocabularies and considerations for security and regulatory compliance. In the practical application of LLM fine-tuning, the study outlines the procedure and implementation for generating domain-specific LLMs in finance. Various financial cases, including stock price prediction, sentiment analysis of financial news, automated document processing, research, information extraction, and customer service enhancement, are exemplified. The study explores the potential of LLMs in the financial domain, identifies limitations, and proposes directions for improvement, contributing valuable insights for future research. Ultimately, it advances natural language processing technology in business, suggesting proactive LLM utilization in financial services across industries.
翻訳日:2024-01-15 09:33:26 公開日:2024-01-01
# プロンプト工学から、ループの中の人間とのプロンプト科学へ

From Prompt Engineering to Prompt Science With Human in the Loop ( http://arxiv.org/abs/2401.04122v1 )

ライセンス: Link先を確認
Chirag Shah(参考訳) LLMが私たちの生活の様々な側面に進出するにつれ、LCMの使用に関する精査が増加するのは科学的研究である。 研究目的のデータの生成や分析にLLMを使うことが普及している。 しかし、そのようなアプリケーションがアドホックな決定とエンジニアリングのソリューションに満ちている場合、その研究、その発見、またはその研究に基づく将来にどのように影響するかを心配する必要があります。 研究にllmを使うには、もっと科学的アプローチが必要です。 より体系的なプロンプトの構築を支援するための活動はいくつかあるが、しばしば、十分な透明性、客観性、または厳密さで複製可能で一般化可能な知識を生成するよりも、望ましい結果を達成することに重点を置いている。 本稿では,質的手法によるコードブック構築に着想を得た新しい手法を提案する。 この手法は、ループ内の人間と多相検証プロセスを用いて、データ分析にLLMを適用するためのより体系的で客観的で信頼できる方法の基礎を定めている。 具体的には、一連の研究者が厳密なラベル付け、検討、文書化のプロセスを通じて、主観性を排除し、透明性と複製性を生成プロセスにもたらす方法を示す。 この方法論を実践する方法を示すために、一連の実験が行われた。

As LLMs make their way into many aspects of our lives, one place that warrants increased scrutiny with LLM usage is scientific research. Using LLMs for generating or analyzing data for research purposes is gaining popularity. But when such application is marred with ad-hoc decisions and engineering solutions, we need to be concerned about how it may affect that research, its findings, or any future works based on that research. We need a more scientific approach to using LLMs in our research. While there are several active efforts to support more systematic construction of prompts, they are often focused more on achieving desirable outcomes rather than producing replicable and generalizable knowledge with sufficient transparency, objectivity, or rigor. This article presents a new methodology inspired by codebook construction through qualitative methods to address that. Using humans in the loop and a multi-phase verification processes, this methodology lays a foundation for more systematic, objective, and trustworthy way of applying LLMs for analyzing data. Specifically, we show how a set of researchers can work through a rigorous process of labeling, deliberating, and documenting to remove subjectivity and bring transparency and replicability to prompt generation process. A set of experiments are presented to show how this methodology can be put in practice.
翻訳日:2024-01-15 09:22:40 公開日:2024-01-01
# 連続てんかん発作検出のための非閉塞的軽量補聴器システム

An Unobtrusive and Lightweight Ear-worn System for Continuous Epileptic Seizure Detection ( http://arxiv.org/abs/2401.05425v1 )

ライセンス: Link先を確認
Abdul Aziz, Nhat Pham, Neel Vora, Cody Reynolds, Jaime Lehnen, Pooja Venkatesh, Zhuoran Yao, Jay Harvey, Tam Vu, Kan Ding, and Phuc Nguyen(参考訳) てんかんは世界中で最も一般的な神経疾患の1つで、世界中で約5000万人に影響を及ぼす。 幸いなことに、てんかんを患っている人の70%は、適切に診断し治療すれば発作のない生活を送ることができ、発作の発症をモニターする信頼できる技術は、ランダムな発作発作の恐れに常に直面している患者の生活の質を向上させることができる。 頭皮をベースとした脳波検査は、てんかんを診断するための金の基準であるにもかかわらず、費用がかかり、入院が必要となり、熟練した専門家に手術を要求される。 本稿では,ユーザの耳の後ろからの生理的信号を測定することでてんかん発作の発症を検知する,新しい軽量で非閉塞的で社会的に許容される耳鳴システムearsdを提案する。 eardには、興味のある信号の収集と増幅、モーションアーティファクトや環境への影響によるノイズの除去、近くのコンピュータや携帯電話に無線でデータをストリーミングするカスタムビルトインセンシング、コンピューティング、通信pcbが含まれており、さらに処理するためにホストコンピュータにデータがアップロードされる。 発作研究に入院したてんかん発作患者を対象に,in-labおよびin-hospital試験を行った。 予備結果は、earsdは古典的な機械学習アルゴリズムだけで最大95.3%の精度で発作を検出できることを確認した。

Epilepsy is one of the most common neurological diseases globally, affecting around 50 million people worldwide. Fortunately, up to 70 percent of people with epilepsy could live seizure-free if properly diagnosed and treated, and a reliable technique to monitor the onset of seizures could improve the quality of life of patients who are constantly facing the fear of random seizure attacks. The scalp-based EEG test, despite being the gold standard for diagnosing epilepsy, is costly, necessitates hospitalization, demands skilled professionals for operation, and is discomforting for users. In this paper, we propose EarSD, a novel lightweight, unobtrusive, and socially acceptable ear-worn system to detect epileptic seizure onsets by measuring the physiological signals from behind the user's ears. EarSD includes an integrated custom-built sensing, computing, and communication PCB to collect and amplify the signals of interest, remove the noises caused by motion artifacts and environmental impacts, and stream the data wirelessly to the computer or mobile phone nearby, where data are uploaded to the host computer for further processing. We conducted both in-lab and in-hospital experiments with epileptic seizure patients who were hospitalized for seizure studies. The preliminary results confirm that EarSD can detect seizures with up to 95.3 percent accuracy by just using classical machine learning algorithms.
翻訳日:2024-01-15 08:22:38 公開日:2024-01-01
# unpaired medical image-text foundation modelに対するバックドア攻撃: medclipに関するパイロット研究

Backdoor Attack on Unpaired Medical Image-Text Foundation Models: A Pilot Study on MedCLIP ( http://arxiv.org/abs/2401.01911v1 )

ライセンス: Link先を確認
Ruinan Jin, Chun-Yin Huang, Chenyu You, Xiaoxiao Li(参考訳) 近年,基礎モデル (FM) は深層学習領域における基礎的な進歩としての役割を固めている。 膨大なデータセットから複雑なパターンを抽出することにより、これらのモデルは、広範囲の計算資源を必要とせずに、下流タスクのスペクトルにわたる最先端の結果を一貫して達成する。 特に、視覚言語によるコントラスト学習ベースの医療fmである medclip は、非ペア画像テキストトレーニングを用いて設計されている。 医療領域では、データを増幅するための未経験のトレーニングが頻繁に実施されているが、このアプローチに関連する潜在的なセキュリティ上の懸念の探索は、その実践的使用に追随していない。 特に、未経験訓練に固有の増強能力は、マイナーなラベルの相違が重要なモデル偏差をもたらすことを示唆している。 本研究では,このラベルの不一致をバックドア攻撃問題とみなす。 FMサプライチェーン全体の医療用FMへの影響をさらに分析する。 医療用FMのエンブレマであるMedCLIPを中心に,未熟な戦略を用いて評価を行った。 我々は、未ペア画像テキストマッチング(BadMatch)によるMedCLIPの脆弱性の探索から始める。 BadMatchは、不正ラベル付きデータの控えめなセットを使用して実現される。 その後,BadDist支援BadMatchによるMedCLIPのコントラスト学習を妨害し,クリーンデータと有毒データの埋め込みにBad-Distanceを導入する。 さらに、BadMatchやBadDistと組み合わせることで、攻撃パイプラインはさまざまなモデル設計、データセット、トリガーにわたるバックドアアタックを一貫して回避する。 また,医療用FMのサプライチェーンに潜伏する脅威を検出するには,現在の防衛戦略が不十分であることが明らかとなった。

In recent years, foundation models (FMs) have solidified their role as cornerstone advancements in the deep learning domain. By extracting intricate patterns from vast datasets, these models consistently achieve state-of-the-art results across a spectrum of downstream tasks, all without necessitating extensive computational resources. Notably, MedCLIP, a vision-language contrastive learning-based medical FM, has been designed using unpaired image-text training. While the medical domain has often adopted unpaired training to amplify data, the exploration of potential security concerns linked to this approach hasn't kept pace with its practical usage. Notably, the augmentation capabilities inherent in unpaired training also indicate that minor label discrepancies can result in significant model deviations. In this study, we frame this label discrepancy as a backdoor attack problem. We further analyze its impact on medical FMs throughout the FM supply chain. Our evaluation primarily revolves around MedCLIP, emblematic of medical FM employing the unpaired strategy. We begin with an exploration of vulnerabilities in MedCLIP stemming from unpaired image-text matching, termed BadMatch. BadMatch is achieved using a modest set of wrongly labeled data. Subsequently, we disrupt MedCLIP's contrastive learning through BadDist-assisted BadMatch by introducing a Bad-Distance between the embeddings of clean and poisoned data. Additionally, combined with BadMatch and BadDist, the attacking pipeline consistently fends off backdoor assaults across diverse model designs, datasets, and triggers. Also, our findings reveal that current defense strategies are insufficient in detecting these latent threats in medical FMs' supply chains.
翻訳日:2024-01-05 16:28:41 公開日:2024-01-01
# ViCrop: マルチモーダル大言語モデルを用いたゼロショット視覚質問応答における小さな視覚的詳細認識

ViCrop: Perceiving Small Visual Details in Zero-shot Visual Question Answering with Multimodal Large Language Models ( http://arxiv.org/abs/2310.16033v2 )

ライセンス: Link先を確認
Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski(参考訳) マルチモーダル大規模言語モデル(MLLM)は、最近、様々な下流アプリケーションやドメインに影響を及ぼす基本的なタスクである視覚的質問応答(VQA)において、ゼロショットの精度を約束している。 これらのモデルが広範に使用される可能性を考えると、異なる画像と質問特性を扱う際の制限を検討することが重要である。 本研究では,MLLMが画像の構成要素だけでなく細部も知覚できるかどうかを検討する。 特に、視覚的質問に対する回答におけるゼロショット精度は、質問に関連する視覚的主題のサイズに非常に敏感であり、サイズに応じて45.91\%まで低下することを示す。 さらに,この効果は,人間の視覚のトリッピングが,そのサイズに対する感受性を著しく低下させる可能性があることを観察することによる因果性を示す。 人間の収穫の有用性を増大させるため,自動収穫技術を用いてMLLMのゼロショットVQAを向上する一般的なフレームワークであるViCropを提案する。 所与のMLLM自体の外部ローカライゼーションモデルまたは決定プロセスを利用する5種類のViCropを構築した。 その結果、ViCropは、さまざまなVQAデータセット間でMLLMのゼロショット精度を改善し、例えば、TextVQAテストセットにおいて、BLIP2-T5のパフォーマンスを32.23\%$で向上させることがわかった。 MLLMの動作のさらなる調査を容易にするため,我々のコードは公開されている。

Multimodal Large Language Models (MLLMs) have recently achieved promising zero-shot accuracy on visual question answering (VQA) -- a fundamental task affecting various downstream applications and domains. Given the great potential for the broad use of these models, it is important to investigate their limitations in dealing with different image and question properties. In this work, we investigate whether MLLMs can perceive details as well as larger components in images. In particular, we show that their zero-shot accuracy in answering visual questions is very sensitive to the size of the visual subject related to the question, declining up to $45.91\%$ with size. Furthermore, we show that this effect is causal by observing that human visual cropping can significantly mitigate their sensitivity to size. To scale up the usefulness of human cropping, we propose ViCrop, a general framework that utilizes automatic visual cropping to enhance zero-shot VQA of MLLMs. We construct five variants of ViCrop leveraging either external localization models or the decision process of the given MLLM itself. Our results show that ViCrop improves MLLMs' zero-shot accuracy across different VQA datasets, for example, enhances BLIP2-T5's performance by $32.23\%$ on the TextVQA test set. To facilitate further investigation of MLLMs' behaviors, our code is publicly released.
翻訳日:2024-01-04 16:33:27 公開日:2024-01-01
# 音楽駆動ダンス生成におけるマルチモーダル制御の探索

Exploring Multi-Modal Control in Music-Driven Dance Generation ( http://arxiv.org/abs/2401.01382v1 )

ライセンス: Link先を確認
Ronghui Li, Yuqin Dai, Yachao Zhang, Jun Li, Jian Yang, Jie Guo, Xiu Li(参考訳) 既存の音楽駆動の3Dダンス生成法は主に高品質なダンス生成に重点を置いているが、生成過程において十分な制御が不十分である。 そこで本稿では,高品質なダンス動作を生成し,ジャンル制御,意味制御,空間制御を含むマルチモーダル制御をサポートする統一フレームワークを提案する。 まず、ダンス生成ネットワークをダンス制御ネットワークから分離し、追加の制御情報を追加する際にダンス品質の劣化を回避する。 第2に、異なる制御情報に対する特定の制御戦略を設計し、それらを統一されたフレームワークに統合する。 実験結果から,提案するダンス生成フレームワークは,動作品質と制御性の観点から,最先端の手法よりも優れていた。

Existing music-driven 3D dance generation methods mainly concentrate on high-quality dance generation, but lack sufficient control during the generation process. To address these issues, we propose a unified framework capable of generating high-quality dance movements and supporting multi-modal control, including genre control, semantic control, and spatial control. First, we decouple the dance generation network from the dance control network, thereby avoiding the degradation in dance quality when adding additional control information. Second, we design specific control strategies for different control information and integrate them into a unified framework. Experimental results show that the proposed dance generation framework outperforms state-of-the-art methods in terms of motion quality and controllability.
翻訳日:2024-01-04 16:14:08 公開日:2024-01-01
# 壁面人間活動認識のための指向性アンテナシステム

Directional Antenna Systems for Long-Range Through-Wall Human Activity Recognition ( http://arxiv.org/abs/2401.01388v1 )

ライセンス: Link先を確認
Julian Strohmayer and Martin Kampel(参考訳) WiFi Channel State Information (CSI)ベースのヒューマンアクティビティ認識(HAR)は、視覚的プライバシーを維持しながら、空間的に制約された環境で接触のない長距離センシングを可能にする。 しかし、多くのwi-fi対応デバイスが存在するにもかかわらず、csiをユーザーに公開するデバイスはほとんどなく、結果としてハードウェアオプションの検知が欠如している。 Espressif ESP32の変種は、WiFi CSIベースのHARのための低コストで容易にデプロイできるソリューションとして登場した。 本研究では,4つのesp32-s3を用いた2.4ghz指向性アンテナシステムについて評価を行った。 2つの有望なシステムが提案され、そのうちの1つはESP32-S3と指向性バイカッドアンテナを組み合わせたものである。 この組み合わせは、私たちの知る限りでは、WiFiベースのHARでそのようなシステムの最初のデモとなる。 第2のシステムは、esp32-s3のインバーテッドfアンテナ(pifa)を内蔵しており、平面反射板を介して方向性を達成する。 視線(LOS)と非視線(NLOS)のHAR性能の総合評価において,両システムは5部屋にわたって18mの距離のオフィス環境に展開される。 この実験では、1806 csiの人間の活動の振幅スペクトログラムからなるwallhack1.8kデータセットを収集し、公開する。 Wallhack1.8kに基づいて,LOSおよびNLOSシナリオにおけるシステム性能を評価するために,EfficientNetV2アーキテクチャを用いてアクティビティ認識モデルを訓練する。 コアNLOSのアクティビティ認識問題に対して、バイカッドアンテナとPIFAベースのシステムは、それぞれ92.0$\pm$3.5と86.8$\pm$4.7の精度を実現し、提案システムによる長距離スルーウォールHARの実現可能性を示す。

WiFi Channel State Information (CSI)-based human activity recognition (HAR) enables contactless, long-range sensing in spatially constrained environments while preserving visual privacy. However, despite the presence of numerous WiFi-enabled devices around us, few expose CSI to users, resulting in a lack of sensing hardware options. Variants of the Espressif ESP32 have emerged as potential low-cost and easy-to-deploy solutions for WiFi CSI-based HAR. In this work, four ESP32-S3-based 2.4GHz directional antenna systems are evaluated for their ability to facilitate long-range through-wall HAR. Two promising systems are proposed, one of which combines the ESP32-S3 with a directional biquad antenna. This combination represents, to the best of our knowledge, the first demonstration of such a system in WiFi-based HAR. The second system relies on the built-in printed inverted-F antenna (PIFA) of the ESP32-S3 and achieves directionality through a plane reflector. In a comprehensive evaluation of line-of-sight (LOS) and non-line-of-sight (NLOS) HAR performance, both systems are deployed in an office environment spanning a distance of 18 meters across five rooms. In this experimental setup, the Wallhack1.8k dataset, comprising 1806 CSI amplitude spectrograms of human activities, is collected and made publicly available. Based on Wallhack1.8k, we train activity recognition models using the EfficientNetV2 architecture to assess system performance in LOS and NLOS scenarios. For the core NLOS activity recognition problem, the biquad antenna and PIFA-based systems achieve accuracies of 92.0$\pm$3.5 and 86.8$\pm$4.7, respectively, demonstrating the feasibility of long-range through-wall HAR with the proposed systems.
翻訳日:2024-01-04 15:57:34 公開日:2024-01-01
# DiffAugment:拡散に基づく長距離視覚関係認識

DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition ( http://arxiv.org/abs/2401.01387v1 )

ライセンス: Link先を確認
Parul Gupta, Tuan Nguyen, Abhinav Dhall, Munawar Hayat, Trung Le and Thanh-Toan Do(参考訳) 視覚関係認識(vrr)は画像内の2つの相互作用対象間の関係を識別することを目的としており,<subject, relation, object>三重項の広範かつ高度に不均衡な分布のために特に困難である。 既存のVRRアプローチにおける性能バイアスを克服するために、DiffAugmentを導入する。DiffAugmentは、まずWordNetを用いて言語空間のテールクラスを拡張し、次に拡散モデルの生成技術を利用して少数クラスの視覚空間を拡大する手法である。 本稿では,各<s,r,o>三重項の硬度に基づく拡散における新しい硬度認識成分を提案し,テールクラスの視覚埋め込み生成における硬度認識拡散の有効性を示す。 また, 生成した視覚埋め込みの識別能力を向上させるために, 拡散サンプリングのための新しい主題およびオブジェクトベースシード戦略を提案する。 GQA-LTデータセットの大規模実験により,Diffusion を用いた対象/対象とクラス毎の相関平均値の精度が向上した。

The task of Visual Relationship Recognition (VRR) aims to identify relationships between two interacting objects in an image and is particularly challenging due to the widely-spread and highly imbalanced distribution of <subject, relation, object> triplets. To overcome the resultant performance bias in existing VRR approaches, we introduce DiffAugment -- a method which first augments the tail classes in the linguistic space by making use of WordNet and then utilizes the generative prowess of Diffusion Models to expand the visual space for minority classes. We propose a novel hardness-aware component in diffusion which is based upon the hardness of each <S,R,O> triplet and demonstrate the effectiveness of hardness-aware diffusion in generating visual embeddings for the tail classes. We also propose a novel subject and object based seeding strategy for diffusion sampling which improves the discriminative capability of the generated visual embeddings. Extensive experimentation on the GQA-LT dataset shows favorable gains in the subject/object and relation average per-class accuracy using Diffusion augmented samples.
翻訳日:2024-01-04 15:57:03 公開日:2024-01-01
# 全スライド画像を用いた組織アーチファクト分割と重症度の自動診断

Tissue Artifact Segmentation and Severity Analysis for Automated Diagnosis Using Whole Slide Images ( http://arxiv.org/abs/2401.01386v1 )

ライセンス: Link先を確認
Galib Muhammad Shahriar Himel(参考訳) 伝統的に、病理学的解析と診断は、専門家が顕微鏡下でガラススライド標本を手動で眼球で行う。 スライド画像全体は、ガラススライドから生成されたデジタル標本である。 スライド画像全体を通して標本をコンピュータ画面で観察し、コンピュータビジョンと人工知能を自動分析と診断に利用する計算病理学へと導いた。 現在の計算の進歩により、スライド画像全体は人間の監督なしに自律的に分析できる。 しかし、この分析は、組織の折りたたみや気泡などの組織的アーティファクトによってスライド画像全体が影響を受ける場合、失敗するか、誤った診断につながる可能性がある。 既存のアーティファクト検出手法は、分析から影響のあるアーティファクトを除去するために、重症度評価の専門家に依存している。 このプロセスは、重症度を評価することなく、自動分析やアーティファクトの除去という目標を損なうことなく、時間の消費、枯渇、弱体化させ、診断上重要なデータを失う可能性がある。 したがって、アーティファクトを検出して、その重大度を自動的に評価する必要がある。 本稿では,畳み込みニューラルネットワークを用いたアーティファクト検出に重大度評価を組み込んだシステムを提案する。 提案システムはDoubleUNetを用いてアーティファクトを分割し、6つの微調整された畳み込みニューラルネットワークモデルのアンサンブルネットワークを用いて重大性を決定する。 この手法は, アーチファクトセグメンテーションの精度を9%向上させ, 重症度評価のための病理医の評価と97パーセントの強い相関を達成した。 提案したヘテロジニアスデータセットを用いてシステムのロバスト性を実証し,自動解析システムと統合することで実用性を確保した。

Traditionally, pathological analysis and diagnosis are performed by manually eyeballing glass slide specimens under a microscope by an expert. The whole slide image is the digital specimen produced from the glass slide. Whole slide image enabled specimens to be observed on a computer screen and led to computational pathology where computer vision and artificial intelligence are utilized for automated analysis and diagnosis. With the current computational advancement, the entire whole slide image can be analyzed autonomously without human supervision. However, the analysis could fail or lead to wrong diagnosis if the whole slide image is affected by tissue artifacts such as tissue fold or air bubbles depending on the severity. Existing artifact detection methods rely on experts for severity assessment to eliminate artifact affected regions from the analysis. This process is time consuming, exhausting and undermines the goal of automated analysis or removal of artifacts without evaluating their severity, which could result in the loss of diagnostically important data. Therefore, it is necessary to detect artifacts and then assess their severity automatically. In this paper, we propose a system that incorporates severity evaluation with artifact detection utilizing convolutional neural networks. The proposed system uses DoubleUNet to segment artifacts and an ensemble network of six fine tuned convolutional neural network models to determine severity. This method outperformed current state of the art in accuracy by 9 percent for artifact segmentation and achieved a strong correlation of 97 percent with the evaluation of pathologists for severity assessment. The robustness of the system was demonstrated using our proposed heterogeneous dataset and practical usability was ensured by integrating it with an automated analysis system.
翻訳日:2024-01-04 15:56:41 公開日:2024-01-01
# 強伝導率関係とグラフニューラルネットワーク

Strong Transitivity Relations and Graph Neural Networks ( http://arxiv.org/abs/2401.01384v1 )

ライセンス: Link先を確認
Yassin Mohamadi and Mostafa Haghir Chehreghani(参考訳) ローカルな近所は、グラフベースの学習における生成の埋め込みにおいて重要な役割を果たす。 一般に、ノードは隣のノードに類似した埋め込みを持つべきであると考えられている。 本研究では,周辺地域からグラフ全体への類似性の概念を慎重に拡張しようと試みる。 我々は、グラフニューラルネットワーク(gnns)が全グラフ上の大域的類似性と局所的類似性の両方を捉えることを可能にする、推移性関係に基づく類似性の延長を提供する。 我々は,局所ノードの類似性以上のトランジッショングラフニューラルネットワーク(transgnn)を導入し,強いトランジッション関係を弱いノードと区別し,それらを活用することで,グローバル類似性を考慮した。 実世界の複数のデータセットに対して評価を行い、ノード分類などのタスクにおいて、よく知られたGNNモデルの性能を大幅に向上させることを示した。

Local neighborhoods play a crucial role in embedding generation in graph-based learning. It is commonly believed that nodes ought to have embeddings that resemble those of their neighbors. In this research, we try to carefully expand the concept of similarity from nearby neighborhoods to the entire graph. We provide an extension of similarity that is based on transitivity relations, which enables Graph Neural Networks (GNNs) to capture both global similarities and local similarities over the whole graph. We introduce Transitivity Graph Neural Network (TransGNN), which more than local node similarities, takes into account global similarities by distinguishing strong transitivity relations from weak ones and exploiting them. We evaluate our model over several real-world datasets and showed that it considerably improves the performance of several well-known GNN models, for tasks such as node classification.
翻訳日:2024-01-04 15:56:15 公開日:2024-01-01
# スカースデータを用いた多軌道GNNによる乳幼児脳結合性の予測

Predicting Infant Brain Connectivity with Federated Multi-Trajectory GNNs using Scarce Data ( http://arxiv.org/abs/2401.01383v1 )

ライセンス: Link先を確認
Michalis Pistos and Islem Rekik(参考訳) 産後1年間における幼児脳ネットワークの畳み込み進化の理解は、初期の脳接続発達のダイナミクスを特定する上で重要である。 既存のディープラーニングソリューションには3つの大きな制限がある。 まず、各グラフ軌跡が特定の画像モダリティや接続タイプ(例えばT1-w MRI)に対応するようなマルチトラック予測タスクには一般化できない。 第二に、既存のモデルは十分なパフォーマンスを達成するために広範なトレーニングデータセットが必要です。 第3に、不完全な時系列データを効率的に利用しない。 これらの制約に対処するために、フェデレーショングラフベースの多軌道進化ネットワークであるFedGmTE-Net++を導入する。 フェデレーションの力を利用して、限られたデータセットを持つ多様な病院の地域学習を集約する。 その結果,データプライバシを保ちながら,各病院の局所的生成モデルの性能を向上させることができた。 FedGmTE-Net++の3つの重要なイノベーションは次のとおりである。 (i)データキャリア環境における脳のマルチトラック進化予測専用に設計された最初の連合学習フレームワークの提示 (ii)局所目的関数に補助正則化器を組み込んで、進化軌道内の全ての縦脳接続を活用し、データ利用を最大化すること。 (iii)予備的なknベースのプリコンプリートと、類似度スコアを改善し、インプチューションを洗練するためにレグレッサーを用いるインプテーション改良ステップとからなる2段階インプテーションプロセスを導入すること。 総合的な実験結果から,単一のベースライングラフからの脳内多軌道予測におけるFedGmTE-Net++の性能がベンチマーク法と比較された。

The understanding of the convoluted evolution of infant brain networks during the first postnatal year is pivotal for identifying the dynamics of early brain connectivity development. Existing deep learning solutions suffer from three major limitations. First, they cannot generalize to multi-trajectory prediction tasks, where each graph trajectory corresponds to a particular imaging modality or connectivity type (e.g., T1-w MRI). Second, existing models require extensive training datasets to achieve satisfactory performance which are often challenging to obtain. Third, they do not efficiently utilize incomplete time series data. To address these limitations, we introduce FedGmTE-Net++, a federated graph-based multi-trajectory evolution network. Using the power of federation, we aggregate local learnings among diverse hospitals with limited datasets. As a result, we enhance the performance of each hospital's local generative model, while preserving data privacy. The three key innovations of FedGmTE-Net++ are: (i) presenting the first federated learning framework specifically designed for brain multi-trajectory evolution prediction in a data-scarce environment, (ii) incorporating an auxiliary regularizer in the local objective function to exploit all the longitudinal brain connectivity within the evolution trajectory and maximize data utilization, (iii) introducing a two-step imputation process, comprising a preliminary KNN-based precompletion followed by an imputation refinement step that employs regressors to improve similarity scores and refine imputations. Our comprehensive experimental results showed the outperformance of FedGmTE-Net++ in brain multi-trajectory prediction from a single baseline graph in comparison with benchmark methods.
翻訳日:2024-01-04 15:56:00 公開日:2024-01-01
# 一般線形帯域におけるランク付け

Ranking In Generalized Linear Bandits ( http://arxiv.org/abs/2207.00109v2 )

ライセンス: Link先を確認
Amitis Shidani, George Deligiannidis, Arnaud Doucet(参考訳) 一般化線形バンディットにおけるランキング問題について検討する。 学習エージェントは、各時間に順序づけられた項目のリストを選択し、確率的結果を監視する。 推薦システムでは、最も魅力的なアイテムの順序リストを表示することは、位置とアイテム依存の両方が複雑な報酬関数をもたらすため、必ずしも最適ではない。 非常に単純な例は、最も魅力的なアイテムがすべて同じカテゴリからのものである場合の多様性の欠如である。 順序付きリストにおける位置と項目の依存関係をモデル化し、この問題に対して UCB と Thompson Sampling 型アルゴリズムを設計する。 本研究は,位置割引が特定の場合である位置依存や,ランキング問題をグラフ理論に結びつけるなど,既存の研究を様々な方向に一般化する。

We study the ranking problem in generalized linear bandits. At each time, the learning agent selects an ordered list of items and observes stochastic outcomes. In recommendation systems, displaying an ordered list of the most attractive items is not always optimal as both position and item dependencies result in a complex reward function. A very naive example is the lack of diversity when all the most attractive items are from the same category. We model the position and item dependencies in the ordered list and design UCB and Thompson Sampling type algorithms for this problem. Our work generalizes existing studies in several directions, including position dependencies where position discount is a particular case, and connecting the ranking problem to graph theory.
翻訳日:2024-01-03 20:24:35 公開日:2024-01-01
# 言語モデルは実践的話者の境界である:ベイズ的認知モデルの観点からのRLHFを理解する

Language Models are Bounded Pragmatic Speakers: Understanding RLHF from a Bayesian Cognitive Modeling Perspective ( http://arxiv.org/abs/2305.17760v6 )

ライセンス: Link先を確認
Khanh Nguyen(参考訳) 言語モデルはどのように考えるのか? 本稿では,言語モデルの異なるバリエーションの操作を特徴付ける有界プラガマ話者と呼ばれる確率論的認知モデルを定式化する。 具体的には、人間のフィードバックから強化学習を施した大規模言語モデル(Ouyang et al., 2022)が、心理学者が人間に帰属する高速・低速モデル(Kahneman, 2011)と概念的に類似した思考モデルであることを示す。 本稿では,人間フィードバックからの強化学習の限界を思考の素早いモデルとして議論し,この枠組みを拡張するための道筋を提案する。 本研究は,言語モデルの理解,評価,発展に関する洞察を得るために,認知的確率的モデリングアプローチを採用することの価値を強調する。

How do language models "think"? This paper formulates a probabilistic cognitive model called the bounded pragmatic speaker, which can characterize the operation of different variations of language models. Specifically, we demonstrate that large language models fine-tuned with reinforcement learning from human feedback (Ouyang et al., 2022) embody a model of thought that conceptually resembles a fast-and-slow model (Kahneman, 2011), which psychologists have attributed to humans. We discuss the limitations of reinforcement learning from human feedback as a fast-and-slow model of thought and propose avenues for expanding this framework. In essence, our research highlights the value of adopting a cognitive probabilistic modeling approach to gain insights into the comprehension, evaluation, and advancement of language models.
翻訳日:2024-01-03 20:16:58 公開日:2024-01-01
# グラフニューラルネットワークはいつノード分類に役立つのか? 相同原理がノード識別性に及ぼす影響の検討

When Do Graph Neural Networks Help with Node Classification? Investigating the Impact of Homophily Principle on Node Distinguishability ( http://arxiv.org/abs/2304.14274v4 )

ライセンス: Link先を確認
Sitao Luan, Chenqing Hua, Minkai Xu, Qincheng Lu, Jiaqi Zhu, Xiao-Wen Chang, Jie Fu, Jure Leskovec, Doina Precup(参考訳) ホモフィリ原理、すなわち、同じラベルを持つノードが接続される可能性が高いことは、ノード分類タスクにおけるニューラルネットワークよりもグラフニューラルネットワーク(GNN)の性能上の優位性の主要な理由と考えられている。 最近の研究は、ホモフィリーがなくても、同じクラスのノードが類似した近隣パターンを共有する限り、GNNの利点は依然として存在することを示唆している。 しかし、この議論はクラス内Node Distinguishability(ND)のみを考慮するが、クラス間NDを無視する。 本稿はまず,NDの理想的状況として,クラス間NDよりもクラス内NDが小さいことを挙げる。 このアイデアを定式化し、NDを深く研究するために、同調性のための文脈確率ブロックモデル(CSBM-H)を提案し、確率ベイズ誤差(PBE)と負の一般化ジェフリーズ偏差という2つの指標を定義し、NDを定量化する。 これらの指標を用いて,グラフフィルタ,ノード次数分布,クラス分散がNDに与える影響を可視化および解析し,クラス内およびクラス間NDの複合効果について検討する。 さらに,グラフデータセットで広く発生する中間ホモフィリーの落とし穴を発見した。 さらに, 実作業タスクにおいて, GNNの優越性は, ホモフィリーレベルに関係なく, クラス内NDと密接に関係していることが確認された。 本研究は,非直線的特徴ベースであり,GNNの優位性に対する統計的しきい値を与えることができるホモフィリーを超える新しい仮説テストに基づく性能指標を提案する。 実験によると、実世界のデータセットと合成データの両方におけるグラフ認識モードの利点とデメリットを明らかにする上で、既存のホモフィリメトリックよりはるかに効果的である。

Homophily principle, i.e., nodes with the same labels are more likely to be connected, has been believed to be the main reason for the performance superiority of Graph Neural Networks (GNNs) over Neural Networks on node classification tasks. Recent research suggests that, even in the absence of homophily, the advantage of GNNs still exists as long as nodes from the same class share similar neighborhood patterns. However, this argument only considers intra-class Node Distinguishability (ND) but neglects inter-class ND, which provides incomplete understanding of homophily on GNNs. In this paper, we first demonstrate such deficiency with examples and argue that an ideal situation for ND is to have smaller intra-class ND than inter-class ND. To formulate this idea and study ND deeply, we propose Contextual Stochastic Block Model for Homophily (CSBM-H) and define two metrics, Probabilistic Bayes Error (PBE) and negative generalized Jeffreys divergence, to quantify ND. With the metrics, we visualize and analyze how graph filters, node degree distributions and class variances influence ND, and investigate the combined effect of intra- and inter-class ND. Besides, we discovered the mid-homophily pitfall, which occurs widely in graph datasets. Furthermore, we verified that, in real-work tasks, the superiority of GNNs is indeed closely related to both intra- and inter-class ND regardless of homophily levels. Grounded in this observation, we propose a new hypothesis-testing based performance metric beyond homophily, which is non-linear, feature-based and can provide statistical threshold value for GNNs' the superiority. Experiments indicate that it is significantly more effective than the existing homophily metrics on revealing the advantage and disadvantage of graph-aware modes on both synthetic and benchmark real-world datasets.
翻訳日:2024-01-03 20:14:36 公開日:2024-01-01
# Cambridge Law Corpus: 法律AI研究のためのデータセット

The Cambridge Law Corpus: A Dataset for Legal AI Research ( http://arxiv.org/abs/2309.12269v4 )

ライセンス: Link先を確認
Andreas \"Ostling and Holli Sargeant and Huiyuan Xie and Ludwig Bull and Alexander Terenin and Leif Jonsson and M{\aa}ns Magnusson and Felix Steffek(参考訳) 法的なAI研究のためのデータセットであるCambridge Law Corpus (CLC)を紹介する。 英国から250,000件以上の訴訟が起こっている。 ほとんどのケースは21世紀のものであるが、コーパスには16世紀のものが含まれる。 本稿では,原文とメタデータを含むコーパスの最初のリリースについて述べる。 コーパスとともに,法律専門家による638件の事例に対して,事例結果に関する注釈を提供する。 注記データを用いて,GPT-3,GPT-4,RoBERTaモデルを用いて事例抽出を行い,評価を行った。 我々は、この資料の潜在的に敏感な性質に対処するための、広範な法的および倫理的な議論を含む。 その結果、コーパスは特定の制限下で研究目的のためにのみ解放される。

We introduce the Cambridge Law Corpus (CLC), a dataset for legal AI research. It consists of over 250 000 court cases from the UK. Most cases are from the 21st century, but the corpus includes cases as old as the 16th century. This paper presents the first release of the corpus, containing the raw text and meta-data. Together with the corpus, we provide annotations on case outcomes for 638 cases, done by legal experts. Using our annotated data, we have trained and evaluated case outcome extraction with GPT-3, GPT-4 and RoBERTa models to provide benchmarks. We include an extensive legal and ethical discussion to address the potentially sensitive nature of this material. As a consequence, the corpus will only be released for research purposes under certain restrictions.
翻訳日:2024-01-03 19:51:16 公開日:2024-01-01
# 物理インフォームドニューラルネットワークを用いた複合超弾性材料の構成パラメータの同定

Identifying Constitutive Parameters for Complex Hyperelastic Materials using Physics-Informed Neural Networks ( http://arxiv.org/abs/2308.15640v2 )

ライセンス: Link先を確認
Siyuan Song, Hanxun Jin(参考訳) 工学や生物材料の構成パラメータ、特に複雑なジオメトリや機械的な挙動を持つものを特定することは、長年の課題である。 近年の物理情報ニューラルネットワーク(PINN)の出現は、有望なソリューションを提供するが、現在のフレームワークは基本的な構成法則に制限され、実験データと組み合わせることで現実的な制約に直面することが多い。 本稿では,軟質材料,特に複雑な構成挙動を示す材料パラメータを平面応力条件下での大変形下で同定する,堅牢なPINNベースのフレームワークを提案する。 本モデルでは,マルチモーダルな合成実験データセットを用いたPINNのトレーニングを強調し,ノイズのあるデータであってもアルゴリズムの堅牢性を確保する。 その結果, PINN フレームワークは, 複雑なジオメトリを持つ試料に対して, 圧縮不能な Arruda-Boyce モデルの構成パラメータを正確に同定し, 5% 未満の誤差を維持することができることがわかった。 我々のフレームワークは、特に幾何学的および構成的複雑性を持つ人々に対して、複素固体に対するロバストなモジュラー識別アプローチを提供すると信じている。

Identifying constitutive parameters in engineering and biological materials, particularly those with intricate geometries and mechanical behaviors, remains a longstanding challenge. The recent advent of Physics-Informed Neural Networks (PINNs) offers promising solutions, but current frameworks are often limited to basic constitutive laws and encounter practical constraints when combined with experimental data. In this paper, we introduce a robust PINN-based framework designed to identify material parameters for soft materials, specifically those exhibiting complex constitutive behaviors, under large deformation in plane stress conditions. Distinctively, our model emphasizes training PINNs with multi-modal synthetic experimental datasets consisting of full-field deformation and loading history, ensuring algorithm robustness even with noisy data. Our results reveal that the PINNs framework can accurately identify constitutive parameters of the incompressible Arruda-Boyce model for samples with intricate geometries, maintaining an error below 5%, even with an experimental noise level of 5%. We believe our framework provides a robust modulus identification approach for complex solids, especially for those with geometrical and constitutive complexity.
翻訳日:2024-01-03 19:49:30 公開日:2024-01-01
# SayCanPay: 学習可能なドメイン知識を用いた大規模言語モデルによるヒューリスティックプランニング

SayCanPay: Heuristic Planning with Large Language Models using Learnable Domain Knowledge ( http://arxiv.org/abs/2308.12682v2 )

ライセンス: Link先を確認
Rishi Hazra, Pedro Zuidberg Dos Martires, Luc De Raedt(参考訳) 大規模言語モデル(LLM)は、その膨大な「世界知識」のために、驚くべき計画能力を示した。 しかし,近年の進歩にもかかわらず,実現可能な(手頃な)プランと費用対効果(プラン長)の両面において,依然として課題である。 これは、ドメイン知識(pddlのような行動モデルで形式化された)とヒューリスティック探索を用いて実現可能な最適な計画を生成するヒューリスティックな計画手法とは対照的である。 そこで我々は, LLMの世界の知識とヒューリスティック検索の原理を活用することで, LLMの力とヒューリスティックプランニングを組み合わせることを提案する。 私たちのアプローチであるsaycanpayは、学習可能なドメイン知識に導かれたアクション(例えば)を生成するためにllmを使用し、アクションの実現可能性(can)と長期的な報酬/支払い(pay)を評価し、ヒューリスティックな検索によって最善のアクションを選択する。 本研究は,(1)ヒューリスティック・プランニングにおけるLCM計画問題の新たな枠組み,(2)グラウンドディングとコスト効率の要素を生成計画に統合すること,(3)ヒューリスティック・サーチ(ヒューリスティック・サーチ)を用いた提案である。 我々のモデルが他のLCM計画手法より優れていることを示す。

Large Language Models (LLMs) have demonstrated impressive planning abilities due to their vast "world knowledge". Yet, obtaining plans that are both feasible (grounded in affordances) and cost-effective (in plan length), remains a challenge, despite recent progress. This contrasts with heuristic planning methods that employ domain knowledge (formalized in action models such as PDDL) and heuristic search to generate feasible, optimal plans. Inspired by this, we propose to combine the power of LLMs and heuristic planning by leveraging the world knowledge of LLMs and the principles of heuristic search. Our approach, SayCanPay, employs LLMs to generate actions (Say) guided by learnable domain knowledge, that evaluates actions' feasibility (Can) and long-term reward/payoff (Pay), and heuristic search to select the best sequence of actions. Our contributions are (1) a novel framing of the LLM planning problem in the context of heuristic planning, (2) integrating grounding and cost-effective elements into the generated plans, and (3) using heuristic search over actions. Our extensive evaluations show that our model surpasses other LLM planning approaches.
翻訳日:2024-01-03 19:48:50 公開日:2024-01-01
# 相対論的状態におけるスピンおよびスピン量子相関の諸問題に関する考察

A review on the questions of spin and spin quantum correlations in the relativistic regime ( http://arxiv.org/abs/2308.05231v2 )

ライセンス: Link先を確認
Shrobona Bagchi(参考訳) 量子相関の現在の理解の大部分は、非相対論的量子力学の分野にある。 量子情報と計算タスクを完全に発展させるためには、必然的に相対論的効果を考慮する必要がある。 この点において、スピンは中心的な道具の一つである。 この目的のために、相対論的量子情報理論においてスピン状態が量子ビットとして作用するスピン理論を完全に理解し、特徴付けることが重要である。 この領域はまだ解決されていない。 本論文は、慣性系におけるスピンとスピンの量子相関の概念に関する最近の研究と、この概念に関するいくつかの明らかなパラドックスを考察する。 我々は、慣性参照系におけるスピン、減少スピン密度行列、スピン量子相関を特徴付ける問題と、それに関連する明らかなパラドックスに主に焦点をあてる。 もう一つの重要な側面は、非相対論的領域のいくつかの概念を相対論的領域に拡張するために場の量子論のツールを使うことである。 本研究では,相対論的秘密共有理論の展開と,浄化の絡み合いに関する相関尺度について考察する。

The majority of current understanding of the quantum correlations is in the field of non-relativistic quantum mechanics. To develop quantum information and computation tasks fully, one must inevitably take into account the relativistic effects. In this regard, the spin is one of the central tools. For this purpose, it is of paramount importance to understand and characterize fully the theory of spin in relativistic quantum information theory where the spin states act as qubit. This area is still far from being resolved. As a result, this article will explore the recent studies of the concepts of the spin and spin quantum correlations in inertial frames and some apparent paradoxes regarding this concept. We will mainly focus on the problem of characterizing the spin, reduced spin density matrices and spin quantum correlations in inertial reference frames and the apparent paradoxes involved therein. Another important aspect is the use of tools of quantum field theory to extend several concepts in non-relativistic domain to relativistic one. In this regard, we analyze the development of the theory of relativistic secret sharing and a correlation measure namely the entanglement of purification.
翻訳日:2024-01-03 19:48:02 公開日:2024-01-01
# 言語モデルにおける透かしの学習性について

On the Learnability of Watermarks for Language Models ( http://arxiv.org/abs/2312.04469v2 )

ライセンス: Link先を確認
Chenchen Gu, Xiang Lisa Li, Percy Liang, Tatsunori Hashimoto(参考訳) 言語モデル出力の透かしは、言語モデルの配置に多くの応用があるモデル生成テキストの統計的検出を可能にする。 既存の透かし戦略は、既存の言語モデルのデコーダを変更し、透かしを生成するために言語モデルを直接学習する能力は、透かしの実際の展開に重大な影響を与える。 まず、学習した透かしを使って、自然に透かしのテキストを生成するオープンモデルを構築することができる。 第二に、生成されたテキストの出所を決定するために透かしを用いると、敵は透かしを偽造し、有害な透かしを発生させることで、被害者モデルの評判を損なう可能性がある。 そこで本研究では,電子透かしを用いた教師モデルのように振る舞うように学習する透かし蒸留法を提案する。 提案手法は,3つの異なる復号型透かし戦略と様々なハイパーパラメータ設定で検証し,高い検出性で透かし付きテキストの生成を学習できることを示す。 また,テキストの微調整による透かし能力の喪失や,低歪み透かしを学習する際のサンプルの複雑さなど,学習可能性の制限も見いだす。

Watermarking of language model outputs enables statistical detection of model-generated text, which has many applications in the responsible deployment of language models. Existing watermarking strategies operate by altering the decoder of an existing language model, and the ability for a language model to directly learn to generate the watermark would have significant implications for the real-world deployment of watermarks. First, learned watermarks could be used to build open models that naturally generate watermarked text, allowing for open models to benefit from watermarking. Second, if watermarking is used to determine the provenance of generated text, an adversary can hurt the reputation of a victim model by spoofing its watermark and generating damaging watermarked text. To investigate the learnability of watermarks, we propose watermark distillation, which trains a student model to behave like a teacher model that uses decoding-based watermarking. We test our approach on three distinct decoding-based watermarking strategies and various hyperparameter settings, finding that models can learn to generate watermarked text with high detectability. We also find limitations to learnability, including the loss of watermarking capabilities under fine-tuning on normal text and high sample complexity when learning low-distortion watermarks.
翻訳日:2024-01-03 19:26:38 公開日:2024-01-01
# 低固有値誤差に対するハミルトン分割最適化のためのトロッタ近似誤差の推定

Estimating Trotter Approximation Errors to Optimize Hamiltonian Partitioning for Lower Eigenvalue Errors ( http://arxiv.org/abs/2312.13282v2 )

ライセンス: Link先を確認
Luis A. Mart\'inez-Mart\'inez, Prathami Divakar Kamath and Artur F. Izmaylov(参考訳) 量子コンピュータ上で多体ハミルトニアンをエンコードし、量子位相推定によって固有エネルギーを得る方法の一つは、トロッター近似である。 正確な進化作用素と近似進化作用素の差のノルムを推定し、この近似の質を評価するいくつかの方法が提案された。 ここでは、これらの異なる誤差推定が相互にどのように相関し、固有値を求める際に真のトロッター近似誤差を予測できるかどうかを考察する。 一組の小さな分子系に対して、基底状態電子エネルギーに対する第1次トロッター公式の正確なトロッター近似誤差を計算した。 これらの誤差と以前に使われた上界を比較すると、系と様々なハミルトニアン分割との相関はほとんど示されない。 一方、固有値の時間ステップにおける摂動理論に基づくトロッター近似誤差推定は、トロッター近似誤差と非常によく相関している。 得られた摂動推定は,エネルギー固有値の推定に要する資源を目標精度で正確に評価するために最重要となる,実用的な時間ステップおよびハミルトン分割選択プロトコルに利用できる。

One of the ways to encode many-body Hamiltonians on a quantum computer to obtain their eigen-energies through Quantum Phase Estimation is by means of the Trotter approximation. There were several ways proposed to assess the quality of this approximation based on estimating the norm of the difference between the exact and approximate evolution operators. Here, we would like to explore how these different error estimates are correlated with each other and whether they can be good predictors for the true Trotter approximation error in finding eigenvalues. For a set of small molecular systems we calculated the exact Trotter approximation errors of the first order Trotter formulas for the ground state electronic energies. Comparison of these errors with previously used upper bounds show almost no correlation over the systems and various Hamiltonian partitionings. On the other hand, building the Trotter approximation error estimation based on perturbation theory up to a second order in the time-step for eigenvalues provides estimates with very good correlations with the Trotter approximation errors. The developed perturbative estimates can be used for practical time-step and Hamiltonian partitioning selection protocols, which are paramount for an accurate assessment of resources needed for the estimation of energy eigenvalues under a target accuracy.
翻訳日:2024-01-03 19:15:29 公開日:2024-01-01
# 空気中の点雲

Point Cloud in the Air ( http://arxiv.org/abs/2401.00658v1 )

ライセンス: Link先を確認
Yulin Shao, Chenghong Bian, Li Yang, Qianqian Yang, Zhaoyang Zhang, Deniz Gunduz(参考訳) ポイントクラウド(PC)の取得と処理は、ロボットナビゲーション、自動運転車、拡張現実など、三次元空間データに依存する多くの新興アプリケーションにとって重要な実現手段である。 ほとんどのシナリオでは、リモートセンサーによって取得されたPCは、融合、セグメンテーション、推論のためにエッジサーバに送信されなければならない。 PCの無線伝送は、既に混雑している無線スペクトルの負担を増大させるだけでなく、PCの不規則で非構造的な性質から生じる固有の課題に直面している。 本稿では,これらの課題を慎重に詳述し,既存のソリューションを包括的に検証するとともに,本質的な限界を認めている。 これらの複雑さに応えて、先進的な技術、ハイブリッドスキーム、分散データ集約アプローチの4つの実用的ソリューションフレームワークを得る。 私たちのゴールは、効率的で信頼性が高く、低遅延の無線PC伝送への道筋をグラフ化することです。

Acquisition and processing of point clouds (PCs) is a crucial enabler for many emerging applications reliant on 3D spatial data, such as robot navigation, autonomous vehicles, and augmented reality. In most scenarios, PCs acquired by remote sensors must be transmitted to an edge server for fusion, segmentation, or inference. Wireless transmission of PCs not only puts on increased burden on the already congested wireless spectrum, but also confronts a unique set of challenges arising from the irregular and unstructured nature of PCs. In this paper, we meticulously delineate these challenges and offer a comprehensive examination of existing solutions while candidly acknowledging their inherent limitations. In response to these intricacies, we proffer four pragmatic solution frameworks, spanning advanced techniques, hybrid schemes, and distributed data aggregation approaches. In doing so, our goal is to chart a path toward efficient, reliable, and low-latency wireless PC transmission.
翻訳日:2024-01-03 16:35:46 公開日:2024-01-01
# 線形二次問題に対するADMMと過緩和ADMMパラメータの最適化

Optimizing ADMM and Over-Relaxed ADMM Parameters for Linear Quadratic Problems ( http://arxiv.org/abs/2401.00657v1 )

ライセンス: Link先を確認
Jintao Song, Wenqi Lu, Yunwen Lei, Yuchao Tang, Zhenkuan Pan, Jinming Duan(参考訳) Alternating Direction Method of Multipliers (ADMM) は、幅広い機械学習アプリケーションで注目を集めている。 オーバーラックス法を取り入れることでADMMの収束率を高める可能性が示された。 しかし、関連するペナルティパラメータと緩和パラメータの両方を含む最適なアルゴリズムパラメータを決定することは、しばしば特定の問題領域や文脈シナリオに合わせた経験的アプローチに依存する。 不正確なパラメータ選択はADMMの収束率を著しく阻害する。 この課題に対処するために,我々はまずペナルティパラメータの値を最適化する一般的な手法を提案し,続いて線形二次問題(LQP)の文脈で最適緩和パラメータを計算する新しい閉形式式を提案する。 次に, 画像登録, 画像劣化, MRI再構成を含む, ランダム・インスタンス化および多様な画像応用によるパラメータ選択手法の実験的検討を行った。

The Alternating Direction Method of Multipliers (ADMM) has gained significant attention across a broad spectrum of machine learning applications. Incorporating the over-relaxation technique shows potential for enhancing the convergence rate of ADMM. However, determining optimal algorithmic parameters, including both the associated penalty and relaxation parameters, often relies on empirical approaches tailored to specific problem domains and contextual scenarios. Incorrect parameter selection can significantly hinder ADMM's convergence rate. To address this challenge, in this paper we first propose a general approach to optimize the value of penalty parameter, followed by a novel closed-form formula to compute the optimal relaxation parameter in the context of linear quadratic problems (LQPs). We then experimentally validate our parameter selection methods through random instantiations and diverse imaging applications, encompassing diffeomorphic image registration, image deblurring, and MRI reconstruction.
翻訳日:2024-01-03 16:35:31 公開日:2024-01-01
# PROMPT-IML: Prompt Tuningによる事前学習基礎モデルによる画像操作位置推定

PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation Models Through Prompt Tuning ( http://arxiv.org/abs/2401.00653v1 )

ライセンス: Link先を確認
Xuntao Liu, Yuzhou Yang, Qichao Ying, Zhenxing Qian, Xinpeng Zhang and Sheng Li(参考訳) 偽画像は数秒でソーシャルネットワークサービスと共有でき、かなりのリスクを負う。 境界アーティファクトや高周波情報などの改ざんトレースは、画像操作ローカライゼーション(iml)分野の大規模ネットワークによって著しく強調されている。 しかし、既存の手法の一般化とロバスト性を制限する後処理のイメージ化が困難である。 本稿では,新しいPrompt-IMLフレームワークを提案する。 提案手法は,事前学習した視覚基盤モデルからの豊かな意味的知識を活用し,AIMを支援する。 IMLタスクに特化して視覚基盤モデルを利用するフレームワークを最初に設計する。 さらに,複数の視点から乱れた領域を特定することを目的とした,意味的特徴と高周波特徴とを一致させて融合する機能アライメントおよびフュージョンモジュールを設計する。 実験の結果,8つの典型的な偽画像データセットの性能向上と頑健性が得られた。

Deceptive images can be shared in seconds with social networking services, posing substantial risks. Tampering traces, such as boundary artifacts and high-frequency information, have been significantly emphasized by massive networks in the Image Manipulation Localization (IML) field. However, they are prone to image post-processing operations, which limit the generalization and robustness of existing methods. We present a novel Prompt-IML framework. We observe that humans tend to discern the authenticity of an image based on both semantic and high-frequency information, inspired by which, the proposed framework leverages rich semantic knowledge from pre-trained visual foundation models to assist IML. We are the first to design a framework that utilizes visual foundation models specially for the IML task. Moreover, we design a Feature Alignment and Fusion module to align and fuse features of semantic features with high-frequency features, which aims at locating tampered regions from multiple perspectives. Experimental results demonstrate that our model can achieve better performance on eight typical fake image datasets and outstanding robustness.
翻訳日:2024-01-03 16:35:18 公開日:2024-01-01
# covert hideからビジュアル編集へ:ロバストな生成的ビデオステガノグラフィ

From Covert Hiding to Visual Editing: Robust Generative Video Steganography ( http://arxiv.org/abs/2401.00652v1 )

ライセンス: Link先を確認
Xueying Mao, Xiaoxiao Hu, Wanli Peng, Zhenliang Gan, Qichao Ying, Zhenxing Qian, Sheng Li and Xinpeng Zhang(参考訳) 従来のビデオステガノグラフィ手法は埋め込みのための隠れ空間の修正に基づいているが,ビデオ編集プロセスにおいて,セマンティクス機能にシークレットメッセージを組み込む革新的な手法を提案する。 既存の従来のビデオステガノグラフィー手法はある程度のセキュリティと埋め込み能力を示すが、オンライン・ソーシャルネットワーク(osns)における一般的な歪みに対する十分な堅牢性には欠ける。 本稿では,ビデオの意味的特徴を改変してシークレットメッセージを埋め込み,映像編集を実現する,エンドツーエンドのロバストな生成ビデオステガノグラフィネットワーク(rogvs)を提案する。 我々は,視覚編集効果の提示に顔スワッピングシナリオを用いる。 まず,ビデオのセマンティック機能に秘密メッセージを適応的に隠蔽する秘密メッセージ埋め込みモジュールを設計する。 顔画像データセットに適用したRoGVS法は,ロバスト性とキャパシティの両方の観点から,既存のビデオ・画像ステガノグラフィー技術よりも優れていることを示す。

Traditional video steganography methods are based on modifying the covert space for embedding, whereas we propose an innovative approach that embeds secret message within semantic feature for steganography during the video editing process. Although existing traditional video steganography methods display a certain level of security and embedding capacity, they lack adequate robustness against common distortions in online social networks (OSNs). In this paper, we introduce an end-to-end robust generative video steganography network (RoGVS), which achieves visual editing by modifying semantic feature of videos to embed secret message. We employ face-swapping scenario to showcase the visual editing effects. We first design a secret message embedding module to adaptively hide secret message into the semantic feature of videos. Extensive experiments display that the proposed RoGVS method applied to facial video datasets demonstrate its superiority over existing video and image steganography techniques in terms of both robustness and capacity.
翻訳日:2024-01-03 16:34:58 公開日:2024-01-01
# 固体スマートコントラクトの自動不変生成

Automated Invariant Generation for Solidity Smart Contracts ( http://arxiv.org/abs/2401.00650v1 )

ライセンス: Link先を確認
Ye Liu, Chengxuan Zhang, Yi Li. (Nanyang Technological University, Singapore)(参考訳) スマートコントラクトは、ユーザ間のトランザクション実行を自動化するためにブロックチェーン上で動作するコンピュータプログラムである。 コントラクト仕様の欠如は、スマートコントラクトの正当性検証に真の課題をもたらします。 プログラム不変量は実行中に常に保存されるプロパティであり、プログラムの振る舞いの重要な側面を特徴付ける。 本稿では,Solidityスマートコントラクトのための新しい不変生成フレームワークINVCON+を提案する。 INVCON+は既存の不変検出器であるInvConを拡張し、動的推論と静的検証の両方に基づいて検証された契約不変量を自動生成する。 INVCON+と異なり、InvConは高い確率で保持できる可能性のある不変量しか生成しないが、まだ契約コードに対して検証されていない。 特に、INVCON+は、より表現力のある不変性を推論することができ、契約コードのより豊かな意味関係を捉えることができる。 我々は、361 ERC20と10 ERC721実世界の契約と、一般的なERC20脆弱性ベンチマークに基づいてINVCON+を評価する。 実験結果から,INVCON+は,共通脆弱性からスマートコントラクトを確保するために,高品質な不変仕様を効率よく生成できることが示唆された。

Smart contracts are computer programs running on blockchains to automate the transaction execution between users. The absence of contract specifications poses a real challenge to the correctness verification of smart contracts. Program invariants are properties that are always preserved throughout the execution, which characterize an important aspect of the program behaviors. In this paper, we propose a novel invariant generation framework, INVCON+, for Solidity smart contracts. INVCON+ extends the existing invariant detector, InvCon, to automatically produce verified contract invariants based on both dynamic inference and static verification. Unlike INVCON+, InvCon only produces likely invariants, which have a high probability to hold, yet are still not verified against the contract code. Particularly, INVCON+ is able to infer more expressive invariants that capture richer semantic relations of contract code. We evaluate INVCON+ on 361 ERC20 and 10 ERC721 real-world contracts, as well as common ERC20 vulnerability benchmarks. The experimental results indicate that INVCON+ efficiently produces high-quality invariant specifications, which can be used to secure smart contracts from common vulnerabilities.
翻訳日:2024-01-03 16:34:41 公開日:2024-01-01
# 大規模言語モデルによる抗菌抵抗の予測

Predicting Anti-microbial Resistance using Large Language Models ( http://arxiv.org/abs/2401.00642v1 )

ライセンス: Link先を確認
Hyunwoo Yoo, Bahrad Sokhansanj, James R. Brown, Gail Rosen(参考訳) 抗生物質耐性の増大と新型コロナウイルスなどの感染症の拡散の過程では、抗生物質耐性に関連する遺伝子を分類することが重要である。 自然言語処理がトランスフォーマーベースの言語モデルで進歩するにつれて、ヌクレオチド配列の特徴を学ぶ多くの言語モデルも登場している。 これらのモデルは、ヌクレオチド配列の様々な特徴を分類する上で優れた性能を示す。 ヌクレオチド配列を分類する場合、配列自体だけでなく、様々な背景知識も活用される。 本研究では,ヌクレオチド配列に基づく言語モデルだけでなく,PubMedの記事に基づくテキスト言語モデルを用いて,より生物学的な背景知識を反映する。 本稿では,各種抗生物質耐性遺伝子データベースを基に,ヌクレオチド配列言語モデルとテキスト言語モデルを微調整する手法を提案する。 また,データを補うLLMベースの拡張手法と,この2つのモデルを効果的に組み合わせるためのアンサンブル手法を提案する。 また,モデル評価のためのベンチマークも提案する。 本手法は薬剤耐性クラス予測においてヌクレオチド配列言語モデルよりも優れた性能を示した。

During times of increasing antibiotic resistance and the spread of infectious diseases like COVID-19, it is important to classify genes related to antibiotic resistance. As natural language processing has advanced with transformer-based language models, many language models that learn characteristics of nucleotide sequences have also emerged. These models show good performance in classifying various features of nucleotide sequences. When classifying nucleotide sequences, not only the sequence itself, but also various background knowledge is utilized. In this study, we use not only a nucleotide sequence-based language model but also a text language model based on PubMed articles to reflect more biological background knowledge in the model. We propose a method to fine-tune the nucleotide sequence language model and the text language model based on various databases of antibiotic resistance genes. We also propose an LLM-based augmentation technique to supplement the data and an ensemble method to effectively combine the two models. We also propose a benchmark for evaluating the model. Our method achieved better performance than the nucleotide sequence language model in the drug resistance class prediction.
翻訳日:2024-01-03 16:34:21 公開日:2024-01-01
# rgbd相対ポーズ推定における幾何学的深さ整合性

Geometry Depth Consistency in RGBD Relative Pose Estimation ( http://arxiv.org/abs/2401.00639v1 )

ライセンス: Link先を確認
Sourav Kumar, Chiang-Heng Chien, Benjamin Kimia(参考訳) RGBDカメラの相対的なポーズ推定は多くのアプリケーションにおいて重要である。 以前のアプローチでは画像のRGBの側面に頼って推定ポーズを推定し、したがって推定プロセスの深さを十分に利用したり、各画像が生成する点の3Dクラウドから推定ポーズを推定したりせず、RGB情報をフル活用しなかった。 本稿では,RGBに基づくランク付き対応リストから一対の対応が仮定された場合,残余対応の空間は仮説付き対応リストの周辺に営まれる曲線の対に制限され,暗黙的に深さの整合性を捉える。 この単純な幾何学的深さ制約(gdc)はポテンシャルマッチングを著しく減少させる。 事実上、これは外乱の数を減らし、RANSACを著しく高速化する可能性のある対応のフィルタとなる。 そのため、同じ予算でRANSACのイテレーションが増加し、さらなる堅牢性と大幅なスピードアップが可能になる。 さらに、本論文では、TUM、ICL-NUIM、RGBD Scenes v2データセットの実験で示されているように、プロセスを高速化するNested RANSACアプローチを提案する。

Relative pose estimation for RGBD cameras is crucial in a number of applications. Previous approaches either rely on the RGB aspect of the images to estimate pose thus not fully making use of depth in the estimation process or estimate pose from the 3D cloud of points that each image produces, thus not making full use of RGB information. This paper shows that if one pair of correspondences is hypothesized from the RGB-based ranked-ordered correspondence list, then the space of remaining correspondences is restricted to corresponding pairs of curves nested around the hypothesized correspondence, implicitly capturing depth consistency. This simple Geometric Depth Constraint (GDC) significantly reduces potential matches. In effect this becomes a filter on possible correspondences that helps reduce the number of outliers and thus expedites RANSAC significantly. As such, the same budget of time allows for more RANSAC iterations and therefore additional robustness and a significant speedup. In addition, the paper proposed a Nested RANSAC approach that also speeds up the process, as shown through experiments on TUM, ICL-NUIM, and RGBD Scenes v2 datasets.
翻訳日:2024-01-03 16:34:04 公開日:2024-01-01
# 局所演算による決定論的フォトニックグラフ生成の最適化

Optimization of deterministic photonic graph state generation via local operations ( http://arxiv.org/abs/2401.00635v1 )

ライセンス: Link先を確認
Sobhan Ghanbari, Jie Lin, Benjamin MacLellan, Luc Robichaud, Piotr Roztocki, and Hoi-Kwong Lo(参考訳) 様々な量子プロトコルにおいて重要なフォトニックグラフ状態を実現することは、線形光学における決定論的絡み合いゲートがないため困難である。 これに対処するため、エミッター量子ビットは光子への絡み合いの確立と伝達に利用される。 本稿では,状態の局所クリフォード等価性とグラフ形状相関生成コストパラメータに基づくプロトコルの最適化手法を提案する。 この手法を用いることで、リピータグラフ状態の生成に2量子ゲートを使用する場合の50%の削減と、15ノードランダムな高密度グラフに対する総ゲート数全体の65%の削減を実現した。

Realizing photonic graph states, crucial in various quantum protocols, is challenging due to the absence of deterministic entangling gates in linear optics. To address this, emitter qubits are leveraged to establish and transfer the entanglement to photons. We introduce an optimization method for such protocols based on the local Clifford equivalency of states and the graph-shape correlated generation cost parameters. Employing this method, we achieve a 50% reduction in use of the 2-qubit gates for generation of the repeater graph states and a 65% reduction in the total gate count for 15-node random dense graphs.
翻訳日:2024-01-03 16:33:42 公開日:2024-01-01
# グラフニューラルネットワーク属性の摂動評価の相違について

On Discprecncies between Perturbation Evaluations of Graph Neural Network Attributions ( http://arxiv.org/abs/2401.00633v1 )

ライセンス: Link先を確認
Razieh Rezaei, Alireza Dizaji, Ashkan Khakzar, Anees Kazi, Nassir Navab, Daniel Rueckert(参考訳) ニューラルネットワークはますますグラフの領域に浸透し、機能間の関係をモデル化している。 同時に、グラフのノード間の関係を明らかにするために、グラフニューラルネットワーク説明アプローチが発明されている。 しかし、既存の帰属法には相違があり、どの帰属が信頼に寄与するかは不明である。 そのため、異なる視点から評価する評価実験が導入された。 本研究では,これまでにグラフ領域で検討されていない視点から帰属法を評価する。 中心となる考え方は、帰属によって特定された重要な(あるいは重要でない)関係に基づいてネットワークを再訓練し、ネットワークがこれらの関係に基づいてどのように一般化できるかを評価することである。 我々は,前回の定式化に潜む問題を回避するために再訓練フレームワークを再構成し,正しい分析のためのガイドラインを提案する。 我々は4つの最先端GNN属性法と5つの合成および実世界のグラフ分類データセットについて分析を行った。 分析の結果,属性はデータセットやネットワークによって変動することがわかった。 最も重要なことは、有名なgnnexplainerが任意のエッジ重要度指定と同様に振る舞うことを観察します。 この研究は、リトレーニング評価を一般化されたベンチマークとして使うことはできないと結論付け、特定のアドレス付きネットワーク、データセット、およびスパーシリティに対する属性を評価するためのツールセットとして推奨する。

Neural networks are increasingly finding their way into the realm of graphs and modeling relationships between features. Concurrently graph neural network explanation approaches are being invented to uncover relationships between the nodes of the graphs. However, there is a disparity between the existing attribution methods, and it is unclear which attribution to trust. Therefore research has introduced evaluation experiments that assess them from different perspectives. In this work, we assess attribution methods from a perspective not previously explored in the graph domain: retraining. The core idea is to retrain the network on important (or not important) relationships as identified by the attributions and evaluate how networks can generalize based on these relationships. We reformulate the retraining framework to sidestep issues lurking in the previous formulation and propose guidelines for correct analysis. We run our analysis on four state-of-the-art GNN attribution methods and five synthetic and real-world graph classification datasets. The analysis reveals that attributions perform variably depending on the dataset and the network. Most importantly, we observe that the famous GNNExplainer performs similarly to an arbitrary designation of edge importance. The study concludes that the retraining evaluation cannot be used as a generalized benchmark and recommends it as a toolset to evaluate attributions on a specifically addressed network, dataset, and sparsity.
翻訳日:2024-01-03 16:33:29 公開日:2024-01-01
# 協調型ディープニューラルネットワーク:汎用エッジオフロードアルゴリズム

Coordinated Deep Neural Networks: A Versatile Edge Offloading Algorithm ( http://arxiv.org/abs/2401.00631v1 )

ライセンス: Link先を確認
Alireza Maleki, Hamed Shah-Mansouri, Babak H. Khalaj(参考訳) 人工知能(AI)アプリケーションが拡大を続けるにつれ、ディープニューラルネットワーク(DNN)モデルの必要性が高まっている。 エッジにデプロイされたDNNモデルは、低レイテンシでAIをサービスとして提供することを約束しているが、その協力はまだ検討されていない。 本稿では、DNNサービスプロバイダが自身の計算資源とモデルパラメータを共有し、ミラーリングなしで他のDNNが計算をオフロードできるようにする。 そこで我々は, エッジ上での協調DNN(\textbf{CoDE})と呼ばれる新しいアルゴリズムを提案し, 個別モデルからマルチタスクDNNを作成することにより, DNNサービス間の協調を容易にする。 CoDEは、推論遅延、モデル精度、局所的な計算負荷を反映したコストが最小となる最適経路を見つけることを目的としている。 CoDEでは、DNNモデルは、独自のモデルや他のモデルのパラメータを使用して、推論のための新しいパスを作成することができる。 次に,数値実験によるCoDEの性能評価を行った。 その結果、ローカルサービス計算のワークロードを7,5\%削減し、精度をわずか2\%に低下させ、バランスの取れた負荷条件で同じ推論時間を持つことが示されている。 重い負荷下では、CoDEは推論時間を30\%$に、精度は4\%$に減らすことができる。

As artificial intelligence (AI) applications continue to expand, there is a growing need for deep neural network (DNN) models. Although DNN models deployed at the edge are promising to provide AI as a service with low latency, their cooperation is yet to be explored. In this paper, we consider the DNN service providers share their computing resources as well as their models' parameters and allow other DNNs to offload their computations without mirroring. We propose a novel algorithm called coordinated DNNs on edge (\textbf{CoDE}) that facilitates coordination among DNN services by creating multi-task DNNs out of individual models. CoDE aims to find the optimal path that results in the lowest possible cost, where the cost reflects the inference delay, model accuracy, and local computation workload. With CoDE, DNN models can make new paths for inference by using their own or other models' parameters. We then evaluate the performance of CoDE through numerical experiments. The results demonstrate a $75\%$ reduction in the local service computation workload while degrading the accuracy by only $2\%$ and having the same inference time in a balanced load condition. Under heavy load, CoDE can further decrease the inference time by $30\%$ while the accuracy is reduced by only $4\%$.
翻訳日:2024-01-03 16:33:08 公開日:2024-01-01
# オフラインcmdpに対する敵意に満ちた俳優批判

Adversarially Trained Actor Critic for offline CMDPs ( http://arxiv.org/abs/2401.00629v1 )

ライセンス: Link先を確認
Honghao Wei, Xiyue Peng, Xin Liu, Arnob Ghosh(参考訳) 本稿では,データカバレッジに制限がある場合の一般関数近似を用いたオフライン強化学習(RL)のためのSATACアルゴリズムを提案する。 SATACは2人プレイのStackelbergゲームとして動作する。 俳優(リーダープレーヤー)は、演技が行動方針に劣るシナリオに焦点を当てた2人の敵に訓練された価値批評家(フォロワープレーヤー)に対するポリシーを最適化する。 我々のフレームワークは、理論的保証と堅牢なディープRL実装の両方を提供します。 理論的には、アクターが非regret最適化オラクルを使用する場合、SATACは2つの保証を達成する。 i) オフラインのRL設定において,SATACが同一レベルの安全性を維持しながら行動ポリシーを上回り,オフラインのRLのためのアルゴリズムの設計に欠かせない政策を創出できることが確認された。 (ii)このアルゴリズムは,広範囲のハイパーパラメータにまたがってポリシー改善を保証し,実用的なロバスト性を示す。 さらに、satacの実用版を提供し、継続的な制御環境で既存の最先端オフラインセーフrlアルゴリズムと比較する。 SATACは様々なタスクで全てのベースラインを上回り、理論的性能を検証する。

We propose a Safe Adversarial Trained Actor Critic (SATAC) algorithm for offline reinforcement learning (RL) with general function approximation in the presence of limited data coverage. SATAC operates as a two-player Stackelberg game featuring a refined objective function. The actor (leader player) optimizes the policy against two adversarially trained value critics (follower players), who focus on scenarios where the actor's performance is inferior to the behavior policy. Our framework provides both theoretical guarantees and a robust deep-RL implementation. Theoretically, we demonstrate that when the actor employs a no-regret optimization oracle, SATAC achieves two guarantees: (i) For the first time in the offline RL setting, we establish that SATAC can produce a policy that outperforms the behavior policy while maintaining the same level of safety, which is critical to designing an algorithm for offline RL. (ii) We demonstrate that the algorithm guarantees policy improvement across a broad range of hyperparameters, indicating its practical robustness. Additionally, we offer a practical version of SATAC and compare it with existing state-of-the-art offline safe-RL algorithms in continuous control environments. SATAC outperforms all baselines across a range of tasks, thus validating the theoretical performance.
翻訳日:2024-01-03 16:32:47 公開日:2024-01-01
# 効率を超越した大規模言語モデルに関する体系的調査

Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models ( http://arxiv.org/abs/2401.00625v1 )

ライセンス: Link先を確認
Guangji Bai, Zheng Chai, Chen Ling, Shiyu Wang, Jiaying Lu, Nan Zhang, Tingwei Shi, Ziyang Yu, Mengdan Zhu, Yifei Zhang, Carl Yang, Yue Cheng, Liang Zhao(参考訳) OpenAIのChatGPTのような洗練されたモデルで実証されたLLM(Large Language Models)の急成長は、人工知能の大きな進歩を表している。 しかし、これらのモデルは計算量、メモリ、エネルギー、金融資源、特に資源能力に乏しい環境での高消費において実質的な課題をもたらす。 本調査は, LLMの資源効率向上を目的とした幅広い手法を概観することにより, これらの課題を体系的に解決することを目的としている。 アーキテクチャ設計,事前トレーニング,微調整,システム設計など,llmライフサイクルのさまざまな段階における計算,メモリ,エネルギー,金融,ネットワークリソースとその適用可能性について,その最適化焦点に基づいて分類する。 さらに,それらの資源タイプによる資源効率技術のニュアンス分類を導入し,様々な資源間の複雑な関係とマッピングと対応する最適化手法を明らかにする。 評価指標とデータセットの標準化されたセットも提示され、さまざまなモデルとテクニックの一貫性と公正な比較を容易にする。 この調査は、現在のソタの包括的概要を提供し、オープンな研究経路を特定することによって、研究者や実践者にとって基礎となる基準となり、急速に発展するランドスケープにおいて、より持続的で効率的なLLMの開発を支援する。

The burgeoning field of Large Language Models (LLMs), exemplified by sophisticated models like OpenAI's ChatGPT, represents a significant advancement in artificial intelligence. These models, however, bring forth substantial challenges in the high consumption of computational, memory, energy, and financial resources, especially in environments with limited resource capabilities. This survey aims to systematically address these challenges by reviewing a broad spectrum of techniques designed to enhance the resource efficiency of LLMs. We categorize methods based on their optimization focus: computational, memory, energy, financial, and network resources and their applicability across various stages of an LLM's lifecycle, including architecture design, pretraining, finetuning, and system design. Additionally, the survey introduces a nuanced categorization of resource efficiency techniques by their specific resource types, which uncovers the intricate relationships and mappings between various resources and corresponding optimization techniques. A standardized set of evaluation metrics and datasets is also presented to facilitate consistent and fair comparisons across different models and techniques. By offering a comprehensive overview of the current sota and identifying open research avenues, this survey serves as a foundational reference for researchers and practitioners, aiding them in developing more sustainable and efficient LLMs in a rapidly evolving landscape.
翻訳日:2024-01-03 16:32:29 公開日:2024-01-01
# 新しいクラス拡張自己蒸留による連合型授業インクリメンタルラーニング

Federated Class-Incremental Learning with New-Class Augmented Self-Distillation ( http://arxiv.org/abs/2401.00622v1 )

ライセンス: Link先を確認
Zhiyuan Wu, Tianliu He, Sheng Sun, Yuwei Wang, Min Liu, Bo Gao, Xuefeng Jiang(参考訳) フェデレートラーニング(FL)は、生データのプライバシーを確保しつつ、参加者間の協調モデルトレーニングを可能にする。 主流のfl方法論は、実世界のデータの動的な性質、特にボリュームの増加傾向や時間とともにクラスが多様化する傾向を見下ろしている。 この見落としによってflメソッドは壊滅的な忘れ去られ、モデルが新しいデータを同化する際に、事前に学習した情報を不注意に破棄する。 この課題に対応するために, FCIL (FedNASD) を新たに導入し, FCIL (FedNASD) という手法を提案する。 FedNASDは、現在のモデルから推測される新しいクラススコアと、過去のモデルの予測を組み合わせる。 過去の知識と現在の知識を組み合わせることで、クライアント上のモデルよりも自己蒸留を取り入れ、歴史モデルから現在のモデルへの効果的な知識伝達を実現する。 理論的解析により、feednasdは新しいクラスがない場合の条件付き確率として古いクラススコアをモデル化することと同値であることが示されている。 さらに、新しいクラスが存在しない歴史的スコアの条件付き確率を洗練させるために、現在のモデルと新しいクラスの予測を一致させる。 経験的な実験により、fenasdが4つのベースラインアルゴリズムよりも優れていることが示され、平均忘れる速度を減少させ、世界的精度を高める。

Federated Learning (FL) enables collaborative model training among participants while guaranteeing the privacy of raw data. Mainstream FL methodologies overlook the dynamic nature of real-world data, particularly its tendency to grow in volume and diversify in classes over time. This oversight results in FL methods suffering from catastrophic forgetting, where models inadvertently discard previously learned information upon assimilating new data. In response to this challenge, we propose a novel Federated Class-Incremental Learning (FCIL) method, named FCIL with New-Class Augmented Self-Distillation (FedNASD). FedNASD combines new class scores, which are inferred from current models, with historical models' predictions. Based on the combined past and present knowledge, it incorporates self-distillation over models on clients, aiming to achieve effective knowledge transfer from historical models to current models. Theoretical analysis demonstrates that FedNASD is equivalent to modeling old class scores as conditional probabilities in the absence of new classes. Additionally, it reconciles the predictions of new classes with current models to refine the conditional probabilities of historical scores where new classes do not exist. Empirical experiments demonstrate the superiority of FedNASD over four baseline algorithms in reducing the average forgetting rate and boosting global accuracy.
翻訳日:2024-01-03 16:32:04 公開日:2024-01-01
# データ拡張ドメイン適応によるプロキシに基づくDeep Metric Learningの改善に向けて

Towards Improved Proxy-based Deep Metric Learning via Data-Augmented Domain Adaptation ( http://arxiv.org/abs/2401.00617v1 )

ライセンス: Link先を確認
Li Ren, Chen Chen, Liqiang Wang, Kien Hua(参考訳) 深度距離学習(Deep Metric Learning, DML)は現代のコンピュータビジョン研究において重要な役割を担っている。 最近のDML技術では、プロキシを使用して埋め込み空間内の対応するイメージサンプルと相互作用する。 しかし,既存のプロキシベースのDML手法では,個々のプロキシ間距離の学習に重点を置いている。 本稿では,サンプルとプロキシ分布の整合性に着目し,プロキシベースのDML損失の効率向上を目的とした,新しいプロキシベースのDMLフレームワークを提案する。 具体的には,データ拡張ドメイン適応法(Data-Augmented Domain Adaptation, DADA)を提案する。 我々の知る限りでは、プロキシベースのDMLの性能を高めるためにドメイン適応を利用するのは、私たちは初めてです。 本手法は既存のプロキシベースのdml損失に容易に接続できることを示す。 CUB-200-2011、CARS196、Stanford Online Products、In-Shop Clothes Retrievalなどのベンチマーク実験により、我々の学習アルゴリズムは既存のプロキシ損失を大幅に改善し、既存の手法と比較して優れた結果が得られることを示した。

Deep Metric Learning (DML) plays an important role in modern computer vision research, where we learn a distance metric for a set of image representations. Recent DML techniques utilize the proxy to interact with the corresponding image samples in the embedding space. However, existing proxy-based DML methods focus on learning individual proxy-to-sample distance while the overall distribution of samples and proxies lacks attention. In this paper, we present a novel proxy-based DML framework that focuses on aligning the sample and proxy distributions to improve the efficiency of proxy-based DML losses. Specifically, we propose the Data-Augmented Domain Adaptation (DADA) method to adapt the domain gap between the group of samples and proxies. To the best of our knowledge, we are the first to leverage domain adaptation to boost the performance of proxy-based DML. We show that our method can be easily plugged into existing proxy-based DML losses. Our experiments on benchmarks, including the popular CUB-200-2011, CARS196, Stanford Online Products, and In-Shop Clothes Retrieval, show that our learning algorithm significantly improves the existing proxy losses and achieves superior results compared to the existing methods.
翻訳日:2024-01-03 16:31:41 公開日:2024-01-01
# 単純群集検出のための単純錯体の量子ウォーク

Quantum walk on simplicial complexes for simplicial community detection ( http://arxiv.org/abs/2401.00699v1 )

ライセンス: Link先を確認
Euijun Song(参考訳) 量子ウォークは量子情報処理における変換パラダイムとして登場し、様々なグラフ問題に適用できる。 本研究では,グラフ構造の高次一般化である単純複体上の離散時間量子ウォークについて検討する。 単純化によって高次相互作用をエンコードする単純複体は、複雑なシステムのよりリッチな位相表現を提供する。 代数トポロジーと離散時間量子ウォークを活用し,単純群集と呼ばれる高次群落構造を検出する量子ウォークアルゴリズムを提案する。 我々はフーリエ硬貨を用いて、単純な複体において隣接する単体間の絡み合った翻訳状態を生成する。 我々の量子アルゴリズムのポテンシャルは、ザカリーの空手部ネットワークでテストされている。 この研究は、代数トポロジーと量子アルゴリズムの交点における複素系を理解することに寄与する。

Quantum walks have emerged as a transformative paradigm in quantum information processing and can be applied to various graph problems. This study explores discrete-time quantum walks on simplicial complexes, a higher-order generalization of graph structures. Simplicial complexes, encoding higher-order interactions through simplices, offer a richer topological representation of complex systems. Leveraging algebraic topology and discrete-time quantum walk, we present a quantum walk algorithm for detecting higher-order community structures called simplicial communities. We utilize the Fourier coin to produce entangled translation states among adjacent simplices in a simplicial complex. The potential of our quantum algorithm is tested on Zachary's karate club network. This study may contribute to understanding complex systems at the intersection of algebraic topology and quantum algorithms.
翻訳日:2024-01-03 16:23:24 公開日:2024-01-01
# 大きな言語モデルが必要なのはそれだけではありません

Large Language Models aren't all that you need ( http://arxiv.org/abs/2401.00698v1 )

ライセンス: Link先を確認
Kiran Voderhobli Holla, Chaithanya Kumar, Aryan Singh(参考訳) 本稿では,SemEval 2023 Task 2: MultiCoNER II (Multilingual Complex Named Entity Recognition) の解決を目的としたアーキテクチャとシステムについて述べる。 2つのアプローチを評価し (a)伝統的な条件付ランダムフィールドモデル及び (b)Large Language Model(LLM)をカスタマイズしたヘッドで微調整し、2つのアプローチを比較する。 探究された斬新なアイデアは 1)補助的損失の減少(残留) - 粗粒NERの補助的タスクでモデルを訓練し、損失関数の一部としてこのタスクを含める。 2)トリプレットトークンブレンド - 予測の前に、ファイナルner層に隣接するトークンの埋め込みをブレンドする方法を検討する。 3) タスク最適化ヘッド(task-optimal head) - llmの最終レイヤのさまざまなカスタムヘッドと学習レートを探索する。 また、gpt-3 を含む複数の llm を探索し、テストデータ上で 0.85/0.84 の micro & macro f1 と 0.67/0.61 を達成する最終モデルに到達する前に、様々なドロップアウトや他のハイパーパラメータの設定を実験します。 事前学習したLLMは,従来のモデルに比べてスコアが大幅に向上する一方で,上述の付加機能/ロス/モデル技術により,マクロF1スコアの具体的な改善が可能であることを示す。

This paper describes the architecture and systems built towards solving the SemEval 2023 Task 2: MultiCoNER II (Multilingual Complex Named Entity Recognition) [1]. We evaluate two approaches (a) a traditional Conditional Random Fields model and (b) a Large Language Model (LLM) fine-tuned with a customized head and compare the two approaches. The novel ideas explored are: 1) Decaying auxiliary loss (with residual) - where we train the model on an auxiliary task of Coarse-Grained NER and include this task as a part of the loss function 2) Triplet token blending - where we explore ways of blending the embeddings of neighboring tokens in the final NER layer prior to prediction 3) Task-optimal heads - where we explore a variety of custom heads and learning rates for the final layer of the LLM. We also explore multiple LLMs including GPT-3 and experiment with a variety of dropout and other hyperparameter settings before arriving at our final model which achieves micro & macro f1 of 0.85/0.84 (on dev) and 0.67/0.61 on the test data . We show that while pre-trained LLMs, by themselves, bring about a large improvement in scores as compared to traditional models, we also demonstrate that tangible improvements to the Macro-F1 score can be made by augmenting the LLM with additional feature/loss/model engineering techniques described above.
翻訳日:2024-01-03 16:23:09 公開日:2024-01-01
# オープンシーンにおける半教師付き物体検出のための信頼できる教師

Credible Teacher for Semi-Supervised Object Detection in Open Scene ( http://arxiv.org/abs/2401.00695v1 )

ライセンス: Link先を確認
Jingyu Zhuang, Kuo Wang, Liang Lin, Guanbin Li(参考訳) SSOD(Semi-Supervised Object Detection)は、ラベルのないデータを活用して検出性能を向上させることで、大きな成功を収めた。 しかし、open scene semi-supervised object detection (o-ssod) では、ラベル付きデータで観測されていない未知のオブジェクトを含む場合があり、既知のオブジェクトに対するモデルの予測の不確実性が高まる。 より不確実性が、偽ラベルのローカライズと分類精度の低下につながるため、主に自己学習に依存する現在の手法には有害である。 そこで我々は,エンドツーエンドのフレームワークであるCredible Teacherを提案する。 Credible Teacherは、フレキシブルなラベルを用いたインタラクティブな教育機構を採用し、不確実な擬似ラベルがモデルを誤解させるのを防ぐ。 実験の結果,O-SSODによる副作用を効果的に抑制し,既存手法よりも有意に優れていた。

Semi-Supervised Object Detection (SSOD) has achieved resounding success by leveraging unlabeled data to improve detection performance. However, in Open Scene Semi-Supervised Object Detection (O-SSOD), unlabeled data may contains unknown objects not observed in the labeled data, which will increase uncertainty in the model's predictions for known objects. It is detrimental to the current methods that mainly rely on self-training, as more uncertainty leads to the lower localization and classification precision of pseudo labels. To this end, we propose Credible Teacher, an end-to-end framework. Credible Teacher adopts an interactive teaching mechanism using flexible labels to prevent uncertain pseudo labels from misleading the model and gradually reduces its uncertainty through the guidance of other credible pseudo labels. Empirical results have demonstrated our method effectively restrains the adverse effect caused by O-SSOD and significantly outperforms existing counterparts.
翻訳日:2024-01-03 16:22:42 公開日:2024-01-01
# 限られた訓練データを用いた皮膚癌診断のための自己教師あり学習

Self-supervised learning for skin cancer diagnosis with limited training data ( http://arxiv.org/abs/2401.00692v1 )

ライセンス: Link先を確認
Hamish Haggerty and Rohitash Chandra(参考訳) 癌の早期発見が予後決定因子であることが多いため、機械学習におけるがん診断はよく研究されている問題である。 教師付き深層学習はがん画像分類において優れた結果をもたらす。 しかし、これらのモデルは大量のラベル付きデータを必要とし、いくつかの種類のがんの場合、大きなラベル付きデータセットは存在しない。 本稿では,Barlow Twinsと呼ばれる自己教師付き学習アルゴリズムを用いて事前学習したモデルが,従来の教師付き移動学習パイプラインよりも優れていることを示す。 2つの基本モデルを並べ替えます 一 イメージネット上の監督的方法による事前訓練 二 イメージネット上の自己監督型で事前訓練すること。 両者はその後、小さなラベル付き皮膚病変データセットで微調整され、大きなテストセットで評価される。 自己監督型転送では平均テスト精度が70 %、教師型転送では66 %である。 興味深いことに、後続の微調整の前に第2の時期(未標識皮膚病変画像上)を自己指導することにより、さらなる向上性能が期待できる。 これは、ラベル付き画像の収集が難しい設定でラベル付きデータを集めるための別の経路を示唆する。 この枠組みは低ラベルデータ領域における癌画像分類モデルに適用可能である。

Cancer diagnosis is a well-studied problem in machine learning since early detection of cancer is often the determining factor in prognosis. Supervised deep learning achieves excellent results in cancer image classification, usually through transfer learning. However, these models require large amounts of labelled data and for several types of cancer, large labelled datasets do not exist. In this paper, we demonstrate that a model pre-trained using a self-supervised learning algorithm known as Barlow Twins can outperform the conventional supervised transfer learning pipeline. We juxtapose two base models: i) pretrained in a supervised fashion on ImageNet; ii) pretrained in a self-supervised fashion on ImageNet. Both are subsequently fine tuned on a small labelled skin lesion dataset and evaluated on a large test set. We achieve a mean test accuracy of 70\% for self-supervised transfer in comparison to 66\% for supervised transfer. Interestingly, boosting performance further is possible by self-supervised pretraining a second time (on unlabelled skin lesion images) before subsequent fine tuning. This hints at an alternative path to collecting more labelled data in settings where this is challenging - namely just collecting more unlabelled images. Our framework is applicable to cancer image classification models in the low-labelled data regime.
翻訳日:2024-01-03 16:22:24 公開日:2024-01-01
# 付加的非パラメトリック回帰に対する確率的グラディエントDescence

Stochastic Gradient Descent for Additive Nonparametric Regression ( http://arxiv.org/abs/2401.00691v1 )

ライセンス: Link先を確認
Xin Chen and Jason M. Klusowski(参考訳) 本稿では,メモリストレージと計算条件が良好な添加モデルを学習するための反復アルゴリズムを提案する。 このアルゴリズムは、成分関数の切断基底展開の係数に適用される確率的勾配降下の関数対応と見なすことができる。 得られた推定器は、モデルミス種別を可能にするオラクルの不等式を満たすことを示す。 また, 3つの異なるトレーニング段階において, 学習率を慎重に選択することで, そのリスクがデータの次元依存性やトレーニングサンプルのサイズに依存し, 最適であることを示す。

This paper introduces an iterative algorithm designed to train additive models with favorable memory storage and computational requirements. The algorithm can be viewed as the functional counterpart of stochastic gradient descent, applied to the coefficients of a truncated basis expansion of the component functions. We show that the resulting estimator satisfies an oracle inequality that allows for model mispecification. In the well-specified setting, by choosing the learning rate carefully across three distinct stages of training, we prove that its risk is minimax optimal in terms of the dependence on the dimensionality of the data and the size of the training sample.
翻訳日:2024-01-03 16:22:05 公開日:2024-01-01
# 多様な命令下での制御可能生成に関する大規模言語モデルのベンチマーク

Benchmarking Large Language Models on Controllable Generation under Diversified Instructions ( http://arxiv.org/abs/2401.00690v1 )

ライセンス: Link先を確認
Yihan Chen, Benfeng Xu, Quan Wang, Yi Liu, Zhendong Mao(参考訳) 大規模言語モデル(LLM)は命令追従能力に優れていますが、それらが様々な命令に関係のある明示的な制約にどの程度反応できるかはいまだ不明です。 LLMアライメントの重要な側面として、そのような特殊な命令セットを定式化し、LLMの振る舞いを調査することが重要である。 そこで本研究では,様々な制約のある命令に対するLLMの応答を体系的かつ包括的に評価する,新しいベンチマークCoDI-Evalを提案する。 一般化とカバレッジを重視したテストスイートとして,制約帰属命令の大規模なコレクションを構築した。 具体的には,多種多様な制約表現を合成し,さらに細粒度のサブカテゴリをも含むタスク分類を意図する。 最後に,評価プロセス全体を自動化し,さらなる発展を促進する。 制御可能なテキスト生成に関する既存の研究とは異なり、codi-evalは初めて一般的な命令追従パラダイムにスコープを広げた。 我々は,CoDI-Eval 上での代表的 LLM (ChatGPT, Vicuna など) を広範囲に評価し,特定の制約で命令に従う際の制限を明らかにした。 このベンチマークは、llmsの命令に対する応答の制御性を改善する研究に役立つと信じています。 私たちのデータとコードはhttps://github.com/xt-cyh/codi-evalで利用可能です。

While large language models (LLMs) have exhibited impressive instruction-following capabilities, it is still unclear whether and to what extent they can respond to explicit constraints that might be entailed in various instructions. As a significant aspect of LLM alignment, it is thus important to formulate such a specialized set of instructions as well as investigate the resulting behavior of LLMs. To address this vacancy, we propose a new benchmark CoDI-Eval to systematically and comprehensively evaluate LLMs' responses to instructions with various constraints. We construct a large collection of constraints-attributed instructions as a test suite focused on both generalization and coverage. Specifically, we advocate an instruction diversification process to synthesize diverse forms of constraint expression and also deliberate the candidate task taxonomy with even finer-grained sub-categories. Finally, we automate the entire evaluation process to facilitate further developments. Different from existing studies on controllable text generation, CoDI-Eval extends the scope to the prevalent instruction-following paradigm for the first time. We provide extensive evaluations of representative LLMs (e.g., ChatGPT, Vicuna) on CoDI-Eval, revealing their limitations in following instructions with specific constraints and there is still a significant gap between open-source and commercial closed-source LLMs. We believe this benchmark will facilitate research into improving the controllability of LLMs' responses to instructions. Our data and code are available at https://github.com/Xt-cyh/CoDI-Eval.
翻訳日:2024-01-03 16:21:55 公開日:2024-01-01
# 聖書感情分析のための大規模言語モデル:マウントでのサーモン

Large language model for Bible sentiment analysis: Sermon on the Mount ( http://arxiv.org/abs/2401.00689v1 )

ライセンス: Link先を確認
Mahek Vora, Tom Blau, Vansh Kachhwal, Ashu M. G. Solo, Rohitash Chandra(参考訳) 大規模言語モデルによる自然言語処理の革命は、社会科学や人文科学、特に比較宗教を含む多分野の分野においてその利用を動機付けた。 感覚分析は、テキストで表される感情を研究するメカニズムを提供する。 近年、ヒンドゥー教の基本かつ神聖なテキストであるバガヴァド・ギタの翻訳を研究し比較するために感情分析が用いられている。 本研究では,聖書選択章の研究に感情分析を用いた。 これらの章は山上の説教として知られる。 プレトレーニング言語モデルを用いて感情分析を行い,キング・ジェームズ版,新しい国際版,改訂版,ラムサ版,ベーシック・イングリッシュ版を含む,マウント上の説教の5つの翻訳をレビューした。 感情分析と意味分析を用いて,章毎,章毎,節毎の比較を行い,主な感情をレビューする。 この結果は章や詩の様々な感情を浮き彫りにしている。 その結果,各翻訳の語彙は大きく異なることがわかった。 我々は、イエスが伝言を届けるために使用した各章で、異なるレベルのユーモア、楽観主義、共感を発見した。

The revolution of natural language processing via large language models has motivated its use in multidisciplinary areas that include social sciences and humanities and more specifically, comparative religion. Sentiment analysis provides a mechanism to study the emotions expressed in text. Recently, sentiment analysis has been used to study and compare translations of the Bhagavad Gita, which is a fundamental and sacred Hindu text. In this study, we use sentiment analysis for studying selected chapters of the Bible. These chapters are known as the Sermon on the Mount. We utilize a pre-trained language model for sentiment analysis by reviewing five translations of the Sermon on the Mount, which include the King James version, the New International Version, the New Revised Standard Version, the Lamsa Version, and the Basic English Version. We provide a chapter-by-chapter and verse-by-verse comparison using sentiment and semantic analysis and review the major sentiments expressed. Our results highlight the varying sentiments across the chapters and verses. We found that the vocabulary of the respective translations is significantly different. We detected different levels of humour, optimism, and empathy in the respective chapters that were used by Jesus to deliver his message.
翻訳日:2024-01-03 16:21:29 公開日:2024-01-01
# 確率的ブロックモデルを用いた帰納的ハイパーグラフのコミュニティ構造の推定

Inferring community structure in attributed hypergraphs using stochastic block models ( http://arxiv.org/abs/2401.00688v1 )

ライセンス: Link先を確認
Kazuki Nakajima, Takeaki Uno(参考訳) ハイパーグラフは、2つ以上の実体間の相互作用を含む複雑なシステムの表現であり、現実世界の複雑なシステムにおける高次構造と力学の研究を可能にする。 コミュニティ構造は、様々なドメインの経験的ネットワークで観測される共通の特性である。 確率ブロックモデルはネットワーク内のコミュニティ構造を調べるために用いられている。 ノード属性データはネットワークデータに付随することが多く、ディヤドネットワークにおけるコミュニティ構造の学習を促進する可能性がある。 本研究では,確率的ブロックモデルを用いて,ノード属性データをハイパーグラフにおけるコミュニティ構造の学習に組み込む統計的枠組みを開発した。 我々は,ノード属性がコミュニティと十分に結びついている場合に,ハイパーネオと呼ばれるモデルにより,合成および経験的ハイパーグラフにおけるコミュニティ構造の学習が促進されることを実証した。 さらに、我々のモデルを含む確率的ブロックモデルを用いて得られた学習表現に次元還元法 UMAP を適用し、ノードを2次元ベクトル空間にマッピングし、経験的ハイパーグラフのコミュニティ構造を概ね保存することを示した。 我々は,現実世界の複合システムにおける高次コミュニティ構造の調査と理解の拡大を期待する。

Hypergraphs are a representation of complex systems involving interactions among more than two entities and allow to investigation of higher-order structure and dynamics in real-world complex systems. Community structure is a common property observed in empirical networks in various domains. Stochastic block models have been employed to investigate community structure in networks. Node attribute data, often accompanying network data, has been found to potentially enhance the learning of community structure in dyadic networks. In this study, we develop a statistical framework that incorporates node attribute data into the learning of community structure in a hypergraph, employing a stochastic block model. We demonstrate that our model, which we refer to as HyperNEO, enhances the learning of community structure in synthetic and empirical hypergraphs when node attributes are sufficiently associated with the communities. Furthermore, we found that applying a dimensionality reduction method, UMAP, to the learned representations obtained using stochastic block models, including our model, maps nodes into a two-dimensional vector space while largely preserving community structure in empirical hypergraphs. We expect that our framework will broaden the investigation and understanding of higher-order community structure in real-world complex systems.
翻訳日:2024-01-03 16:21:10 公開日:2024-01-01
# ハイブリッドNOMA-OFDMを用いたHAP統合LEOコンステレーションのためのコミュニケーション効率の良いフェデレーション学習

Communication-Efficient Federated Learning for LEO Constellations Integrated with HAPs Using Hybrid NOMA-OFDM ( http://arxiv.org/abs/2401.00685v1 )

ライセンス: Link先を確認
Mohamed Elmahallawy, Tie Luo, Khaled Ramadan(参考訳) 宇宙AIは、政府、企業、社会にとってますます重要で、時には必要となってきた。 このミッションにおける活発な研究テーマは、多くの低軌道(LEO)衛星が機械学習モデルを協調的に訓練できるように、連邦学習(FL)と衛星通信(SatCom)を統合することである。 しかし、SatComの特別なコミュニケーション環境は、非常に遅いFLトレーニングプロセスに何日も何週間もかかります。 本稿では, LEO衛星に適した新しいFL-SatComアプローチであるNomaFedHAPを提案し, 1) 高高度プラットフォーム(HAP)を分散パラメータサーバ(PS)として利用し, 2) LEOに非直交多重アクセス(NOMA)を導入して高速かつ帯域幅効率のモデル伝送を実現する。 さらに、nomafedhapは(3)hapを利用して異なる軌道間の衛星を橋渡ししてドップラーシフトを緩和する新しい通信トポロジー、(4)異なる軌道とシェルの間のモデルを最適にバランスさせる新しいflモデル集約スキームを含む。 さらに,(5)近距離および遠距離における衛星の停止確率とシステム全体の停止確率の閉形式式を導出する。 提案手法は,シミュレーションにより数学的解析を検証し,最先端と比較して高速かつ効率的なflモデル収束を実現する上で,nomafedhapの優れた性能を実証した。

Space AI has become increasingly important and sometimes even necessary for government, businesses, and society. An active research topic under this mission is integrating federated learning (FL) with satellite communications (SatCom) so that numerous low Earth orbit (LEO) satellites can collaboratively train a machine learning model. However, the special communication environment of SatCom leads to a very slow FL training process up to days and weeks. This paper proposes NomaFedHAP, a novel FL-SatCom approach tailored to LEO satellites, that (1) utilizes high-altitude platforms (HAPs) as distributed parameter servers (PS) to enhance satellite visibility, and (2) introduces non-orthogonal multiple access (NOMA) into LEO to enable fast and bandwidth-efficient model transmissions. In addition, NomaFedHAP includes (3) a new communication topology that exploits HAPs to bridge satellites among different orbits to mitigate the Doppler shift, and (4) a new FL model aggregation scheme that optimally balances models between different orbits and shells. Moreover, we (5) derive a closed-form expression of the outage probability for satellites in near and far shells, as well as for the entire system. Our extensive simulations have validated the mathematical analysis and demonstrated the superior performance of NomaFedHAP in achieving fast and efficient FL model convergence with high accuracy as compared to the state-of-the-art.
翻訳日:2024-01-03 16:20:52 公開日:2024-01-01
# 電子鼻からドープ導電性高分子情報抽出のための時間フィルター

A Temporal Filter to Extract Doped Conducting Polymer Information Features from an Electronic Nose ( http://arxiv.org/abs/2401.00684v1 )

ライセンス: Link先を確認
Wiem Haj Ammar, Aicha Boujnah, Antoine Baron, Aimen Boubaker, Adel Kalboussi, Kamal Lmimouni and Sebastien Pecqueur(参考訳) マルチセンシングプラットフォームで関連する機械学習機能を特定することは、環境を認識するための応用的制限であり、情報処理におけるトランスデューサの相補性の物理的関連性を解釈する必要性でもある。 特に長期取得の場合、特徴抽出は人間の介入なしに完全に自動化され、分類器の計算コストを大幅に増大させることなく摂動に耐性を持たなければならない。 本研究では, 環境認識のための低コスト情報記述器において, 指数平均を浮動小数点として用いる24次元導電性電子鼻の相対抵抗と電流変調について検討した。 特に, 線形分類器の構造によって, 「モデマ」記述子は, 情報パターンを分類するために, 様々な材料センシング要素の寄与に最適化されている。 低パスフィルタリング最適化は、教師なし学習と教師なし学習の間に逆の振る舞いをもたらす:後者は、より長い参照の統合を好んでおり、90%以上の5つの異なるクラスを認識できる。 その電子実装は、人間の監督なしにオンボード環境認識のための導電性電子鼻の計算要件を大幅に減少させる。

Identifying relevant machine-learning features for multi-sensing platforms is both an applicative limitation to recognize environments and a necessity to interpret the physical relevance of transducers' complementarity in their information processing. Particularly for long acquisitions, feature extraction must be fully automatized without human intervention and resilient to perturbations without increasing significantly the computational cost of a classifier. In this study, we investigate on the relative resistance and current modulation of a 24-dimensional conductimetric electronic nose, which uses the exponential moving average as a floating reference in a low-cost information descriptor for environment recognition. In particular, we identified that depending on the structure of a linear classifier, the 'modema' descriptor is optimized for different material sensing elements' contributions to classify information patterns. The low-pass filtering optimization leads to opposite behaviors between unsupervised and supervised learning: the latter one favors longer integration of the reference, allowing to recognize five different classes over 90%, while the first one prefers using the latest events as its reference to clusterize patterns by environment nature. Its electronic implementation shall greatly diminish the computational requirements of conductimetric electronic noses for on-board environment recognition without human supervision.
翻訳日:2024-01-03 16:20:27 公開日:2024-01-01
# ロボット支援手術における自律性向上のための汎用基礎モデル

General-purpose foundation models for increased autonomy in robot-assisted surgery ( http://arxiv.org/abs/2401.00678v1 )

ライセンス: Link先を確認
Samuel Schmidgall, Ji Woong Kim, Alan Kuntz, Ahmed Ezzat Ghazi, Axel Krieger(参考訳) エンドツーエンドのロボット学習における支配的なパラダイムは、物体の拾い上げや目標位置の到達といった単一のロボット問題を解決するタスク固有の目的を最適化することに焦点を当てている。 しかし、最近のロボット工学における高容量モデルの研究は、ビデオデモの多様なタスクに依存しないデータセットの大規模なコレクションでトレーニングされることを約束している。 これらのモデルは、特にデータ量やモデルの複雑さのスケールなど、目に見えない状況に対する印象深い一般化レベルを示している。 Surgical robot systems that learn from data have struggled to advance as quickly as other fields of robot learning for a few reasons: (1) there is a lack of existing large-scale open-source data to train models, (2) it is challenging to model the soft-body deformations that these robots work with during surgery because simulation cannot match the physical and visual complexity of biological tissue, and (3) surgical robots risk harming patients when tested in clinical trials and require more extensive safety measures. 本稿では,多目的・多目的・多言語対応型手術ロボットの開発を通じて,ロボット支援手術における自律性向上を目指す。 最終的には,手術ロボットは汎用モデルの利点を享受し,ロボット支援手術における自律性向上に向けての3つの指針を提供する。

The dominant paradigm for end-to-end robot learning focuses on optimizing task-specific objectives that solve a single robotic problem such as picking up an object or reaching a target position. However, recent work on high-capacity models in robotics has shown promise toward being trained on large collections of diverse and task-agnostic datasets of video demonstrations. These models have shown impressive levels of generalization to unseen circumstances, especially as the amount of data and the model complexity scale. Surgical robot systems that learn from data have struggled to advance as quickly as other fields of robot learning for a few reasons: (1) there is a lack of existing large-scale open-source data to train models, (2) it is challenging to model the soft-body deformations that these robots work with during surgery because simulation cannot match the physical and visual complexity of biological tissue, and (3) surgical robots risk harming patients when tested in clinical trials and require more extensive safety measures. This perspective article aims to provide a path toward increasing robot autonomy in robot-assisted surgery through the development of a multi-modal, multi-task, vision-language-action model for surgical robots. Ultimately, we argue that surgical robots are uniquely positioned to benefit from general-purpose models and provide three guiding actions toward increased autonomy in robot-assisted surgery.
翻訳日:2024-01-03 16:20:07 公開日:2024-01-01
# Digger:大規模言語モデルトレーニングにおける著作権侵害の検知

Digger: Detecting Copyright Content Mis-usage in Large Language Model Training ( http://arxiv.org/abs/2401.00676v1 )

ライセンス: Link先を確認
Haodong Li, Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei Zhang, Yang Liu, Guoai Xu, Guosheng Xu, Haoyu Wang(参考訳) 広範囲で多様なデータセットを利用する事前トレーニングは、多数のアプリケーションにわたる大規模言語モデル(LLM)の成功の重要な要因である。 しかし、これらのデータセットの詳細な構成は公開されていないことが多く、データセキュリティと潜在的な誤用に関する懸念につながっている。 これは、著作権のある素材が故意に、意図的に、または意図せず、著者の権利を侵害している場合に特に適切である。 本稿では,LLMのトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するための詳細なフレームワークを提案する。 このフレームワークはまた、各コンテンツサンプルの包摂可能性の信頼度推定も提供する。 提案手法の有効性を検証するため,LLMトレーニングプロセスにおけるコンテンツ誤用事例の特定と対処におけるフレームワークの有効性を検証したシミュレーション実験を行った。 さらに,これらのデータセットに含まれる有名な文学作品の引用文の存在について検討する。 本研究の結果は, LLMの発展における著作権資料の倫理的利用の確保に重要な意味を持ち, この分野における透明性と責任を負うデータ管理の実践の必要性を強調している。

Pre-training, which utilizes extensive and varied datasets, is a critical factor in the success of Large Language Models (LLMs) across numerous applications. However, the detailed makeup of these datasets is often not disclosed, leading to concerns about data security and potential misuse. This is particularly relevant when copyrighted material, still under legal protection, is used inappropriately, either intentionally or unintentionally, infringing on the rights of the authors. In this paper, we introduce a detailed framework designed to detect and assess the presence of content from potentially copyrighted books within the training datasets of LLMs. This framework also provides a confidence estimation for the likelihood of each content sample's inclusion. To validate our approach, we conduct a series of simulated experiments, the results of which affirm the framework's effectiveness in identifying and addressing instances of content misuse in LLM training processes. Furthermore, we investigate the presence of recognizable quotes from famous literary works within these datasets. The outcomes of our study have significant implications for ensuring the ethical use of copyrighted materials in the development of LLMs, highlighting the need for more transparent and responsible data management practices in this field.
翻訳日:2024-01-03 16:19:46 公開日:2024-01-01
# 対称部分空間外の連続時間結晶におけるエキゾチック同期

Exotic synchronization in continuous time crystals outside the symmetric subspace ( http://arxiv.org/abs/2401.00675v1 )

ライセンス: Link先を確認
Parvinder Solanki, Midhun Krishna, Michal Hajdu\v{s}ek, Christoph Bruder and Sai Vinjanampathy(参考訳) スピン系の対称部分空間における連続時間結晶(ctcs)の探索は、近年は集中的な研究の対象となっている。 これまでのところ、そのようなスピン系における対称部分空間の外側の時間-結晶相の安定性はほとんど解明されていない。 ここでは、非対称部分空間が駆動散逸スピンモデルにおけるCTCの力学に与える影響について検討する。 この結果、マルチスタビリティが得られ、ダイナミクスは初期状態に依存するようになる。 驚くべきことに、この多重性は、結合された同一のctcのアンサンブルにおけるキメラ状態やクラスタ同期のようなエキゾチックな同期レジームをもたらす。

Exploring continuous time crystals (CTCs) within the symmetric subspace of spin systems has been a subject of intensive research in recent times. Thus far, the stability of the time-crystal phase outside the symmetric subspace in such spin systems has gone largely unexplored. Here, we investigate the effect of including the asymmetric subspaces on the dynamics of CTCs in a driven dissipative spin model. This results in multistability, and the dynamics becomes dependent on the initial state. Remarkably, this multistability leads to exotic synchronization regimes such as chimera states and cluster synchronization in an ensemble of coupled identical CTCs.
翻訳日:2024-01-03 16:19:27 公開日:2024-01-01
# 重機, 非リプシッツ, 高次元における(正規化)サンプル平均近似のための新しい試料複雑度境界

New Sample Complexity Bounds for (Regularized) Sample Average Approximation in Several Heavy-Tailed, Non-Lipschitzian, and High-Dimensional Cases ( http://arxiv.org/abs/2401.00664v1 )

ライセンス: Link先を確認
Hongcheng Liu and Jindong Tong(参考訳) 本研究では, サンプル平均近似 (SAA) のサンプル複雑性と, 正規化SAA (RSAA) と呼ばれる, 重み付き, 非リプシッツ性, および/または高次元性の下での凸および強凸確率計画 (SP) 問題の解法について検討した。 このような不規則さの存在は、文学における重要な空白を浮き彫りにする。 第一に、目的関数が必ずしもリプシッツでなくても(R)SAAが有効であることを示し、基礎となる分布は(近傍)最適解においてのみ有界な中心モーメントを許容する。 第二に、SP の目的関数が滑らかな項とリプシッツ項の和であるとき、(R)SAA のサンプルの複雑さが実現可能な領域の任意の複雑性測度(例えば被覆数)から完全に独立であることを証明する。 第3に、次元への依存に関して、(r)saa のサンプル複雑性を次のように説明する: 基礎となる分布の中央モーメントの p$th (p\geq 2$) が有界であるとき、必要なサンプルサイズが$\mathcal o\left(p d^{2/p}\right)$ 以下の3つの構造的仮定のいずれかの下でも増加することを示す。 (i)強い凸性 w.r.t. the $q$-norm (q\geq 1$); (ii)制限された強い凸性とスパース性の組み合わせ (iii)最適解の次元非感受性$q$ノルム。 どちらの場合も (i)および (iii)$p\leq q/(q-1)$をさらに要求する。 直接的な意味として、 (R)SAA の複雑性は (poly-)logarithmic in $d$ となり、ある定数 $c>0$ に対して $p\geq c\cdot \ln d$ が許容される。 これらの新しい結果は、$d$で多項式的に成長するSAAの典型的なサンプル複雑度から逸脱する。 我々の証明の一部は、(R)SAAの分析において新しいものと思われる平均交換1(RO)安定性に基づいている。

We study the sample complexity of sample average approximation (SAA) and its simple variations, referred to as the regularized SAA (RSAA), in solving convex and strongly convex stochastic programming (SP) problems under heavy-tailed-ness, non-Lipschitz-ness, and/or high dimensionality. The presence of such irregularities underscores critical vacua in the literature. In response, this paper presents three sets of results: First, we show that the (R)SAA is effective even if the objective function is not necessarily Lipschitz and the underlying distribution admits some bounded central moments only at (near-)optimal solutions. Second, when the SP's objective function is the sum of a smooth term and a Lipschitz term, we prove that the (R)SAA's sample complexity is completely independent from any complexity measures (e.g., the covering number) of the feasible region. Third, we explicate the (R)SAA's sample complexities with regard to the dependence on dimensionality $d$: When some $p$th ($p\geq 2$) central moment of the underlying distribution is bounded, we show that the required sample size grows at a rate no worse than $\mathcal O\left(p d^{2/p}\right)$ under any one of the three structural assumptions: (i) strong convexity w.r.t. the $q$-norm ($q\geq 1$); (ii) the combination of restricted strong convexity and sparsity; and (iii) a dimension-insensitive $q$-norm of an optimal solution. In both cases of (i) and (iii), it is further required that $p\leq q/(q-1)$. As a direct implication, the (R)SAA's complexity becomes (poly-)logarithmic in $d$, whenever $p\geq c\cdot \ln d$ is admissible for some constant $c>0$. These new results deviate from the SAA's typical sample complexities that grow polynomially with $d$. Part of our proof is based on the average-replace-one (RO) stability, which appears to be novel for the (R)SAA's analyses.
翻訳日:2024-01-03 16:19:19 公開日:2024-01-01
# 第5回lsvosチャレンジの1位:ビデオオブジェクトのセグメンテーションを参照

1st Place Solution for 5th LSVOS Challenge: Referring Video Object Segmentation ( http://arxiv.org/abs/2401.00663v1 )

ライセンス: Link先を確認
Zhuoyan Luo, Yicheng Xiao, Yong Liu, Yitong Wang, Yansong Tang, Xiu Li, Yujiu Yang(参考訳) 最近のトランスフォーマーベースのモデルは、優れたパフォーマンスのためにReferring Video Object Segmentation (RVOS)タスクを支配している。 以前のほとんどの作業では、クエリ・トゥ・インスタンス方式でセグメンテーションマスクを生成するために統一されたdetrフレームワークを採用している。 この作業では、主要なRVOSモデルの強みを統合し、効果的なパラダイムを構築します。 まず、RVOSモデルから二項マスク列を得る。 マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。 各ステージは、フレームワーク設計とトレーニング戦略に基づいてRVOSモデルを合理的にアンサンブルし、異なるビデオオブジェクトセグメンテーション(VOS)モデルを活用して、オブジェクト伝搬機構によるマスクコヒーレンスを向上させる。 ref-youtube-vos検証セットでは75.7%,テストセットでは70%のj&fを達成し,第5回大規模ビデオオブジェクトセグメンテーションチャレンジ(iccv 2023)トラックでは第1位となった。 コードはhttps://github.com/RobertLuo1/iccv2023_RVOS_Challengeで入手できる。

The recent transformer-based models have dominated the Referring Video Object Segmentation (RVOS) task due to the superior performance. Most prior works adopt unified DETR framework to generate segmentation masks in query-to-instance manner. In this work, we integrate strengths of that leading RVOS models to build up an effective paradigm. We first obtain binary mask sequences from the RVOS models. To improve the consistency and quality of masks, we propose Two-Stage Multi-Model Fusion strategy. Each stage rationally ensembles RVOS models based on framework design as well as training strategy, and leverages different video object segmentation (VOS) models to enhance mask coherence by object propagation mechanism. Our method achieves 75.7% J&F on Ref-Youtube-VOS validation set and 70% J&F on test set, which ranks 1st place on 5th Large-scale Video Object Segmentation Challenge (ICCV 2023) track 3. Code is available at https://github.com/RobertLuo1/iccv2023_RVOS_Challenge.
翻訳日:2024-01-03 16:18:34 公開日:2024-01-01
# サブスペース分離を超えて:光フィールド画像超解像のための多対多変換器

Beyond Subspace Isolation: Many-to-Many Transformer for Light Field Image Super-resolution ( http://arxiv.org/abs/2401.00740v1 )

ライセンス: Link先を確認
Zeke Zexi Hu, Xiaoming Chen, Vera Yuk Ying Chung, Yiran Shen(参考訳) 光場画像超解像(LFSR)タスクにおいて,空間角の特徴を効果的に抽出することが重要な役割を担い,畳み込みと変圧器の導入によりこの分野の大幅な改善につながった。 それでも、光田画像の4Dデータ量が大きいため、多くの既存手法はデータを複数の低次元部分空間に分解し、各サブ空間でトランスフォーマーを個別に実行する。 副作用として、これらの手法は必然的にLFデータの限られたサブセットのみにアクセスする1対1のスキームに自己認識機構を制限し、すべての空間的および角的キューに対する包括的な最適化を明示的に防止する。 本稿では,この制限を部分空間分離として認識し,それに対応する新しいM2MTを提案する。 m2mtは自己アテンション機構を実行する前に空間部分空間に角情報を集約する。 これにより、光フィールド画像内の全てのサブアパーチャ画像(SAI)全体への完全なアクセスが可能になる。 その結果、M2MTは長距離相関関係を包括的に捉えることができる。 M2MTを主成分とし、LFSRのための単純で効果的なM2MTネットワークを開発する。 実験の結果,M2MTは様々な公開データセットで最先端の性能を達成できた。 さらに,局所帰属マップ (LAM) を用いて深度解析を行い,M2MT が空間的・角的部分空間において真の非局所的文脈で有効であり,部分空間の分離を緩和し,空間的・角的表現を効果的に獲得できることを示す。

The effective extraction of spatial-angular features plays a crucial role in light field image super-resolution (LFSR) tasks, and the introduction of convolution and Transformers leads to significant improvement in this area. Nevertheless, due to the large 4D data volume of light field images, many existing methods opted to decompose the data into a number of lower-dimensional subspaces and perform Transformers in each sub-space individually. As a side effect, these methods inadvertently restrict the self-attention mechanisms to a One-to-One scheme accessing only a limited subset of LF data, explicitly preventing comprehensive optimization on all spatial and angular cues. In this paper, we identify this limitation as subspace isolation and introduce a novel Many-to-Many Transformer (M2MT) to address it. M2MT aggregates angular information in the spatial subspace before performing the self-attention mechanism. It enables complete access to all information across all sub-aperture images (SAIs) in a light field image. Consequently, M2MT is enabled to comprehensively capture long-range correlation dependencies. With M2MT as the pivotal component, we develop a simple yet effective M2MT network for LFSR. Our experimental results demonstrate that M2MT achieves state-of-the-art performance across various public datasets. We further conduct in-depth analysis using local attribution maps (LAM) to obtain visual interpretability, and the results validate that M2MT is empowered with a truly non-local context in both spatial and angular subspaces to mitigate subspace isolation and acquire effective spatial-angular representation.
翻訳日:2024-01-03 16:12:04 公開日:2024-01-01
# DiffMorph:拡散モデルによるテキストレス画像モーフィング

DiffMorph: Text-less Image Morphing with Diffusion Models ( http://arxiv.org/abs/2401.00739v1 )

ライセンス: Link先を確認
Shounak Chatterjee(参考訳) テキスト条件付き画像生成モデルは、AI画像合成の一般的な用途であるが、アーティストが導いた出力を直感的に制御することは依然として困難である。 現在の方法では、オブジェクトごとに複数のイメージとテキストプロンプトを指定して、単一のカスタマイズされたイメージを生成する必要がある。 一方、我々の研究である \verb|DiffMorph| は、テキストプロンプトを使わずに概念を混合するイメージを合成する新しいアプローチを導入している。 本研究は,ユーザのスケッチを入力として組み込むためのsketch-to-imageモジュールを統合する。 \verb|diffmorph| は初期画像をコンディショニングアーティストが描画したスケッチで取得し、モーフィック画像を生成する。 事前学習したテキストから画像への拡散モデルを用いて,各画像を忠実に再構成する。 スケッチからイメージとコンセプトをシームレスに結合し、凝集した構成にします。 本研究のイメージ生成能力は,本研究の結果とプロンプトベース画像生成との比較により実証された。

Text-conditioned image generation models are a prevalent use of AI image synthesis, yet intuitively controlling output guided by an artist remains challenging. Current methods require multiple images and textual prompts for each object to specify them as concepts to generate a single customized image. On the other hand, our work, \verb|DiffMorph|, introduces a novel approach that synthesizes images that mix concepts without the use of textual prompts. Our work integrates a sketch-to-image module to incorporate user sketches as input. \verb|DiffMorph| takes an initial image with conditioning artist-drawn sketches to generate a morphed image. We employ a pre-trained text-to-image diffusion model and fine-tune it to reconstruct each image faithfully. We seamlessly merge images and concepts from sketches into a cohesive composition. The image generation capability of our work is demonstrated through our results and a comparison of these with prompt-based image generation.
翻訳日:2024-01-03 16:11:36 公開日:2024-01-01
# プロダクトカタログによる検索、高速、低速の検索

Searching, fast and slow, through product catalogs ( http://arxiv.org/abs/2401.00737v1 )

ライセンス: Link先を確認
Dayananda Ubrangala, Juhi Sharma, Sharath Kumar Rangappa, Kiran R, Ravi Prasad Kondapalli, Laurent Bou\'e(参考訳) SKU(Stock Keeping Unit)製品カタログのような略式が存在する場合の文字列マッチングアルゴリズムは、いまだに未解明のトピックである。 本稿では,リアルタイム提案システム(trieデータ構造に基づく)と低レイテンシ検索システム(文字レベルtf-idfと言語モデルベクトル埋め込みを併用して利用する)の両方を提供し,ユーザが明示的に検索プロセスを開始するsku検索の統一アーキテクチャを提案する。 速度と精度の微妙なトレードオフに対処するため,複数のコンポーネントからなる複雑な検索システムの設計を正当化するアブレーション研究を行う。 Dynamics CRMのSKU検索を例にとり、デフォルトの検索エンジンによって提供される結果のあらゆる面で、我々のシステムがいかに優れているかを示す。 最後に、SKU記述を生成テキストモデル(gpt-3.5-turbo)を用いて拡張することにより、検索結果の利用者が、SKU検索の結果を提示すると、よりコンテキストと一般的により良い体験が得られることを示す。

String matching algorithms in the presence of abbreviations, such as in Stock Keeping Unit (SKU) product catalogs, remains a relatively unexplored topic. In this paper, we present a unified architecture for SKU search that provides both a real-time suggestion system (based on a Trie data structure) as well as a lower latency search system (making use of character level TF-IDF in combination with language model vector embeddings) where users initiate the search process explicitly. We carry out ablation studies that justify designing a complex search system composed of multiple components to address the delicate trade-off between speed and accuracy. Using SKU search in the Dynamics CRM as an example, we show how our system vastly outperforms, in all aspects, the results provided by the default search engine. Finally, we show how SKU descriptions may be enhanced via generative text models (using gpt-3.5-turbo) so that the consumers of the search results may get more context and a generally better experience when presented with the results of their SKU search.
翻訳日:2024-01-03 16:11:20 公開日:2024-01-01
# 拡散モデル、画像の超解像とすべて:調査

Diffusion Models, Image Super-Resolution And Everything: A Survey ( http://arxiv.org/abs/2401.00736v1 )

ライセンス: Link先を確認
Brian B. Moser, Arundhati S. Shanbhag, Federico Raue, Stanislav Frolov, Sebastian Palacio and Andreas Dengel(参考訳) 拡散モデル (DM) は画像超解法 (SR) の大幅な進歩を示し、技術的画質を人間の嗜好とより密に調整し、SRアプリケーションを拡張する。 DMは従来の手法の限界に対処し、SR画像の全体的リアリズムと詳細を強化する。 しかし、dmはカラーシフトの問題に苦しんでおり、その高い計算コストは効率的なサンプリング代替案を求め、計算効率と画質のバランスをとるという課題を補っている。 本調査では,画像SRに適用されたDMの概要について概説し,領域内における特徴と方法論の基盤となる詳細な分析について述べる。 dm基本の統一的な見解を示し、代替入力ドメイン、コンディショニング戦略、ガイダンス、腐敗空間、ゼロショットメソッドを含む研究の方向性を探求する。 この調査は、画像SRのDMによる進化に関する洞察を提供し、この急速に発展する分野における現在のトレンド、課題、今後の方向性に対処する。

Diffusion Models (DMs) represent a significant advancement in image Super-Resolution (SR), aligning technical image quality more closely with human preferences and expanding SR applications. DMs address critical limitations of previous methods, enhancing overall realism and details in SR images. However, DMs suffer from color-shifting issues, and their high computational costs call for efficient sampling alternatives, underscoring the challenge of balancing computational efficiency and image quality. This survey gives an overview of DMs applied to image SR and offers a detailed analysis that underscores the unique characteristics and methodologies within this domain, distinct from broader existing reviews in the field. It presents a unified view of DM fundamentals and explores research directions, including alternative input domains, conditioning strategies, guidance, corruption spaces, and zero-shot methods. This survey provides insights into the evolution of image SR with DMs, addressing current trends, challenges, and future directions in this rapidly evolving field.
翻訳日:2024-01-03 16:11:02 公開日:2024-01-01
# NightRain: Adaptive-Rain-DemovalとAdaptive-Correctionによる夜間ビデオのデライニング

NightRain: Nighttime Video Deraining via Adaptive-Rain-Removal and Adaptive-Correction ( http://arxiv.org/abs/2401.00729v1 )

ライセンス: Link先を確認
Beibei Lin, Yeying Jin, Wending Yan, Wei Ye, Yuan Yuan, Shunli Zhang, Robby Tan(参考訳) 既存の深層学習に基づく夜間ビデオの流用方法は、実世界のペアデータがないため、合成データに依存している。 しかし、現実世界の複雑さ、特に騒音による光の影響や低照度領域の存在は、大きな領域ギャップを生じさせ、雨害を適切に除去する合成訓練モデルを妨げ、過飽和や色の変化をもたらす。 そこで我々はNightRainを紹介した。NightRainはアダプティブレイン除去法とアダプティブレイン補正法である。 当社のadaptive-rain-removalは、ラベルなしの雨動画を使用して、特に複雑な光の影響のある地域で、実世界の雨動画をレーディングできるようにしています。 このモデルでは,信頼度スコアに基づいて雨のない地域を得ることが目的である。 雨のない地域と入力から対応する地域が得られたら、地域ベースの対の実データが得られる。 これらのペアデータを使用して、教師と教師のフレームワークを使ってモデルのトレーニングを行い、モデルがより難しい領域からより困難な領域へと反復的に学習できるようにします。 適応補正は、過飽和や色の変化など、モデルの予測におけるエラーの修正を目的としています。 そのアイデアは、これらの入力ビデオとそれに対応する予測との差や距離に基づいて、明快な夜間入力訓練ビデオから学ぶことである。 私たちのモデルはこれらの違いから学び、モデルにエラーを修正するように促します。 広範な実験から,本手法は最先端の性能を示す。 PSNRは26.73dBで、既存の夜間ビデオデラミニング手法を13.7%上回っている。

Existing deep-learning-based methods for nighttime video deraining rely on synthetic data due to the absence of real-world paired data. However, the intricacies of the real world, particularly with the presence of light effects and low-light regions affected by noise, create significant domain gaps, hampering synthetic-trained models in removing rain streaks properly and leading to over-saturation and color shifts. Motivated by this, we introduce NightRain, a novel nighttime video deraining method with adaptive-rain-removal and adaptive-correction. Our adaptive-rain-removal uses unlabeled rain videos to enable our model to derain real-world rain videos, particularly in regions affected by complex light effects. The idea is to allow our model to obtain rain-free regions based on the confidence scores. Once rain-free regions and the corresponding regions from our input are obtained, we can have region-based paired real data. These paired data are used to train our model using a teacher-student framework, allowing the model to iteratively learn from less challenging regions to more challenging regions. Our adaptive-correction aims to rectify errors in our model's predictions, such as over-saturation and color shifts. The idea is to learn from clear night input training videos based on the differences or distance between those input videos and their corresponding predictions. Our model learns from these differences, compelling our model to correct the errors. From extensive experiments, our method demonstrates state-of-the-art performance. It achieves a PSNR of 26.73dB, surpassing existing nighttime video deraining methods by a substantial margin of 13.7%.
翻訳日:2024-01-03 16:10:44 公開日:2024-01-01
# multifusionnet:胸部x線画像分類のためのディープニューラルネットワークの多層マルチモーダル融合

MultiFusionNet: Multilayer Multimodal Fusion of Deep Neural Networks for Chest X-Ray Image Classification ( http://arxiv.org/abs/2401.00728v1 )

ライセンス: Link先を確認
Saurabh Agarwal, K. V. Arya, Yogesh Kumar Meena(参考訳) 胸部X線画像は肺疾患を診断するための重要な診断ツールである。 しかし、これらの画像の手動解釈は時間がかかり、エラーが発生しやすい。 畳み込みニューラルネットワーク(cnns)を用いた自動システムでは,胸部x線画像分類の精度と効率の向上が期待できる。 これまでの研究は主に最終畳み込み層の特徴マップの利用に重点を置いてきたが、病気分類の改善のために追加レイヤを活用するメリットを検討する必要がある。 限られた医療画像データセットから堅牢な特徴を抽出することは、依然として重要な課題である。 本稿では,異なる層から特徴を抽出し,それらを融合させる深層学習に基づく多層核融合モデルを提案する。 本モデルでは,各層が捉えた識別情報を考察する。 さらに,様々な層から特徴マップを効果的にマージするために,fdsfmモジュールの融合を提案する。 提案モデルでは,3クラス分類と2クラス分類の両方において,97.21%,99.60%の精度を実現している。 提案した多層核融合モデルとFDSFMモジュールは、正確な疾患分類を約束し、胸部X線画像の他の疾患分類にも拡張することができる。

Chest X-ray imaging is a critical diagnostic tool for identifying pulmonary diseases. However, manual interpretation of these images is time-consuming and error-prone. Automated systems utilizing convolutional neural networks (CNNs) have shown promise in improving the accuracy and efficiency of chest X-ray image classification. While previous work has mainly focused on using feature maps from the final convolution layer, there is a need to explore the benefits of leveraging additional layers for improved disease classification. Extracting robust features from limited medical image datasets remains a critical challenge. In this paper, we propose a novel deep learning-based multilayer multimodal fusion model that emphasizes extracting features from different layers and fusing them. Our disease detection model considers the discriminatory information captured by each layer. Furthermore, we propose the fusion of different-sized feature maps (FDSFM) module to effectively merge feature maps from diverse layers. The proposed model achieves a significantly higher accuracy of 97.21% and 99.60% for both three-class and two-class classifications, respectively. The proposed multilayer multimodal fusion model, along with the FDSFM module, holds promise for accurate disease classification and can also be extended to other disease classifications in chest X-ray images.
翻訳日:2024-01-03 16:10:17 公開日:2024-01-01
# 交換結合量子スピン量子ビット系のデコヒーレンス:多ビット相互作用と幾何学接続性の影響

Decoherence in Exchange-Coupled Quantum Spin Qubit Systems: Impact of Multiqubit Interactions and Geometric Connectivity ( http://arxiv.org/abs/2401.00725v1 )

ライセンス: Link先を確認
Quan Fu, Jiahao Wu, Xin Wang(参考訳) 準静的ハイゼンベルク雑音下での量子系のデコヒーレンス時間に及ぼす異なる接続性の影響について検討する。 ノード,棒,三角形の3種類の基本単位を検討し,それらを環,鎖,木に結合した。 平均接続性の向上が安定性を低下させるという期待に反して、環はチェーンよりも安定性が高いことが分かる。 さらに `stick'' の設定は ``triangle'' の設定よりも安定している。 また、エンタングルメントエントロピーとリターン確率の類似の傾向を観察し、デコヒーレンス時間の特徴付けにその可能性を示した。 本研究は,強固な量子技術の設計と量子誤差補正戦略に寄与する量子システムにおける接続性と安定性の相互作用に関する知見を提供する。

We investigate the impact of different connectivities on the decoherence time in quantum systems under quasi-static Heisenberg noise. We considered three types of fundamental units, including node, stick and triangle and connect them into rings, chains, and trees. We find that rings exhibit greater stability compared to chains, contrary to the expectation that higher average connectivity leads to decreased stability. Additionally, the ``stick'' configuration is more stable than the ``triangle'' configuration. We also observe similar trends in entanglement entropy and return probability, indicating their potential use in characterizing decoherence time. Our findings provide insights into the interplay between connectivity and stability in quantum systems, with implications for the design of robust quantum technologies and quantum error correction strategies.
翻訳日:2024-01-03 16:09:58 公開日:2024-01-01
# 「半電子(e/2)」-ねじれ光によって誘起される自由電子分数電荷

"half-electron (e/2)" -- free electron fractional charge induced by twisted light ( http://arxiv.org/abs/2401.00723v1 )

ライセンス: Link先を確認
Yiming Pan, Ruoyu Yin, Yongcheng Ding, Daniel Podolsky, Bin Zhang(参考訳) 超高速電子放出、顕微鏡、回折の最近の進歩により、光線を用いた量子コヒーレンスで自由電子を操作する能力が明らかになった。 本稿では,超高速電子-光相互作用における自由電子分数電荷の探索フレームワークを提案する。 自由電子の明確なジャッキウレブビ解は、時空間的にねじれたレーザー場によって構成され、空飛ぶ位相量子数をe/2の分数電荷で示している(我々はこれを「半電子」と呼ぶ)。 また,これらの半電子を検出するためのアハルノフ・ボーム干渉法を提案する。 半電子は、自由空間の伝播において位相的に保護された境界状態であり、その領域を準粒子を超えて物質中の分数電荷で拡張し、自由電子波動関数のエキゾチック量子と位相効果の理解を深める。

Recent advances in ultrafast electron emission, microscopy, and diffraction reveal our capacity to manipulate free electrons with remarkable quantum coherence using light beams. Here, we present a framework for exploring free electron fractional charge in ultrafast electron-light interactions. An explicit Jackiw-Rebbi solution of free electron is constructed by a spatiotemporally twisted laser field, showcasing a flying topological quantum number with a fractional charge of e/2 (we call it "half-electron"), which is dispersion-free due to its topological nature. We also propose an Aharonov-Bohm interferometry for detecting these half-electrons. The half-electron is a topologically protected bound state in free-space propagation, expands its realm beyond quasiparticles with fractional charges in materials, enabling to advance our understanding of exotic quantum and topological effects of free electron wavefunction.
翻訳日:2024-01-03 16:09:46 公開日:2024-01-01
# BRAU-Net++:医療画像分割のためのU字型ハイブリッドCNN-Transformer Network

BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation ( http://arxiv.org/abs/2401.00722v1 )

ライセンス: Link先を確認
Libin Lan, Pengzhou Cai, Lu Jiang, Xiaojuan Liu, Yongmei Li, and Yudong Zhang(参考訳) 正確な医用画像分割は臨床定量化、疾患診断、治療計画など多くの応用に不可欠である。 畳み込みベースとトランスフォーマーベースの両方のu字型アーキテクチャは、様々な医療画像セグメンテーションタスクで大きな成功を収めている。 前者は、畳み込み操作固有の画像固有の帰納バイアスを多く必要としながら、画像の局所的な情報を効率的に学習することができる。 後者は、自己アテンションを使用して異なる機能スケールでの長距離依存性を効果的にキャプチャするが、典型的には、シーケンス長が増加する2次計算とメモリ要求の課題に直面する。 この問題に対処するために,この2つのパラダイムの利点をu字型アーキテクチャに組み込むことにより,医療画像の正確な分割作業のために,blu-net++ というハイブリッドかつ効果的な cnn-transformer network を提案する。 特にbrau-net++では,u字型エンコーダ-デコーダ構造の設計に,u字型エンコーダ-デコーダ構造の設計において,計算複雑性を低減しつつ,グローバルな意味情報を学ぶために,双方向のルーティングを基本ブロックとして使用しています。 さらに、畳み込み操作を取り入れ、局所的な空間的情報損失を最小化し、マルチスケール特徴のグローバル次元相互作用を増幅することにより、スキップ接続を再構築する。 3つのベンチマークデータセットに関する広範な実験は、提案手法がベースラインを含む他の最先端手法を上回っていることを示している。 我々は,Synapse Multi-organ segmentation,ISIC-2018 Challenge,CVC-ClinicDBの平均Dice-Similarity Coefficient 82.47,90.10,92.94,およびISIC-2018 Challenge,CVC-ClinicDBのmIoU 84.01,88.17をそれぞれ達成した。

Accurate medical image segmentation is essential for clinical quantification, disease diagnosis, treatment planning and many other applications. Both convolution-based and transformer-based u-shaped architectures have made significant success in various medical image segmentation tasks. The former can efficiently learn local information of images while requiring much more image-specific inductive biases inherent to convolution operation. The latter can effectively capture long-range dependency at different feature scales using self-attention, whereas it typically encounters the challenges of quadratic compute and memory requirements with sequence length increasing. To address this problem, through integrating the merits of these two paradigms in a well-designed u-shaped architecture, we propose a hybrid yet effective CNN-Transformer network, named BRAU-Net++, for an accurate medical image segmentation task. Specifically, BRAU-Net++ uses bi-level routing attention as the core building block to design our u-shaped encoder-decoder structure, in which both encoder and decoder are hierarchically constructed, so as to learn global semantic information while reducing computational complexity. Furthermore, this network restructures skip connection by incorporating channel-spatial attention which adopts convolution operations, aiming to minimize local spatial information loss and amplify global dimension-interaction of multi-scale features. Extensive experiments on three public benchmark datasets demonstrate that our proposed approach surpasses other state-of-the-art methods including its baseline: BRAU-Net under almost all evaluation metrics. We achieve the average Dice-Similarity Coefficient (DSC) of 82.47, 90.10, and 92.94 on Synapse multi-organ segmentation, ISIC-2018 Challenge, and CVC-ClinicDB, as well as the mIoU of 84.01 and 88.17 on ISIC-2018 Challenge and CVC-ClinicDB, respectively.
翻訳日:2024-01-03 16:09:25 公開日:2024-01-01
# 3次元顔認識のための深度マップ同期ネットワークと軽量核融合ネットワーク

Depth Map Denoising Network and Lightweight Fusion Network for Enhanced 3D Face Recognition ( http://arxiv.org/abs/2401.00719v1 )

ライセンス: Link先を確認
Ruizhuo Xu, Ke Wang, Chao Deng, Mei Wang, Xi Chen, Wenhui Huang, Junlan Feng, Weihong Deng(参考訳) 消費者の深度センサーの普及に伴い、3D顔認証(FR)はますます注目を集めている。 しかし、これらのセンサーが取得したデータはしばしば粗雑で騒がしいため、直接使用するのは現実的ではない。 本稿では,低品質な3D FRにおけるノイズ低減と顔深度画像の品質向上を目的として,DIIF(Denoising Implicit Image Function)に基づくDMDNet(Depth Map Denoising Network)を提案する。 DMDNetを用いてクリーンな深度顔を生成した後,多分岐融合ブロックを組み込んだ軽量深度・正常核融合ネットワーク(LDNFNet)という強力な認識ネットワークを設計し,深度・正常画像などの異なるモード間の特徴と相補的特徴を学習する。 4つの異なる低品質データベースで実施した総合実験により,提案手法の有効性とロバスト性を示した。 さらに、DMDNetとLDNFNetを組み合わせると、Lock3DFaceデータベース上で最先端の結果が得られる。

With the increasing availability of consumer depth sensors, 3D face recognition (FR) has attracted more and more attention. However, the data acquired by these sensors are often coarse and noisy, making them impractical to use directly. In this paper, we introduce an innovative Depth map denoising network (DMDNet) based on the Denoising Implicit Image Function (DIIF) to reduce noise and enhance the quality of facial depth images for low-quality 3D FR. After generating clean depth faces using DMDNet, we further design a powerful recognition network called Lightweight Depth and Normal Fusion network (LDNFNet), which incorporates a multi-branch fusion block to learn unique and complementary features between different modalities such as depth and normal images. Comprehensive experiments conducted on four distinct low-quality databases demonstrate the effectiveness and robustness of our proposed methods. Furthermore, when combining DMDNet and LDNFNet, we achieve state-of-the-art results on the Lock3DFace database.
翻訳日:2024-01-03 16:08:46 公開日:2024-01-01
# Text2Avatar: Codebook-Driven Body Controllable Attributeによる3次元アバター生成

Text2Avatar: Text to 3D Human Avatar Generation with Codebook-Driven Body Controllable Attribute ( http://arxiv.org/abs/2401.00711v1 )

ライセンス: Link先を確認
Chaoqun Gong, Yuqin Dai, Ronghui Li, Achun Bao, Jun Li, Jian Yang, Yachao Zhang, Xiu Li(参考訳) テキストから直接3Dモデルを生成することは、文字モデリングのコストと時間を削減するのに役立つ。 しかし,多属性制御が可能で現実的な3次元アバター生成を実現することは,機能結合と現実的な3次元アバターデータセットの不足のため,依然として困難である。 これらの問題に対処するために,テキストプロンプトを結合して現実的な3Dアバターを生成するText2Avatarを提案する。 text2avatarは、テキストとアバター間の接続を確立するための中間機能として、離散的なコードブックを利用する。 さらに、リアルスタイル3dアバターデータの不足を軽減するために、事前訓練された無条件3dアバター生成モデルを利用して、大量の3dアバター擬似データを取得し、テキスト2avatarによるリアルスタイル生成を可能にする。 実験の結果,本手法は結合したテキストデータから現実的な3dアバターを生成できることが判明した。

Generating 3D human models directly from text helps reduce the cost and time of character modeling. However, achieving multi-attribute controllable and realistic 3D human avatar generation is still challenging due to feature coupling and the scarcity of realistic 3D human avatar datasets. To address these issues, we propose Text2Avatar, which can generate realistic-style 3D avatars based on the coupled text prompts. Text2Avatar leverages a discrete codebook as an intermediate feature to establish a connection between text and avatars, enabling the disentanglement of features. Furthermore, to alleviate the scarcity of realistic style 3D human avatar data, we utilize a pre-trained unconditional 3D human avatar generation model to obtain a large amount of 3D avatar pseudo data, which allows Text2Avatar to achieve realistic style generation. Experimental results demonstrate that our method can generate realistic 3D avatars from coupled textual data, which is challenging for other existing methods in this field.
翻訳日:2024-01-03 16:08:06 公開日:2024-01-01
# 連続表現からの非局所的自己相似性の再考

Revisiting Nonlocal Self-Similarity from Continuous Representation ( http://arxiv.org/abs/2401.00708v1 )

ライセンス: Link先を確認
Yisi Luo, Xile Zhao, Deyu Meng(参考訳) 非局所的な自己相似性(NSS)は、画像やビデオのリカバリなど、多次元のデータ処理タスクにうまく適用されている重要な先行技術である。 しかし、既存のnssベースの手法は、画像やビデオのようなメッシュグリッドデータのみに適しているが、ポイントクラウドや気候データのような、新興のオフメシュグリッドデータには適していない。 本研究では,NSSを連続表現の観点から再考し,従来の非局所的手法と比較して2つの革新的な特徴を持つ,連続表現に基づく非局所的手法(CRNL)を提案する。 まず、連続表現に基づいて、CRNLはオン・メシュグリッドおよびオフ・メシュグリッドデータの自己相似性の尺度を統一し、両者に自然に適合する。 第二に、非局所連続群は結合された低ランク函数分解によってよりコンパクトかつ効率的に表されることができ、これは各群と異なる群間の類似性を同時に活用する。 この複雑な結合機構により,従来のNAS法よりも効率と効率の両面において良好な性能が得られる。 大規模マルチ次元データ処理実験(画像インペインティングや画像デノージングなど)とオフメシュグリッド(気候データ予測やポイントクラウドリカバリなど)は、最先端手法と比較して、crnlの汎用性、有効性、効率性を検証する。

Nonlocal self-similarity (NSS) is an important prior that has been successfully applied in multi-dimensional data processing tasks, e.g., image and video recovery. However, existing NSS-based methods are solely suitable for meshgrid data such as images and videos, but are not suitable for emerging off-meshgrid data, e.g., point cloud and climate data. In this work, we revisit the NSS from the continuous representation perspective and propose a novel Continuous Representation-based NonLocal method (termed as CRNL), which has two innovative features as compared with classical nonlocal methods. First, based on the continuous representation, our CRNL unifies the measure of self-similarity for on-meshgrid and off-meshgrid data and thus is naturally suitable for both of them. Second, the nonlocal continuous groups can be more compactly and efficiently represented by the coupled low-rank function factorization, which simultaneously exploits the similarity within each group and across different groups, while classical nonlocal methods neglect the similarity across groups. This elaborately designed coupled mechanism allows our method to enjoy favorable performance over conventional NSS methods in terms of both effectiveness and efficiency. Extensive multi-dimensional data processing experiments on-meshgrid (e.g., image inpainting and image denoising) and off-meshgrid (e.g., climate data prediction and point cloud recovery) validate the versatility, effectiveness, and efficiency of our CRNL as compared with state-of-the-art methods.
翻訳日:2024-01-03 16:07:46 公開日:2024-01-01
# 粗視表現学習による効率的・効果的なテキスト・ビデオ検索

Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning ( http://arxiv.org/abs/2401.00701v1 )

ライセンス: Link先を確認
Kaibin Tian and Yanhua Cheng and Yi Liu and Xinglin Hou and Quan Chen and Han Li(参考訳) 近年,CLIPに基づくテキスト・ビデオ検索手法が急速に発展してきた。 進化の第一の方向は、より広い範囲の視覚とテキストの手がかりを駆使して整列することである。 具体的には、計算の複雑さに拘わらず、文(単語)とビデオ(フレーム)の相互作用のための重い融合ブロックをしばしば設計する。 にもかかわらず、これらの手法は特徴利用と検索効率の点で最適ではない。 この問題に対処するために,多面的な視覚的特徴学習を採用し,学習段階で抽象レベルから詳細レベルまでの視覚コンテンツ特徴の把握において,モデルの包括性を保証する。 マルチグラニュラリティをよりよく活用するために,検索段階における2段階検索アーキテクチャを考案する。 この解は、検索内容の粗さと細かい粒度のバランスをとる。 さらに、検索効率と効率の調和均衡も達成している。 特に,訓練段階では,細粒度ビデオ表現学習のためのパラメータフリーテキストゲーテッドインタラクションブロック(tib)を設計し,さらにピアソン制約を組み込んでクロスモーダル表現学習を最適化する。 検索段階では,粗粒ビデオ表現を用いてトップk候補を高速にリコールし,粗粒ビデオ表現でランク付けする。 4つのベンチマークでの大規模な実験は、効率と有効性を示している。 特に,本手法は現在の最先端手法と比較して50倍近い高速化を実現している。

In recent years, text-to-video retrieval methods based on CLIP have experienced rapid development. The primary direction of evolution is to exploit the much wider gamut of visual and textual cues to achieve alignment. Concretely, those methods with impressive performance often design a heavy fusion block for sentence (words)-video (frames) interaction, regardless of the prohibitive computation complexity. Nevertheless, these approaches are not optimal in terms of feature utilization and retrieval efficiency. To address this issue, we adopt multi-granularity visual feature learning, ensuring the model's comprehensiveness in capturing visual content features spanning from abstract to detailed levels during the training phase. To better leverage the multi-granularity features, we devise a two-stage retrieval architecture in the retrieval phase. This solution ingeniously balances the coarse and fine granularity of retrieval content. Moreover, it also strikes a harmonious equilibrium between retrieval effectiveness and efficiency. Specifically, in training phase, we design a parameter-free text-gated interaction block (TIB) for fine-grained video representation learning and embed an extra Pearson Constraint to optimize cross-modal representation learning. In retrieval phase, we use coarse-grained video representations for fast recall of top-k candidates, which are then reranked by fine-grained video representations. Extensive experiments on four benchmarks demonstrate the efficiency and effectiveness. Notably, our method achieves comparable performance with the current state-of-the-art methods while being nearly 50 times faster.
翻訳日:2024-01-03 16:07:16 公開日:2024-01-01
# 生成逆数ネットワークの潜在空間から新しいブリッジタイプを生成する試み

An attempt to generate new bridge types from latent space of generative adversarial network ( http://arxiv.org/abs/2401.00700v1 )

ライセンス: Link先を確認
Hongjun Zhang(参考訳) 生成人工知能技術を用いた新しいブリッジタイプの作成。 三次元ビームブリッジ,アーチブリッジ,ケーブルステイドブリッジ,サスペンションブリッジの対称構造画像データセットを用いた。 Pythonプログラミング言語、TensorFlow、Kerasのディープラーニングプラットフォームフレームワーク、およびWassersteinの損失関数とLipschitzの制約に基づいて、生成的敵ネットワークを構築し、訓練する。 得られた低次元ブリッジ型潜在空間サンプリングから、非対称構造を持つ新しいブリッジタイプを生成することができる。 生成的敵ネットワークは、ヒトのオリジナルブリッジタイプに基づいて、異なる構造成分を有機的に組み合わせることで、新しいブリッジタイプを作成することができる。 人間の能力はある程度ある。 創造的な人工知能技術は想像力を開放し、人類を刺激することができる。

Try to generate new bridge types using generative artificial intelligence technology. Symmetric structured image dataset of three-span beam bridge, arch bridge, cable-stayed bridge and suspension bridge are used . Based on Python programming language, TensorFlow and Keras deep learning platform framework , as well as Wasserstein loss function and Lipschitz constraints, generative adversarial network is constructed and trained. From the obtained low dimensional bridge-type latent space sampling, new bridge types with asymmetric structures can be generated. Generative adversarial network can create new bridge types by organically combining different structural components on the basis of human original bridge types. It has a certain degree of human original ability. Generative artificial intelligence technology can open up imagination space and inspire humanity.
翻訳日:2024-01-03 16:06:51 公開日:2024-01-01
# ルビジウム原子を用いた超放射ラマン散乱の光学キャビティにおける理論的研究

Theoretical Study on Superradiant Raman Scattering with Rubidium Atoms in An Optical Cavity ( http://arxiv.org/abs/2401.00785v1 )

ライセンス: Link先を確認
Huihui Yu, Yuan Zhang, Gang Chen, Chongxin Shan(参考訳) ルビジウム原子の超放射ラマン散乱は超放射光レーザーの概念を証明するために[Nature 484, 78 (2012)]で研究されている。 この実験に係わる物理学をより深く理解するために、ルビジウム原子を3段階の系として扱い、それらを服を着たレーザーと光学キャビティと結合させることにより量子マスター方程式理論を開発した。 シミュレーションでは, クロスオーバーおよび強い結合状態における系に対する異なる超放射ラマン散乱パルスと, 定常ラマン散乱のシフトスペクトルと広いスペクトルを示す。 そこで本研究では,超放射ラマン散乱パルスの統一的な見方と,実験で観測された定常ラマン散乱の広いスペクトルに対する別の説明を提供する。 将来的には、磁場検出、量子位相のリアルタイム追跡、非平衡ダイナミクスのディッケ相転移など、超ラジアントラマン散乱に依存する他の興味深い現象の研究にも容易に応用できる。

Superradiant Raman scattering of Rubidium atoms has been explored in the experiment [Nature 484, 78 (2012)] to prove the concept of the superradiant laser, which attracts significant attentions in quantum metrology due to the expected ultra-narrow linewidth down to millihertz. To better understand the physics involved in this experiment, we have developed a quantum master equation theory by treating the Rubidium atoms as three-level systems, and coupling them with a dressed laser and an optical cavity. Our simulations show different superradiant Raman scattering pulses for the systems within the crossover and strong coupling regime, and the shifted and broader spectrum of the steady-state Raman scattering. Thus, our studies provide a unified view on the superradiant Raman scattering pulses, and an alternative explanation to the broad spectrum of the steady-state Raman scattering, as observed in the experiment. In future, our theory can be readily applied to study other interesting phenomena relying on the superradiant Raman scattering, such as magnetic field sensing, real-time tracking of quantum phase, Dicke phase transition of non-equilibrium dynamics and so on.
翻訳日:2024-01-03 16:00:47 公開日:2024-01-01
# 道路交通におけるクラッシュの不均一な処理効果の推算:2倍ロバストな因果学習アプローチ

Inferring Heterogeneous Treatment Effects of Crashes on Highway Traffic: A Doubly Robust Causal Machine Learning Approach ( http://arxiv.org/abs/2401.00781v1 )

ライセンス: Link先を確認
Shuang Li, Ziyuan Pu, Zhiyong Cui, Seunghyeon Lee, Xiucheng Guo, Dong Ngoduy(参考訳) 高速道路の交通事故は交通システムと経済に大きな影響を与えている。 この文脈では、効果的な交通管理には正確で信頼性の高い緊急対応が不可欠である。 しかし、事故が交通状況に与える影響は、様々な要因によって異なり、選択バイアスによってバイアスを受ける可能性がある。 したがって、衝突による不均一な因果効果を正確に推定する必要があるため、個別の緊急意思決定を容易にするために必要な洞察を提供する。 本稿では,道路の速度に対する衝突の種類による因果効果を推定する新しい因果学習フレームワークを提案する。 Neyman-Rubin Causal Model (RCM) は因果的な観点からこの問題を定式化するために用いられる。 条件付きシャプリー値指数 (conditional shapley value index, csvi) は因果グラフ理論に基づいて有害変数をフィルタリングし、構造因果モデル (structureal causal model, scm) を用いて因果効果の統計的推定を行う。 治療効果をDouubly Robust Learning (DRL)法で推定し,2つの頑健な因果推論と分類と回帰機械学習モデルを組み合わせた。 ワシントン州の州間高速道路5号線の4815号線の事故実験の結果、様々な距離と期間における事故の異質な処理効果が明らかになった。 後方の衝突は、他のタイプの衝突よりも激しい混雑と長い持続時間を引き起こし、サイドワイプの衝突は、最も長い遅れた衝突を引き起こす。 さらに、観測結果によると、後方衝突は夜間の交通量に大きく影響し、物体への衝突はピーク時の最も大きな影響を及ぼす。 統計的仮説テスト,一致した「実測結果」に基づく誤差指標,センシティブな分析を用いて評価を行い,本手法の正確性と有効性を検証する。

Highway traffic crashes exert a considerable impact on both transportation systems and the economy. In this context, accurate and dependable emergency responses are crucial for effective traffic management. However, the influence of crashes on traffic status varies across diverse factors and may be biased due to selection bias. Therefore, there arises a necessity to accurately estimate the heterogeneous causal effects of crashes, thereby providing essential insights to facilitate individual-level emergency decision-making. This paper proposes a novel causal machine learning framework to estimate the causal effect of different types of crashes on highway speed. The Neyman-Rubin Causal Model (RCM) is employed to formulate this problem from a causal perspective. The Conditional Shapley Value Index (CSVI) is proposed based on causal graph theory to filter adverse variables, and the Structural Causal Model (SCM) is then adopted to define the statistical estimand for causal effects. The treatment effects are estimated by Doubly Robust Learning (DRL) methods, which combine doubly robust causal inference with classification and regression machine learning models. Experimental results from 4815 crashes on Highway Interstate 5 in Washington State reveal the heterogeneous treatment effects of crashes at varying distances and durations. The rear-end crashes cause more severe congestion and longer durations than other types of crashes, and the sideswipe crashes have the longest delayed impact. Additionally, the findings show that rear-end crashes affect traffic greater at night, while crash to objects has the most significant influence during peak hours. Statistical hypothesis tests, error metrics based on matched "counterfactual outcomes", and sensitive analyses are employed for assessment, and the results validate the accuracy and effectiveness of our method.
翻訳日:2024-01-03 16:00:13 公開日:2024-01-01
# 時間的妥当性変化予測

Temporal Validity Change Prediction ( http://arxiv.org/abs/2401.00779v1 )

ライセンス: Link先を確認
Georg Wenzel and Adam Jatowt(参考訳) 時間的妥当性は、レコメンダシステム、会話AI、ストーリー理解など、多くの下流アプリケーションに有用なテキストの重要な特性である。 既存のベンチマークタスクでは、モデルが単一のステートメントの時間的有効期間を特定する必要がある。 しかし、多くの場合、ストーリーの文章やソーシャルメディアのプロフィールへの投稿などの追加の文脈情報は、利用可能なテキストストリームから収集することができる。 この文脈情報は、文が有効と期待される期間を大きく変える可能性がある。 本稿では,このような変化を誘発する文脈文を検出する機械学習モデルの能力をベンチマークした自然言語処理タスクである時間的妥当性変化予測を提案する。 我々はTwitterとクラウドソースのサンプルコンテキストステートメントから得られた時間的ターゲットステートメントからなるデータセットを作成する。 次に、データセット上でトランスフォーマーベースの言語モデルをベンチマークします。 最後に,最先端モデルの性能向上のための補助タスクとして,時間的有効期間予測を実験する。

Temporal validity is an important property of text that is useful for many downstream applications, such as recommender systems, conversational AI, or story understanding. Existing benchmarking tasks often require models to identify the temporal validity duration of a single statement. However, in many cases, additional contextual information, such as sentences in a story or posts on a social media profile, can be collected from the available text stream. This contextual information may greatly alter the duration for which a statement is expected to be valid. We propose Temporal Validity Change Prediction, a natural language processing task benchmarking the capability of machine learning models to detect contextual statements that induce such change. We create a dataset consisting of temporal target statements sourced from Twitter and crowdsource sample context statements. We then benchmark a set of transformer-based language models on our dataset. Finally, we experiment with temporal validity duration prediction as an auxiliary task to improve the performance of the state-of-the-art model.
翻訳日:2024-01-03 15:59:42 公開日:2024-01-01
# エッジコンピューティングに基づくヒューマンロボット認知融合 : 自閉症スペクトラム障害治療における医療ケーススタディ

Edge Computing based Human-Robot Cognitive Fusion: A Medical Case Study in the Autism Spectrum Disorder Therapy ( http://arxiv.org/abs/2401.00776v1 )

ライセンス: Link先を確認
Qin Yang(参考訳) 近年、エッジコンピューティングは、クラウドコンピューティング施設とサービスをエンドユーザに接続することで、AI、ロボティクス、IoT、高速ワイヤレスセンサーネットワーク(5Gなど)など、多くの未来の技術を可能にするパラダイムとして機能している。 特に医療や医療のアプリケーションでは、遠隔患者のモニタリングとvoluminous multimediaの向上を提供する。 ロボティクスの角度から見ると、ロボットアシスト療法(RAT)はリハビリテーションロボティクスにおけるアクティブな補助ロボティクス技術であり、自閉症スペクトラム障害(ASD)児のような障害のある人々の研究と利益のために多くの研究者を惹きつけている。 しかし、RATの主な課題は、ALDの人々の感情状態を検出することができるモデルが存在し、個人の好みを思い出せることである。 さらに、異なる状況やシナリオに適応するための治療アプローチの更新において、ロボットを指導する専門家の診断とレコメンデーションが、ASD治療プロセスの重要な部分である。 本稿では,ASD患者の長期サポートを支援するために,人間専門家と協力するロボットの連携によるエッジ認知コンピューティングのアーキテクチャを提案する。 ASD治療のための新しい認知ロボットモデルのリアルタイムコンピューティングと分析を統合することで、提案アーキテクチャはシームレスな遠隔診断、ラウンド・ザ・タイムの症状モニタリング、緊急警報、治療修正、高度な支援を実現することができる。

In recent years, edge computing has served as a paradigm that enables many future technologies like AI, Robotics, IoT, and high-speed wireless sensor networks (like 5G) by connecting cloud computing facilities and services to the end users. Especially in medical and healthcare applications, it provides remote patient monitoring and increases voluminous multimedia. From the robotics angle, robot-assisted therapy (RAT) is an active-assistive robotic technology in rehabilitation robotics, attracting many researchers to study and benefit people with disability like autism spectrum disorder (ASD) children. However, the main challenge of RAT is that the model capable of detecting the affective states of ASD people exists and can recall individual preferences. Moreover, involving expert diagnosis and recommendations to guide robots in updating the therapy approach to adapt to different statuses and scenarios is a crucial part of the ASD therapy process. This paper proposes the architecture of edge cognitive computing by combining human experts and assisted robots collaborating in the same framework to help ASD patients with long-term support. By integrating the real-time computing and analysis of a new cognitive robotic model for ASD therapy, the proposed architecture can achieve a seamless remote diagnosis, round-the-clock symptom monitoring, emergency warning, therapy alteration, and advanced assistance.
翻訳日:2024-01-03 15:59:28 公開日:2024-01-01
# ランダム部分空間とディリクレ過程のサブサンプリングアンサンブルを用いた教師なし外乱検出

Unsupervised Outlier Detection using Random Subspace and Subsampling Ensembles of Dirichlet Process Mixtures ( http://arxiv.org/abs/2401.00773v1 )

ライセンス: Link先を確認
Dongwook Kim, Juyeon Park, Hee Cheol Chung, Seonghyun Jeong(参考訳) 確率的混合モデルは、その解釈可能性と統計的原理の直感的根拠のために教師なしの異常検出のための貴重なツールとして認識される。 このフレームワークでは、dirichletプロセス混合モデルが、クラスタリングと異常検出タスクの両方において、従来の有限混合モデルの魅力的な代替として現れる。 しかしながら、その明らかな利点にもかかわらず、教師なしの異常検出におけるディリクレ過程混合モデルの普及は、検出器構築時の計算の非効率性や異常値に対する感度に関する課題によって妨げられている。 これらの課題に対処するために, ジリクレ過程ガウス混合系のアンサンブルに基づく新しい異常検出法を提案する。 提案手法は, ランダムな部分空間とサブサンプリングアンサンブルに乗じて, 効率的な計算を行うだけでなく, 出力器の堅牢性を向上する, 完全教師なしのアルゴリズムである。 さらに,提案手法はディリクレプロセス混合系の変分推論を活用し,効率的な高速計算を実現する。 ベンチマークデータセットを用いた実証研究により,本手法は教師なし外乱検出の既存手法よりも優れていることが示された。

Probabilistic mixture models are acknowledged as a valuable tool for unsupervised outlier detection owing to their interpretability and intuitive grounding in statistical principles. Within this framework, Dirichlet process mixture models emerge as a compelling alternative to conventional finite mixture models for both clustering and outlier detection tasks. However, despite their evident advantages, the widespread adoption of Dirichlet process mixture models in unsupervised outlier detection has been hampered by challenges related to computational inefficiency and sensitivity to outliers during the construction of detectors. To tackle these challenges, we propose a novel outlier detection method based on ensembles of Dirichlet process Gaussian mixtures. The proposed method is a fully unsupervised algorithm that capitalizes on random subspace and subsampling ensembles, not only ensuring efficient computation but also enhancing the robustness of the resulting outlier detector. Moreover, the proposed method leverages variational inference for Dirichlet process mixtures to ensure efficient and fast computation. Empirical studies with benchmark datasets demonstrate that our method outperforms existing approaches for unsupervised outlier detection.
翻訳日:2024-01-03 15:59:01 公開日:2024-01-01
# ブラケットは必要なすべてだ:マルチエクスポージャー画像による画像復元と拡張タスクの統合

Bracketing is All You Need: Unifying Image Restoration and Enhancement Tasks with Multi-Exposure Images ( http://arxiv.org/abs/2401.00766v1 )

ライセンス: Link先を確認
Zhilu Zhang, Shuohao Zhang, Renlong Wu, Zifei Yan, Wangmeng Zuo(参考訳) 難易度は高いが、低照度環境では鮮明な内容の高品質な写真を得るのがとても望ましい。 マルチイメージ処理手法(バースト、デュアル露光、マルチ露光画像)はこの問題に対処する上で大きな進歩を遂げているが、通常は特定の復元や拡張タスクにのみ焦点を合わせており、マルチイメージの活用には不十分である。 マルチ露光画像は,分解,分解,高ダイナミックレンジイメージング,高解像度化に相補的であり,ブラケット写真を用いて修復作業と強化作業を統合することを提案する。 実世界のペアを集めることの難しさから,まず合成ペアデータを用いてモデルを事前学習し,実世界の未ラベル画像に適応させる手法を提案する。 特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。 さらに,200の夜間シナリオからペアを合成し,実世界の画像を収集するデータシミュレーションパイプラインを構築した。 両データセットの実験から,本手法は最先端のマルチイメージ処理に対して良好に動作することが示された。 データセット、コード、事前トレーニングされたモデルはhttps://github.com/cszhilu1998/BracketIREで入手できる。

It is challenging but highly desired to acquire high-quality photos with clear content in low-light environments. Although multi-image processing methods (using burst, dual-exposure, or multi-exposure images) have made significant progress in addressing this issue, they typically focus exclusively on specific restoration or enhancement tasks, being insufficient in exploiting multi-image. Motivated by that multi-exposure images are complementary in denoising, deblurring, high dynamic range imaging, and super-resolution, we propose to utilize bracketing photography to unify restoration and enhancement tasks in this work. Due to the difficulty in collecting real-world pairs, we suggest a solution that first pre-trains the model with synthetic paired data and then adapts it to real-world unlabeled images. In particular, a temporally modulated recurrent network (TMRNet) and self-supervised adaptation method are proposed. Moreover, we construct a data simulation pipeline to synthesize pairs and collect real-world images from 200 nighttime scenarios. Experiments on both datasets show that our method performs favorably against the state-of-the-art multi-image processing ones. The dataset, code, and pre-trained models are available at https://github.com/cszhilu1998/BracketIRE.
翻訳日:2024-01-03 15:58:42 公開日:2024-01-01
# 新しい仕事、新しいジェンダー? 画像生成モデルにおける社会的バイアスの測定

New Job, New Gender? Measuring the Social Bias in Image Generation Models ( http://arxiv.org/abs/2401.00763v1 )

ライセンス: Link先を確認
Wenxuan Wang, Haonan Bai, Jen-tse Huang, Yuxuan Wan, Youliang Yuan, Haoyi Qiu, Nanyun Peng, Michael R. Lyu(参考訳) 画像生成モデルは、所定のテキストから画像を生成したり編集したりすることができる。 DALL-EとMidjourneyによる画像生成技術の最近の進歩は画期的なものである。 これらの高度なモデルは、その優れた能力にもかかわらず、しばしば巨大なインターネットデータセットで訓練され、社会的ステレオタイプやバイアスを持続するコンテンツの生成に影響を受けやすく、深刻な結果をもたらす可能性がある。 画像生成モデル内のバイアスの評価に関する以前の研究は、精度の制限、広範な人的労働への依存、包括的な分析の欠如など、いくつかの欠点に苦しめられている。 本稿では,画像生成モデルにおける社会的バイアスを正確かつ包括的に引き起こすことのできる,新しい変型テストフレームワークであるbiaspainterを提案する。 BiasPainterは、個人のさまざまなシード画像を使用し、画像生成モデルに、性別、人種、年齢ニュートラルなクエリを使ってこれらの画像を編集するよう促す。 これらの質問は62の職業、39のアクティビティ、57種類のオブジェクト、70のパーソナリティ特性にまたがる。 このフレームワークは、編集された画像をオリジナルのシード画像と比較し、性別、人種、年齢に関するあらゆる変化に焦点を当てる。 BiasPainterは、中立的なプロンプトを受ける際にこれらの特性を変更すべきでないというテストのオラクルを採用している。 この設計に基づいて、BiasPainterは社会的バイアスを引き起こし、画像生成モデルの公平性を評価することができる。 BiasPainterの有効性を評価するために,BiasPainterを用いて,安定拡散やMidjourneyなどの5種類の商用画像生成ソフトウェアとモデルをテストする。 実験結果から、生成したテストケースの100\%が、画像生成モデルにおける社会的バイアスをうまく引き起こせることが示された。

Image generation models can generate or edit images from a given text. Recent advancements in image generation technology, exemplified by DALL-E and Midjourney, have been groundbreaking. These advanced models, despite their impressive capabilities, are often trained on massive Internet datasets, making them susceptible to generating content that perpetuates social stereotypes and biases, which can lead to severe consequences. Prior research on assessing bias within image generation models suffers from several shortcomings, including limited accuracy, reliance on extensive human labor, and lack of comprehensive analysis. In this paper, we propose BiasPainter, a novel metamorphic testing framework that can accurately, automatically and comprehensively trigger social bias in image generation models. BiasPainter uses a diverse range of seed images of individuals and prompts the image generation models to edit these images using gender, race, and age-neutral queries. These queries span 62 professions, 39 activities, 57 types of objects, and 70 personality traits. The framework then compares the edited images to the original seed images, focusing on any changes related to gender, race, and age. BiasPainter adopts a testing oracle that these characteristics should not be modified when subjected to neutral prompts. Built upon this design, BiasPainter can trigger the social bias and evaluate the fairness of image generation models. To evaluate the effectiveness of BiasPainter, we use BiasPainter to test five widely-used commercial image generation software and models, such as stable diffusion and Midjourney. Experimental results show that 100\% of the generated test cases can successfully trigger social bias in image generation models.
翻訳日:2024-01-03 15:58:20 公開日:2024-01-01
# 地球は平ら? 大規模言語モデルにおけるファクチュアルエラーの解法

The Earth is Flat? Unveiling Factual Errors in Large Language Models ( http://arxiv.org/abs/2401.00761v1 )

ライセンス: Link先を確認
Wenxuan Wang, Juluan Shi, Zhaopeng Tu, Youliang Yuan, Jen-tse Huang, Wenxiang Jiao, Michael R. Lyu(参考訳) ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識から、様々なアプリケーションに基礎を置いている。 それにもかかわらず、彼らは事実と常識の誤りを引き起こす傾向にあり、医療、ジャーナリズム、教育といった重要な分野において誤解を招く。 LLMの精度を評価するための現在の手法は、テストデータ漏洩や広範囲な人的労働の必要性によって制限されており、効率的で正確なエラー検出を妨げている。 この問題に対処するために,LLMにおける事実不正確性を明らかにすることを目的とした,新しい自動テストフレームワークFactCheckerを導入する。 第一に、大規模な知識データベースから事実三重項を取得することによって、事実的知識グラフを構築する。 次に、知識グラフを利用して、FactChecker氏はルールベースのアプローチを用いて、正しい回答とともにシングルホップとマルチホップの関係を含む3種類の質問(Yes-No、Multiple-Choice、WHQ)を生成する。 最後に,LLMの応答の精度を質問タイプごとに調整したマッチング戦略を用いて評価する。 例えば、text-davinci-002, text-davinci-003, ChatGPT~(gpt-3.5-turbo, gpt-4), Vicuna, LLaMA-2では、FactCheckerがこれらのモデルの45%の質問において、事実エラーを発生させることができることが判明した。 さらに、FactCheckerのテストケースは、文脈内学習と微調整(例えば、llama-2-13b-chatの精度は35.3\%から68.5\%)により、LLMの事実精度を向上させることができることを示した。 将来の研究のために、コード、データ、結果をすべて利用可能にしています。

Large Language Models (LLMs) like ChatGPT are foundational in various applications due to their extensive knowledge from pre-training and fine-tuning. Despite this, they are prone to generating factual and commonsense errors, raising concerns in critical areas like healthcare, journalism, and education to mislead users. Current methods for evaluating LLMs' veracity are limited by test data leakage or the need for extensive human labor, hindering efficient and accurate error detection. To tackle this problem, we introduce a novel, automatic testing framework, FactChecker, aimed at uncovering factual inaccuracies in LLMs. This framework involves three main steps: First, it constructs a factual knowledge graph by retrieving fact triplets from a large-scale knowledge database. Then, leveraging the knowledge graph, FactChecker employs a rule-based approach to generates three types of questions (Yes-No, Multiple-Choice, and WH questions) that involve single-hop and multi-hop relations, along with correct answers. Lastly, it assesses the LLMs' responses for accuracy using tailored matching strategies for each question type. Our extensive tests on six prominent LLMs, including text-davinci-002, text-davinci-003, ChatGPT~(gpt-3.5-turbo, gpt-4), Vicuna, and LLaMA-2, reveal that FactChecker can trigger factual errors in up to 45\% of questions in these models. Moreover, we demonstrate that FactChecker's test cases can improve LLMs' factual accuracy through in-context learning and fine-tuning (e.g., llama-2-13b-chat's accuracy increase from 35.3\% to 68.5\%). We are making all code, data, and results available for future research endeavors.
翻訳日:2024-01-03 15:57:52 公開日:2024-01-01
# A & B == B & A:大規模言語モデルにおける論理推論失敗のトリガ

A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models ( http://arxiv.org/abs/2401.00757v1 )

ライセンス: Link先を確認
Yuxuan Wan, Wenxuan Wang, Yiliu Yang, Youliang Yuan, Jen-tse Huang, Pinjia He, Wenxiang Jiao, Michael R. Lyu(参考訳) 大規模言語モデル(LLM)の最近の進歩は、AI(Artificial Intelligence)を新たな高度に推進し、書き込み支援、コード生成、機械翻訳といった様々なタスクにおけるブレークスルーを可能にした。 ChatGPTのような高度なLLMの顕著な区別は、それらが「理性」を示す能力である。 しかし, LLMの推論能力の評価は, 既存の評価では, 推論プロセスを直接評価するのではなく, 下流タスクの精度に重点を置いているため, 依然として課題である。 LLMの推論を評価するためのベンチマークやメトリクスの開発が試みられているが、それらはデータ漏洩や限られた範囲に悩まされている。 本稿では,命題論理と述語論理に基づく一組の原子推論スキルの下で,llmの論理推論能力を包括的に評価・改善する自動アプローチであるlogicaskerを提案する。 結果はLLMの推論能力に関する洞察を与え、LLMがうまく学ばなかった論理的ルールを明らかにする。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。 その結果、logicaskerのテストケースは、25\% - 94\%のレートで異なるllmで論理的推論の失敗を見つけることができる。 さらに、LogicAskerのテストケースは、GPT-4の10\%のように、LLMの論理的推論能力を効果的に向上するインコンテキスト学習の例を設計するためにさらに使用できる。 私たちの知る限り、llmsの正式な推論能力を改善するために、テスト結果に基づいてプロンプトを作成するのは私たちの仕事が初めてです。 すべてのコード、データ、結果は、再生と将来の研究のためにリリースされます。

Recent advancements in large language models (LLMs) have propelled Artificial Intelligence (AI) to new heights, enabling breakthroughs in various tasks such as writing assistance, code generation, and machine translation. A significant distinction of advanced LLMs, such as ChatGPT, is their demonstrated ability to "reason." However, evaluating the reasoning ability of LLMs remains a challenge as most existing evaluations focus on their accuracy on the downstream tasks rather than directly assessing their reasoning processes. Efforts have been made to develop benchmarks and metrics to assess reasoning in LLMs, but they suffer from data leakage or limited scope. In this paper, we introduce LogicAsker, an automatic approach that comprehensively evaluates and improves the logical reasoning abilities of LLMs under a set of atomic reasoning skills based on propositional and predicate logic. The results provide insights into LLMs' reasoning abilities and reveal the logical rules the LLMs did not learn well. We evaluate LogicAsker on six widely deployed LLMs, including GPT-3, ChatGPT, GPT-4, Bard, Vicuna, and Guanaco. The results show that test cases from LogicAsker can find logical reasoning failures in different LLMs with a rate of 25\% - 94\%. In addition, the test cases of LogicAsker can be further used to design demonstration examples for in-context learning, which effectively improves the logical reasoning ability of LLMs, e.g., 10\% for GPT-4. As far as we know, our work is the first to create prompts based on testing results to improve LLMs' formal reasoning ability effectively. All the code, data, and results will be released for reproduction and future research.
翻訳日:2024-01-03 15:57:16 公開日:2024-01-01
# mpre : 疾患予測のためのマルチパースペクティブ患者表現抽出器

MPRE: Multi-perspective Patient Representation Extractor for Disease Prediction ( http://arxiv.org/abs/2401.00756v1 )

ライセンス: Link先を確認
Ziyue Yu, Jiayi Wang, Wuman Luo, Rita Tse, Giovanni Pau(参考訳) 電子健康記録(EHR)に基づく患者表現学習は、疾患予測にとって重要な課題である。 本課題は,動的特徴の有用な情報を効果的に抽出することを目的とする。 既存の様々な研究は目覚ましい進歩を遂げているが、動的特徴の傾向と変動の相関関係を完全に抽出することで、モデル性能をさらに向上させることができる。 さらに、スパース訪問記録はディープラーニングモデルの性能を制限する。 そこで本研究では,疾患予測のためのマルチパースペクティブ患者表現抽出器 (mpre) を提案する。 具体的には、時間周波数領域における動的特徴の傾向と変動情報を抽出し、特徴表現を強化するために周波数変換モジュール(FTM)を提案する。 2次元多重抽出ネットワーク (2d men) では, 傾向と変動に基づいて2次元時間テンソルを形成する。 そして,提案した拡張操作によって傾向と変動の相関関係を捉える。 さらに, 疾患診断に付随する相違点の寄与を適応的に計算するための第1次差分注意機構 (FODAM) を提案する。 MPREとベースライン法の性能を評価するため、2つの実世界の公開データセットに対して広範な実験を行った。 実験の結果,MPRE は AUROC と AUPRC で最先端のベースライン法より優れていた。

Patient representation learning based on electronic health records (EHR) is a critical task for disease prediction. This task aims to effectively extract useful information on dynamic features. Although various existing works have achieved remarkable progress, the model performance can be further improved by fully extracting the trends, variations, and the correlation between the trends and variations in dynamic features. In addition, sparse visit records limit the performance of deep learning models. To address these issues, we propose the Multi-perspective Patient Representation Extractor (MPRE) for disease prediction. Specifically, we propose Frequency Transformation Module (FTM) to extract the trend and variation information of dynamic features in the time-frequency domain, which can enhance the feature representation. In the 2D Multi-Extraction Network (2D MEN), we form the 2D temporal tensor based on trend and variation. Then, the correlations between trend and variation are captured by the proposed dilated operation. Moreover, we propose the First-Order Difference Attention Mechanism (FODAM) to calculate the contributions of differences in adjacent variations to the disease diagnosis adaptively. To evaluate the performance of MPRE and baseline methods, we conduct extensive experiments on two real-world public datasets. The experiment results show that MPRE outperforms state-of-the-art baseline methods in terms of AUROC and AUPRC.
翻訳日:2024-01-03 15:56:45 公開日:2024-01-01
# サリエンシーアウェア正規化グラフニューラルネットワーク

Saliency-Aware Regularized Graph Neural Network ( http://arxiv.org/abs/2401.00755v1 )

ライセンス: Link先を確認
Wenjie Pei, Weina Xu, Zongze Wu, Weichao Li, Jinfan Wang, Guangming Lu, Xiangrong Wang(参考訳) グラフ分類の要点は、グラフ全体の効果的な表現学習にある。 典型的なグラフニューラルネットワークは、隣接するノードの特徴を集約する際のローカル依存関係のモデリングに重点を置いており、ノードの特徴を集約することでグラフ全体の表現を得る。 そのような方法には2つの潜在的な制限がある。 1) グラフ分類におけるグローバルノードの正当性W.r.t.グラフ分類は、明示的にモデル化されていない。 2)ノード特徴から直接集約されたグラフ表現は,グラフレベルの情報を反映する効果が限られている可能性がある。 本研究では,2つのコアモジュールからなるグラフ分類のためのSAR-GNN(Saliency-Aware Regularized Graph Neural Network)を提案する。 1)ノードの特徴を学習するためのバックボーンとして機能する従来のグラフニューラルネットワーク 2) バックボーンのノード特徴からコンパクトなグラフ表現を抽出するために設計されたグラフニューラルメモリ。 まず,コンパクトグラフ表現とノード特徴間の意味的類似性を測定することにより,グローバルノードのサリエンシーを推定する。 次に、学習したサリエンシ分布を利用して、バックボーンの近傍アグリゲーションを規則化し、サリエントノードの機能のメッセージパッシングを容易にし、関連性の低いノードを抑える。 したがって、このモデルはより効果的なグラフ表現を学ぶことができる。 我々は,SAR-GNNの利点を,グラフデータの種類によって異なる7つのデータセットの広範な実験により示す。 コードはリリースされる。

The crux of graph classification lies in the effective representation learning for the entire graph. Typical graph neural networks focus on modeling the local dependencies when aggregating features of neighboring nodes, and obtain the representation for the entire graph by aggregating node features. Such methods have two potential limitations: 1) the global node saliency w.r.t. graph classification is not explicitly modeled, which is crucial since different nodes may have different semantic relevance to graph classification; 2) the graph representation directly aggregated from node features may have limited effectiveness to reflect graph-level information. In this work, we propose the Saliency-Aware Regularized Graph Neural Network (SAR-GNN) for graph classification, which consists of two core modules: 1) a traditional graph neural network serving as the backbone for learning node features and 2) the Graph Neural Memory designed to distill a compact graph representation from node features of the backbone. We first estimate the global node saliency by measuring the semantic similarity between the compact graph representation and node features. Then the learned saliency distribution is leveraged to regularize the neighborhood aggregation of the backbone, which facilitates the message passing of features for salient nodes and suppresses the less relevant nodes. Thus, our model can learn more effective graph representation. We demonstrate the merits of SAR-GNN by extensive experiments on seven datasets across various types of graph data. Code will be released.
翻訳日:2024-01-03 15:56:22 公開日:2024-01-01
# 構文木刈りによる機械翻訳テスト

Machine Translation Testing via Syntactic Tree Pruning ( http://arxiv.org/abs/2401.00751v1 )

ライセンス: Link先を確認
Quanjun Zhang, Juan Zhai, Chunrong Fang, Jiawei Liu, Weisong Sun, Haichuan Hu, Qingyu Wang(参考訳) 機械翻訳システムは私たちの日常生活に広く採用されており、生活をより簡単かつ便利にしている。 残念ながら、誤った翻訳は、金銭的損失などの深刻な結果をもたらす可能性がある。 これは機械翻訳システムの精度と信頼性を向上させる必要がある。 しかし、基礎となる神経モデルの複雑さと難解さのため、機械翻訳システムのテストは困難である。 これらの課題に取り組むために,機械翻訳システムを検証するための構文木刈り込み(stp)による新しいメタモルフィックテスト手法を提案する。 私たちの重要な洞察は、刈り取られた文は、原文と同じような重要な意味を持つべきだということです。 具体的には,(1)基本文構造による中核的な意味保存型プルーニング戦略と,(2)メタモルフィック関係に基づくソース文ペアの生成,(3)翻訳が単語のバッグ・オブ・ワード・モデルによって一貫性を損なう疑わしい問題を報告する。 さらに、1200のソース文を入力として、2つの最先端機械翻訳システム(Google TranslateとBing Microsoft Translator)上でSTPを評価する。 その結果、STPはGoogle Translateで5,073の誤訳を、Bing Microsoft Translatorで5,100の誤訳(最先端技術より400%多い)を、それぞれ64.5%と65.4%の精度で正確に見つけることができた。 報告された誤訳はタイプによって異なり、90%以上は最先端の技術では発見できない。 STPには9,393の誤訳があり、最先端技術よりも711.9%多い。 さらに、STPはリコール率74.0%の原文の翻訳誤りを検知し、平均55.1%の最先端技術を改善するのに非常に効果的である。

Machine translation systems have been widely adopted in our daily life, making life easier and more convenient. Unfortunately, erroneous translations may result in severe consequences, such as financial losses. This requires to improve the accuracy and the reliability of machine translation systems. However, it is challenging to test machine translation systems because of the complexity and intractability of the underlying neural models. To tackle these challenges, we propose a novel metamorphic testing approach by syntactic tree pruning (STP) to validate machine translation systems. Our key insight is that a pruned sentence should have similar crucial semantics compared with the original sentence. Specifically, STP (1) proposes a core semantics-preserving pruning strategy by basic sentence structure and dependency relations on the level of syntactic tree representation; (2) generates source sentence pairs based on the metamorphic relation; (3) reports suspicious issues whose translations break the consistency property by a bag-of-words model. We further evaluate STP on two state-of-the-art machine translation systems (i.e., Google Translate and Bing Microsoft Translator) with 1,200 source sentences as inputs. The results show that STP can accurately find 5,073 unique erroneous translations in Google Translate and 5,100 unique erroneous translations in Bing Microsoft Translator (400% more than state-of-the-art techniques), with 64.5% and 65.4% precision, respectively. The reported erroneous translations vary in types and more than 90% of them cannot be found by state-of-the-art techniques. There are 9,393 erroneous translations unique to STP, which is 711.9% more than state-of-the-art techniques. Moreover, STP is quite effective to detect translation errors for the original sentences with a recall reaching 74.0%, improving state-of-the-art techniques by 55.1% on average.
翻訳日:2024-01-03 15:56:01 公開日:2024-01-01
# 相関型ニューラルバリアビリティによる部分統合の学習

Learn to integrate parts for whole through correlated neural variability ( http://arxiv.org/abs/2401.00746v1 )

ライセンス: Link先を確認
Zhichao Zhu, Yang Qi, Wenlian Lu, Jianfeng Feng(参考訳) 感覚知覚は感覚ニューロンの反応から発生し、感覚信号の集合に反応し、特定の知覚対象の様々な物理的特性に結びつく。 これらのニューロンの反応から脳がどのように知覚情報を抽出するかは、計算神経科学と機械学習の両方において重要な課題である。 ここでは,知覚情報が知覚ニューロンの相関変動性にエンコードされ,次いで下流ニューロンの発火速度に再結合する統計力学的理論を紹介する。 この理論を応用し,ニューラルネットワークを用いた動き方向の符号化を行い,スパイクニューラルネットワークによる高忠実度方向復元を示す。 この理論の下で訓練されたネットワークは、自然画像の分類性能も向上し、より高精度で高速な推論速度を実現した。 以上の結果から,脳機能への影響を強調し,神経共変性をニューラルコーディングの二次的要因とする従来の考え方に挑戦した。

Sensory perception originates from the responses of sensory neurons, which react to a collection of sensory signals linked to various physical attributes of a singular perceptual object. Unraveling how the brain extracts perceptual information from these neuronal responses is a pivotal challenge in both computational neuroscience and machine learning. Here we introduce a statistical mechanical theory, where perceptual information is first encoded in the correlated variability of sensory neurons and then reformatted into the firing rates of downstream neurons. Applying this theory, we illustrate the encoding of motion direction using neural covariance and demonstrate high-fidelity direction recovery by spiking neural networks. Networks trained under this theory also show enhanced performance in classifying natural images, achieving higher accuracy and faster inference speed. Our results challenge the traditional view of neural covariance as a secondary factor in neural coding, highlighting its potential influence on brain function.
翻訳日:2024-01-03 15:55:28 公開日:2024-01-01
# ToolEyes: 実世界のシナリオにおける大規模言語モデルのツール学習能力の評価

ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world Scenarios ( http://arxiv.org/abs/2401.00741v1 )

ライセンス: Link先を確認
Junjie Ye, Guanyu Li, Songyang Gao, Caishuang Huang, Yilong Wu, Sixian Li, Xiaoran Fan, Shihan Dou, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) 既存のツール学習の評価は、主に、大きな言語モデル(LLM)のための選択されたツールのアライメントと期待された結果の検証に重点を置いている。 しかし、これらのアプローチは、答えを事前に決定し、真のニーズから逸脱する、限られたシナリオに依存している。 さらに、成果にのみ重点を置くことは、LLMがツールを効果的に活用するために必要な複雑な能力を無視している。 この問題に対処するために,実シナリオにおけるLLMのツール学習能力の評価に適した,きめ細かいシステムであるToolEyesを提案する。 このシステムは7つの実世界のシナリオを精査し、ツール学習においてllmに不可欠な5つの次元(フォーマットアライメント、意図理解、行動計画、ツール選択、回答組織)を分析している。 さらに tooleyes には,約600のツールを備えたツールライブラリが組み込まれており,llm と物理世界の仲介役を担っている。 3つのカテゴリにわたる10のLSMに関する評価は、ツール学習における特定のシナリオと限定的な認知能力の好みを明らかにしている。 興味深いことに、モデルサイズの拡大は、ツール学習の障害を悪化させる。 これらの発見は、ツール学習の分野を前進させるための指導的洞察を提供する。 データはatt https://github.com/junjie-ye/tooleyes.gitで入手できる。

Existing evaluations of tool learning primarily focus on validating the alignment of selected tools for large language models (LLMs) with expected outcomes. However, these approaches rely on a limited set of scenarios where answers can be pre-determined, diverging from genuine needs. Furthermore, a sole emphasis on outcomes disregards the intricate capabilities essential for LLMs to effectively utilize tools. To tackle this issue, we propose ToolEyes, a fine-grained system tailored for the evaluation of the LLMs' tool learning capabilities in authentic scenarios. The system meticulously examines seven real-world scenarios, analyzing five dimensions crucial to LLMs in tool learning: format alignment, intent comprehension, behavior planning, tool selection, and answer organization. Additionally, ToolEyes incorporates a tool library boasting approximately 600 tools, serving as an intermediary between LLMs and the physical world. Evaluations involving ten LLMs across three categories reveal a preference for specific scenarios and limited cognitive abilities in tool learning. Intriguingly, expanding the model size even exacerbates the hindrance to tool learning. These findings offer instructive insights aimed at advancing the field of tool learning. The data is available att https://github.com/Junjie-Ye/ToolEyes.git.
翻訳日:2024-01-03 15:54:49 公開日:2024-01-01
# 広帯域光通信ネットワークにおける量子アニーリングにより実現されるilpに基づく資源最適化 - 量子アニーリングによる実世界の組合せ問題解決のための枠組み-

ILP-based Resource Optimization Realized by Quantum Annealing for Optical Wide-area Communication Networks -- A Framework for Solving Combinatorial Problems of a Real-world Application by Quantum Annealing ( http://arxiv.org/abs/2401.00826v1 )

ライセンス: Link先を確認
Arthur Witt, Jangho Kim, Christopher K\"orber, Thomas Luu(参考訳) 広域インターネットネットワークの資源配分は本質的に組合せ最適化の問題であり、高速に解決すれば、電力変換器からのエネルギー要求を最小限に抑えつつ、ネットワークの有効性と堅牢性を確保するために、インターネットプロトコルトラフィックをほぼリアルタイムに適応的に制御できる。 近年の研究では、D-Wave AdvantageTM量子アニールシステムに組み込むことができる2次非拘束二元最適化(QUBO)問題として、そのような問題をいかに実装できるかを実証し、原理実証を行った。 我々の初期の研究は、システム実行パラメータの司法的選択によるD-Waveソリューションの改善の可能性を広げた。 本稿では、これらのシステムパラメータを最適化するための調査と、機械学習(ml)技術を組み込むことにより、ソリューションの質をさらに向上させる方法について報告する。 特に,ハミング距離を用いて各種システム実行パラメータと解ベクトルの相関について検討する。 次に、これらの相関関係を学習するために決定木ニューラルネットワーク(NN)を適用し、ニューラルネットワークを使用して解ベクトルにさらなる推測を提供する。 我々は、このNNを単純な整数線形プログラミング(ILP)の例で実装し、どのようにNNが解空間を完全にマッピングできるかをD-Waveが捉えていないかを実証した。 しかし,3ノードネットワーク問題では,nnは解の空間の質を高めることができないことがわかった。

Resource allocation of wide-area internet networks is inherently a combinatorial optimization problem that if solved quickly, could provide near real-time adaptive control of internet-protocol traffic ensuring increased network efficacy and robustness, while minimizing energy requirements coming from power-hungry transceivers. In recent works we demonstrated how such a problem could be cast as a quadratic unconstrained binary optimization (QUBO) problem that can be embedded onto the D-Wave AdvantageTM quantum annealer system, demonstrating proof of principle. Our initial studies left open the possibility for improvement of D-Wave solutions via judicious choices of system run parameters. Here we report on our investigations for optimizing these system parameters, and how we incorporate machine learning (ML) techniques to further improve on the quality of solutions. In particular, we use the Hamming distance to investigate correlations between various system-run parameters and solution vectors. We then apply a decision tree neural network (NN) to learn these correlations, with the goal of using the neural network to provide further guesses to solution vectors. We successfully implement this NN in a simple integer linear programming (ILP) example, demonstrating how the NN can fully map out the solution space was not captured by D-Wave. We find, however, for the 3-node network problem the NN is not able to enhance the quality of space of solutions.
翻訳日:2024-01-03 15:48:28 公開日:2024-01-01
# sharp-nerf:シャープネス前処理を用いたグリッド型高速脱毛ニューラルネットワーク

Sharp-NeRF: Grid-based Fast Deblurring Neural Radiance Fields Using Sharpness Prior ( http://arxiv.org/abs/2401.00825v1 )

ライセンス: Link先を確認
Byeonghyeon Lee, Howoong Lee, Usman Ali, Eunbyung Park(参考訳) ニューラル・ラジアンス・フィールド(NeRF)はニューラルレンダリングに基づく新規ビュー合成において顕著な性能を示した。 しかし、nerfは、入力画像が照明不良、ぼかしの脱フォーカス、レンズ収差などの不完全な条件下で撮影された場合、視覚品質の悪化に苦しむ。 特にデフォーカスのぼかしは、通常カメラで撮影されるときに画像によく見られる。 最近の研究では、かなり高品質のシャープな画像をレンダリングする提案は少ないが、それでも多くの重要な課題に直面している。 特に、これらの手法では、膨大な計算時間を要するMulti-Layer Perceptron (MLP)ベースのNeRFを採用している。 このような欠点を克服するために,30分以内に入力されたぼやけた画像からクリーンでシャープな画像を描画するグリッドベースのNeRFであるSharp-NeRFを提案する。 そのために、複数のグリッドベースのカーネルを使用して、シーンのシャープさ/ブルーリネスを正確にモデル化しました。 画素のシャープネスレベルを計算し、空間的に変化するぼやけたカーネルを学習する。 ぼやけた画像からなるベンチマーク実験を行い、全参照および非参照メトリクスを評価した。 定性的かつ定量的な結果から,本手法は鮮明な色と細かな細部を持つシャープな新鮮なビューを描画し,従来よりもはるかに高速なトレーニング時間を有することが明らかとなった。 私たちのプロジェクトページはhttps://benhenryl.github.io/sharpnerf/で閲覧できます。

Neural Radiance Fields (NeRF) have shown remarkable performance in neural rendering-based novel view synthesis. However, NeRF suffers from severe visual quality degradation when the input images have been captured under imperfect conditions, such as poor illumination, defocus blurring, and lens aberrations. Especially, defocus blur is quite common in the images when they are normally captured using cameras. Although few recent studies have proposed to render sharp images of considerably high-quality, yet they still face many key challenges. In particular, those methods have employed a Multi-Layer Perceptron (MLP) based NeRF, which requires tremendous computational time. To overcome these shortcomings, this paper proposes a novel technique Sharp-NeRF -- a grid-based NeRF that renders clean and sharp images from the input blurry images within half an hour of training. To do so, we used several grid-based kernels to accurately model the sharpness/blurriness of the scene. The sharpness level of the pixels is computed to learn the spatially varying blur kernels. We have conducted experiments on the benchmarks consisting of blurry images and have evaluated full-reference and non-reference metrics. The qualitative and quantitative results have revealed that our approach renders the sharp novel views with vivid colors and fine details, and it has considerably faster training time than the previous works. Our project page is available at https://benhenryl.github.io/SharpNeRF/
翻訳日:2024-01-03 15:48:01 公開日:2024-01-01
# 人文科学のためのグラフ畳み込みオートエンコーダアンサンブル

Graph-Convolutional Autoencoder Ensembles for the Humanities, Illustrated with a Study of the American Slave Trade ( http://arxiv.org/abs/2401.00824v1 )

ライセンス: Link先を確認
Tom Lippincott(参考訳) 本稿では,人文科学における学習のための深層学習を容易にするために,関連する形式とツールを備えた,グラフ対応のオートエンコーダアンサンブルフレームワークを提案する。 人文的なドメインに同型なモデルを生成するためにサブアーキテクチャを構成することで、私たちは、サブアーキテクチャ選択毎に関数シグネチャを提供しながら、解釈可能性を維持します。 本稿では,米国における奴隷貿易史研究へのアプローチを実践的に応用し,新たなハイブリッドグラフ畳み込みオートエンコーダ機構,共通グラフトポロジのバッチ化ポリシ,特定のユースケースにおけるマスキング技術など,いくつかの技術的貢献を行った。 多様なドメインへの参加を拡大するためのフレームワークの有効性は、ヒューマニストとのコラボレーションと機械学習文学からの確立されたタスクの両方で、さまざまな分野とデータモダリティにまたがる2ダースの研究によって実証されている。 我々は、いくつかの異なるアーキテクチャ選択のパフォーマンス比較を行い、この研究の差し迫った次のステップの野心的なリストで結論付けます。

We introduce a graph-aware autoencoder ensemble framework, with associated formalisms and tooling, designed to facilitate deep learning for scholarship in the humanities. By composing sub-architectures to produce a model isomorphic to a humanistic domain we maintain interpretability while providing function signatures for each sub-architectural choice, allowing both traditional and computational researchers to collaborate without disrupting established practices. We illustrate a practical application of our approach to a historical study of the American post-Atlantic slave trade, and make several specific technical contributions: a novel hybrid graph-convolutional autoencoder mechanism, batching policies for common graph topologies, and masking techniques for particular use-cases. The effectiveness of the framework for broadening participation of diverse domains is demonstrated by a growing suite of two dozen studies, both collaborations with humanists and established tasks from machine learning literature, spanning a variety of fields and data modalities. We make performance comparisons of several different architectural choices and conclude with an ambitious list of imminent next steps for this research.
翻訳日:2024-01-03 15:47:35 公開日:2024-01-01
# LLM療法士の行動評価のための計算枠組み

A Computational Framework for Behavioral Assessment of LLM Therapists ( http://arxiv.org/abs/2401.00820v1 )

ライセンス: Link先を確認
Yu Ying Chiu, Ashish Sharma, Inna Wanyin Lin, Tim Althoff(参考訳) chatgptや他の大規模言語モデル(llm)の出現は、精神疾患に苦しむ個人を支援するセラピストとしてのllmの利用に対する関心を大きく高めている。 しかし、体系的な研究の欠如により、llmセラピストがどのように振る舞うか、すなわち顧客への反応方法を理解することは著しく制限されている。 幅広いクライアントや状況における行動を理解することは、望ましくない行動が深刻な結果をもたらすリスクの高い精神状態において、その能力と限界を正確に評価するために重要である。 本稿では、セラピストとしてLLMの会話行動を研究するための新しい計算フレームワークBOLTを提案する。 本研究では, 反射, 質問, 解答, 正規化, 心理教育を含む13種類の心理療法技術に基づいて, LLMの振る舞いを定量的に測定するインコンテキスト学習法を開発した。 その後,llm療法士の行動と高品質・低品質ヒト療法の行動を比較し,それらの行動がどのようにして高品質治療で観察された行動を反映するかを検討した。 GPTおよびLlama変異体を解析したところ、これらのLSMは、クライアントが感情を共有している場合、より高度な問題解決アドバイスを提供するなど、高品質な治療よりも、低品質治療で一般的に見られる行動によく似ていることが判明した。 同時に、低品質療法とは異なり、LLMは顧客のニーズや強みに大きく反映される。 我々の分析フレームワークは, 人間のセラピストに類似した逸話を生成できるLLMの能力にもかかわらず, LLMセラピストは現在, 高品質なケアと完全に一致していないため, 品質ケアを確保するためにさらなる研究が必要であることを示唆している。

The emergence of ChatGPT and other large language models (LLMs) has greatly increased interest in utilizing LLMs as therapists to support individuals struggling with mental health challenges. However, due to the lack of systematic studies, our understanding of how LLM therapists behave, i.e., ways in which they respond to clients, is significantly limited. Understanding their behavior across a wide range of clients and situations is crucial to accurately assess their capabilities and limitations in the high-risk setting of mental health, where undesirable behaviors can lead to severe consequences. In this paper, we propose BOLT, a novel computational framework to study the conversational behavior of LLMs when employed as therapists. We develop an in-context learning method to quantitatively measure the behavior of LLMs based on 13 different psychotherapy techniques including reflections, questions, solutions, normalizing, and psychoeducation. Subsequently, we compare the behavior of LLM therapists against that of high- and low-quality human therapy, and study how their behavior can be modulated to better reflect behaviors observed in high-quality therapy. Our analysis of GPT and Llama-variants reveals that these LLMs often resemble behaviors more commonly exhibited in low-quality therapy rather than high-quality therapy, such as offering a higher degree of problem-solving advice when clients share emotions, which is against typical recommendations. At the same time, unlike low-quality therapy, LLMs reflect significantly more upon clients' needs and strengths. Our analysis framework suggests that despite the ability of LLMs to generate anecdotal examples that appear similar to human therapists, LLM therapists are currently not fully consistent with high-quality care, and thus require additional research to ensure quality care.
翻訳日:2024-01-03 15:47:13 公開日:2024-01-01
# GLIMPSE: MLPを用いた局所イメージング

GLIMPSE: Generalized Local Imaging with MLPs ( http://arxiv.org/abs/2401.00816v1 )

ライセンス: Link先を確認
AmirEhsan Khorashadizadeh, Valentin Debarnot, Tianlin Liu, and Ivan Dokmani\'c(参考訳) 深層学習は、トモグラフィイメージングにおける現在のデファクトな技術である。 一般的なアプローチは、単純な逆変換の結果(例えばバックプロジェクション)を畳み込みニューラルネットワーク(cnn)に供給し、それが再構成を計算する。 トレーニングデータに類似した「分布内」テストデータでの強い結果にもかかわらず、スパースビューデータからのバックプロジェクションは特異点を非局在化するため、このアプローチでは大きな受容場が必要となる。 その結果、特定のグローバル構造に過度に適合し、アウト・オブ・ディストリビューション(ood)サンプルの一般化が不十分になる。 さらに、メモリの複雑さとトレーニング時間は、画像解像度で不利にスケールし、現実的な臨床解像度、特に3dでの使用には実用的でない: 標準のu-netは、1024x1024イメージのトレーニング時に、研究グレードのgpu上で、140gbのメモリと2600秒のエポックを必要とする。 本稿では,画素近傍に関連する測定値のみを単純なmlpに供給することにより,画素値の再構成を行う,コンピュータ断層撮影のための局所処理ニューラルネットワークであるspoopを提案する。 in-distribution test dataでu-netのような成功したcnnと同等またはより良いパフォーマンスを達成する一方で、sp sightは、画像解像度にほぼ依存せずにメモリフットプリントを維持しながら、oodサンプルでそれらを著しく上回っている。 さらに, GLIMPSEを完全微分可能とし, キャリブレーションから外れた場合には, 正確な投影角の復元などを行うことができた。

Deep learning is the current de facto state of the art in tomographic imaging. A common approach is to feed the result of a simple inversion, for example the backprojection, to a convolutional neural network (CNN) which then computes the reconstruction. Despite strong results on 'in-distribution' test data similar to the training data, backprojection from sparse-view data delocalizes singularities, so these approaches require a large receptive field to perform well. As a consequence, they overfit to certain global structures which leads to poor generalization on out-of-distribution (OOD) samples. Moreover, their memory complexity and training time scale unfavorably with image resolution, making them impractical for application at realistic clinical resolutions, especially in 3D: a standard U-Net requires a substantial 140GB of memory and 2600 seconds per epoch on a research-grade GPU when training on 1024x1024 images. In this paper, we introduce GLIMPSE, a local processing neural network for computed tomography which reconstructs a pixel value by feeding only the measurements associated with the neighborhood of the pixel to a simple MLP. While achieving comparable or better performance with successful CNNs like the U-Net on in-distribution test data, GLIMPSE significantly outperforms them on OOD samples while maintaining a memory footprint almost independent of image resolution; 5GB memory suffices to train on 1024x1024 images. Further, we built GLIMPSE to be fully differentiable, which enables feats such as recovery of accurate projection angles if they are out of calibration.
翻訳日:2024-01-03 15:46:42 公開日:2024-01-01
# 技術ソリューションを活用した農業 4.0:スマート農業分野への取り組み

Agricultural 4.0 Leveraging on Technological Solutions: Study for Smart Farming Sector ( http://arxiv.org/abs/2401.00814v1 )

ライセンス: Link先を確認
Emmanuel Kojo Gyamfi, Zag ElSayed, Jess Kropczynski, Mustapha Awinsongya Yakubu, Nelly Elsayed(参考訳) 2050年までには、地球上に90億人の人々がいることが予測され、生産量の増加、コストの低減、天然資源の保存が求められている。 異常発生や気候変動が農業生産に深刻なリスクをもたらすと予想されている。 その結果、食品の生産量が70%以上増加することが予想される。 スマート農業(英: smart agriculture)は、農業における技術主導の革命であり、産業生産と効率を上げることを目的としている。 主な4つの傾向は、食料の浪費、気候変動、人口移動、資源不足である。 農業産業は、新興技術の採用によって変化している。 IoT、AI、その他のセンサーといった最先端技術を使用して、スマート農業は伝統的な生産方法と国際農業政策を変革する。 目的は、監視の強化と労働費の削減を促進するために最適化されたバリューチェーンを確立することである。 農業部門は第4次産業革命の結果、生産性、持続可能性、効率を高めるために伝統的な農業手法と最先端技術を組み合わせた大きな変革を経験してきた。 農業分野における技術機器の可能性を有効に活用するには、政府、民間企業、その他の利害関係者の協力が必要である。 本稿では,農業4.0を対象とし,その実現方法論,互換性,信頼性のメリットと欠点を考察し,農業産業を変えるために活用されているいくつかのデジタルツールと課題の軽減方法について検討する。

By 2050, it is predicted that there will be 9 billion people on the planet, which will call for more production, lower costs, and the preservation of natural resources. It is anticipated that atypical occurrences and climate change will pose severe risks to agricultural output. It follows that a 70% or more significant rise in food output is anticipated. Smart farming, often known as agriculture 4.0, is a tech-driven revolution in agriculture with the goal of raising industry production and efficiency. Four primary trends are responsible for it: food waste, climate change, population shifts, and resource scarcity. The agriculture industry is changing as a result of the adoption of emerging technologies. Using cutting-edge technology like IoT, AI, and other sensors, smart farming transforms traditional production methods and international agricultural policies. The objective is to establish a value chain that is optimized to facilitate enhanced monitoring and decreased labor expenses. The agricultural sector has seen tremendous transformation as a result of the fourth industrial revolution, which has combined traditional farming methods with cutting-edge technology to increase productivity, sustainability, and efficiency. To effectively utilize the potential of technology gadgets in the agriculture sector, collaboration between governments, private sector entities, and other stakeholders is necessary. This paper covers Agriculture 4.0, looks at its possible benefits and drawbacks of the implementation methodologies, compatibility, reliability, and investigates the several digital tools that are being utilized to change the agriculture industry and how to mitigate the challenges.
翻訳日:2024-01-03 15:46:13 公開日:2024-01-01
# LLMがウィザードなら、コードはワンドだ: コードが大規模言語モデルをどのように強化し、インテリジェントエージェントとして機能させるか

If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents ( http://arxiv.org/abs/2401.00812v1 )

ライセンス: Link先を確認
Ke Yang, Jiateng Liu, John Wu, Chaoqi Yang, Yi R. Fung, Sha Li, Zixuan Huang, Xu Cao, Xingyao Wang, Yiquan Wang, Heng Ji, Chengxiang Zhai(参考訳) 現在の顕著な大きな言語モデル(LLM)は、サイズだけでなく、自然言語と形式言語(コード)の組み合わせで訓練されているという事実においても、過去の言語モデルとは異なる。 人間とコンピュータの間の媒体として、コードはハイレベルな目標を実行可能なステップに変換し、標準構文、論理的一貫性、抽象化、モジュール化を特徴とする。 本稿では、LLMのトレーニングデータにコードを統合する際の様々な利点について概説する。 具体的には、コード生成におけるllmの拡張以外にも、コードのユニークな特性が役立ちます。 i) LLMの推論能力を解き、より複雑な自然言語タスクへの応用を可能にする。 (ii) LLM を使用して構造化された正確な中間ステップを生成し、関数呼び出しを通じて外部実行終端に接続することができる。 (iii)コードコンパイルと実行環境を活用し、モデル改善のための多様なフィードバックを提供する。 さらに、コードによってもたらされるこれらのllmの深い能力が、命令を理解し、目標を分解し、行動を計画し実行し、フィードバックから洗練することが下流タスクの成功に不可欠である状況において、インテリジェントエージェント(ias)としてどのように出現したかを追跡する。 最後に,LLMをコードで強化する上で重要な課題と今後の方向性を示す。

The prominent large language models (LLMs) of today differ from past language models not only in size, but also in the fact that they are trained on a combination of natural language and formal language (code). As a medium between humans and computers, code translates high-level goals into executable steps, featuring standard syntax, logical consistency, abstraction, and modularity. In this survey, we present an overview of the various benefits of integrating code into LLMs' training data. Specifically, beyond enhancing LLMs in code generation, we observe that these unique properties of code help (i) unlock the reasoning ability of LLMs, enabling their applications to a range of more complex natural language tasks; (ii) steer LLMs to produce structured and precise intermediate steps, which can then be connected to external execution ends through function calls; and (iii) take advantage of code compilation and execution environment, which also provides diverse feedback for model improvement. In addition, we trace how these profound capabilities of LLMs, brought by code, have led to their emergence as intelligent agents (IAs) in situations where the ability to understand instructions, decompose goals, plan and execute actions, and refine from feedback are crucial to their success on downstream tasks. Finally, we present several key challenges and future directions of empowering LLMs with code.
翻訳日:2024-01-03 15:45:51 公開日:2024-01-01
# pershop - ショッピング対話システムモデリングのためのペルシャデータセット

PerSHOP -- A Persian dataset for shopping dialogue systems modeling ( http://arxiv.org/abs/2401.00811v1 )

ライセンス: Link先を確認
Keyvan Mahmoudi, Heshaam Faili(参考訳) 現在、対話システムは多くの産業や研究分野で使われている。 これらのシステムには、Apple Siri、Google Assistant、IBM Watsonなどの成功例がある。 タスク指向対話システムはこれらのカテゴリであり、特定のタスクで使用される。 飛行機のチケットの予約やレストランの予約などを行うことができる。 ショッピングはこれらのシステムでもっとも人気のある分野の1つである。 ボットは人間のセールスパーソンを置き換え、話すことで顧客と対話する。 これらのシステムの背景にあるモデルをトレーニングするには、注釈付きデータが必要です。 本稿では,クラウドソーシングによるペルシア語対話のデータセットを開発した。 モデルを訓練するためにこれらの対話に注釈を付けました。 このデータセットは、15の異なるドメインと1061の対話で22kの発話を含む。 これはこの分野で最大のペルシアのデータセットであり、将来の研究者が使用できるように自由に提供される。 また,自然言語理解(NLU)タスクのベースラインモデルも提案した。 これらのモデルはnluのインテント分類とエンティティ抽出の2つのタスクを実行する。 意図分類で得られたf-1スコアはおよそ91%で、エンティティ抽出では約93%であり、将来の研究のベースラインとなる。

Nowadays, dialogue systems are used in many fields of industry and research. There are successful instances of these systems, such as Apple Siri, Google Assistant, and IBM Watson. Task-oriented dialogue system is a category of these, that are used in specific tasks. They can perform tasks such as booking plane tickets or making restaurant reservations. Shopping is one of the most popular areas on these systems. The bot replaces the human salesperson and interacts with the customers by speaking. To train the models behind the scenes of these systems, annotated data is needed. In this paper, we developed a dataset of dialogues in the Persian language through crowd-sourcing. We annotated these dialogues to train a model. This dataset contains nearly 22k utterances in 15 different domains and 1061 dialogues. This is the largest Persian dataset in this field, which is provided freely so that future researchers can use it. Also, we proposed some baseline models for natural language understanding (NLU) tasks. These models perform two tasks for NLU: intent classification and entity extraction. The F-1 score metric obtained for intent classification is around 91% and for entity extraction is around 93%, which can be a baseline for future research.
翻訳日:2024-01-03 15:45:28 公開日:2024-01-01
# flにおけるデータの非iid・不均質性と戦うための各種手法のレビュー

A review on different techniques used to combat the non-IID and heterogeneous nature of data in FL ( http://arxiv.org/abs/2401.00809v1 )

ライセンス: Link先を確認
Venkataraman Natarajan Iyer(参考訳) Federated Learning(FL)は、ローカルデータサンプルを保持する複数の分散エッジデバイス間で協調的なモデルトレーニングを可能にする機械学習アプローチである。 この協調プロセスは、トレーニングを編成する中央サーバーまたはピアツーピアネットワークを介して行われる。 flの重要性は、データプライバシが最優先事項であるヘルスケアやファイナンスといった業界で特に顕著である。 しかしながら、フェデレーション学習環境下でモデルをトレーニングすることは、エッジデバイス間のデータ分散の多様性を特徴とする、いくつかの課題を生じさせる。 データは一般に非独立的かつ非識別的に分散され(非iid)、モデル収束の課題を呈する。 この報告は、非IIDおよび異種データから生じる問題を掘り下げ、これらの課題に対処するために設計された現在のアルゴリズムを探求する。

Federated Learning (FL) is a machine-learning approach enabling collaborative model training across multiple decentralized edge devices that hold local data samples, all without exchanging these samples. This collaborative process occurs under the supervision of a central server orchestrating the training or via a peer-to-peer network. The significance of FL is particularly pronounced in industries such as healthcare and finance, where data privacy holds paramount importance. However, training a model under the Federated learning setting brings forth several challenges, with one of the most prominent being the heterogeneity of data distribution among the edge devices. The data is typically non-independently and non-identically distributed (non-IID), thereby presenting challenges to model convergence. This report delves into the issues arising from non-IID and heterogeneous data and explores current algorithms designed to address these challenges.
翻訳日:2024-01-03 15:45:16 公開日:2024-01-01
# 総合指標を用いた因子重要度ランキングと選択

Factor Importance Ranking and Selection using Total Indices ( http://arxiv.org/abs/2401.00800v1 )

ライセンス: Link先を確認
Chaofan Huang, V. Roshan Joseph(参考訳) 因子の重要性は、各特徴が出力予測精度に与える影響を測定する。 既存の多くの研究はモデルに基づく重要性に重点を置いているが、一つの学習アルゴリズムの重要な特徴は他のモデルではほとんど意味を持たないかもしれない。 したがって、特定の予測アルゴリズムに頼ることなく、特徴の予測ポテンシャルを特徴付けることが重要となる。 このようなアルゴリズムに依存しない重要性は、Williamson et al. (2023) において本質的な重要性と呼ばれるが、その推定には再びモデルフィッティングが必要である。 モデリングステップを回避し,大域的感度解析から予測可能性と総ソボル指数の等価性を示すとともに,ノイズデータから直接推定できる新しい一貫した推定器を導入する。 前方選択と後方削除を統合することで、FIRST、Facter Importance Ranking、およびTotal (Sobol')指標による選択が生まれる。 回帰および二項分類問題に対するFIRSTの有効性と、最先端手法に対する明らかな優位性を示すため、広範囲なシミュレーションが提供される。

Factor importance measures the impact of each feature on output prediction accuracy. Many existing works focus on the model-based importance, but an important feature in one learning algorithm may hold little significance in another model. Hence, a factor importance measure ought to characterize the feature's predictive potential without relying on a specific prediction algorithm. Such algorithm-agnostic importance is termed as intrinsic importance in Williamson et al. (2023), but their estimator again requires model fitting. To bypass the modeling step, we present the equivalence between predictiveness potential and total Sobol' indices from global sensitivity analysis, and introduce a novel consistent estimator that can be directly estimated from noisy data. Integrating with forward selection and backward elimination gives rise to FIRST, Factor Importance Ranking and Selection using Total (Sobol') indices. Extensive simulations are provided to demonstrate the effectiveness of FIRST on regression and binary classification problems, and a clear advantage over the state-of-the-art methods.
翻訳日:2024-01-03 15:44:59 公開日:2024-01-01
# 量子通信によるスケーラブルな絡み合い認証

Scalable entanglement certification via quantum communication ( http://arxiv.org/abs/2401.00796v1 )

ライセンス: Link先を確認
Pharnam Bakhshinezhad, Mohammad Mehboudi, Carles Roch i Carceller, and Armin Tavakoli(参考訳) 量子メッセージ送信における共有絡み合いの利点を損なうには、複雑な2粒子絡み合いの測定を実装する必要がある。 本稿では,最も単純な2粒子測定,すなわち製品測定のみを用いるプロトコルにおける絡み合いの利点について検討する。 メッセージの次元のみが知られている実験では、強固な絡み合いの利点は可能であるが、アインシュタイン=ポドルスキー=ローゼンステアリングによって基本的に制限されていることを示す。 次に,これらの実験における標準シナリオの自然な拡張を提案し,この制限を回避できることを示す。 これにより、絡み合った2ビットのヴェルナー状態から絡み合う利点を証明し、高次元系への一般化を証明し、量子テレポーテーションへの接続を確立する。 この結果から, エンタングルメント支援通信における量子相関生成のための製品測定のパワーを明らかにし, アインシュタイン-ポドルスキー-ローゼン操舵の制約に加えて, 実用的な半デバイス非依存型エンタングルメント認証の道を開いた。

Harnessing the advantages of shared entanglement for sending quantum messages often requires the implementation of complex two-particle entangled measurements. We investigate entanglement advantages in protocols that use only the simplest two-particle measurements, namely product measurements. For experiments in which only the dimension of the message is known, we show that robust entanglement advantages are possible, but that they are fundamentally limited by Einstein-Podolsky-Rosen steering. Subsequently, we propose a natural extension of the standard scenario for these experiments and show that it circumvents this limitation. This leads us to prove entanglement advantages from every entangled two-qubit Werner state, evidence its generalisation to high-dimensional systems and establish a connection to quantum teleportation. Our results reveal the power of product measurements for generating quantum correlations in entanglement-assisted communication and they pave the way for practical semi-device-independent entanglement certification well-beyond the constraints of Einstein-Podolsky-Rosen steering.
翻訳日:2024-01-03 15:44:40 公開日:2024-01-01
# SecFormer: 大規模言語モデルの高速かつ正確なプライバシ保護推論を目指す

SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models ( http://arxiv.org/abs/2401.00793v1 )

ライセンス: Link先を確認
Jinglong Luo, Yehong Zhang, Jiaqi Zhang, Xin Mu, Hui Wang, Yue Yu, Zenglin Xu(参考訳) クラウドプラットフォームにホストされる大規模言語モデルを使用して推論サービスを提供することで、特に投資計画や銀行口座の詳細といった機密データに関して、プライバシの懸念が高まっている。 セキュアなマルチパーティコンピューティング(smpc)は、推論データとモデルパラメータのプライバシを保護するための有望なソリューションとして現れる。 しかし、大きな言語モデル、特に Transformer アーキテクチャに基づくモデルに対する SMPC のプライバシ保存推論(PPI)への応用は、性能の大幅な低下や低下につながることが多い。 これは主に、smpcには適しておらず、効果的に回避や最適化が難しいトランスフォーマーアーキテクチャにおける多数の非線形操作に起因する。 この問題に対処するため,TransformerモデルにおけるPPIの性能と効率の最適バランスを確保するために,SecFormerという高度な最適化フレームワークを導入した。 知識蒸留技術を実装することにより,モデル性能を犠牲にすることなく,PPIの高コスト指数および最大演算をうまく除去する。 さらに,GeLUやLayerNorm,SoftmaxといったPPI内の複素非線形関数を扱うために,分割多項式とGoldschmidt法を利用した効率的なSMPCプロトコル群を開発した。 我々の広範な実験によると、SecFormerはMPCFormerのパフォーマンスより優れており、BERT$_{\text{BASE}}$とBERT$_{\text{LARGE}}$に対して5.6\%$と24.2\%$がそれぞれ改善されている。 効率の面では、secformerはpumaの3.4倍と3.2倍高速であり、その効果と速度を示している。

With the growing use of large language models hosted on cloud platforms to offer inference services, privacy concerns are escalating, especially concerning sensitive data like investment plans and bank account details. Secure Multi-Party Computing (SMPC) emerges as a promising solution to protect the privacy of inference data and model parameters. However, the application of SMPC in Privacy-Preserving Inference (PPI) for large language models, particularly those based on the Transformer architecture, often leads to considerable slowdowns or declines in performance. This is largely due to the multitude of nonlinear operations in the Transformer architecture, which are not well-suited to SMPC and are difficult to circumvent or optimize effectively. To address this concern, we introduce an advanced optimization framework called SecFormer, designed to strike an optimal balance between performance and efficiency in PPI for Transformer models. By implementing knowledge distillation techniques, we successfully eliminate the high-cost exponential and maximum operations in PPI without sacrificing model performance. Additionally, we have developed a suite of efficient SMPC protocols that utilize segmented polynomials and Goldschmidt's method to handle other complex nonlinear functions within PPI, such as GeLU, LayerNorm, and Softmax. Our extensive experiments reveal that SecFormer outperforms MPCFormer in performance, showing improvements of $5.6\%$ and $24.2\%$ for BERT$_{\text{BASE}}$ and BERT$_{\text{LARGE}}$, respectively. In terms of efficiency, SecFormer is 3.4 and 3.2 times faster than Puma, demonstrating its effectiveness and speed.
翻訳日:2024-01-03 15:44:20 公開日:2024-01-01
# 検索型エゴセントリックビデオキャプション

Retrieval-Augmented Egocentric Video Captioning ( http://arxiv.org/abs/2401.00789v1 )

ライセンス: Link先を確認
Jilan Xu, Yifei Huang, Junlin Hou, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie(参考訳) 一人称視点のビデオから人間の行動を理解することは大きな課題となる。 従来のアプローチでは、エゴセントリックなビデオのみの表現学習を探求し、既存の大規模な3人称動画を活用できる可能性を見越している。 本稿では,エゴセントリックビデオの動画キャプションを強化するために,セマンティックな第三者指導ビデオを自動的に検索する検索拡張マルチモーダルキャプションモデルであるEgoInstructorを開発する。 2) クロスビュー検索モジュールを訓練するために, 異なる大規模エゴセントリックデータセットと外部セントリックデータセットからエゴ・エクソビデオペアを検出する自動パイプラインを開発した。 3) エゴセントリックやエクソセントリックなビデオ機能を引き寄せる新たなエゴエクソンスロスを,類似したアクションを記述した共有テキスト機能に合わせることで,クロスビュー検索モジュールを訓練する。 (4)7つのベンチマークにおいて,クロスビュー検索モジュールは優れた性能を示す。 エゴセントリックなビデオキャプションに関して、EgoInstructorは、参照として第三者のビデオを活用することで、大幅な改善を示している。

Understanding human actions from videos of first-person view poses significant challenges. Most prior approaches explore representation learning on egocentric videos only, while overlooking the potential benefit of exploiting existing large-scale third-person videos. In this paper, (1) we develop EgoInstructor, a retrieval-augmented multimodal captioning model that automatically retrieves semantically relevant third-person instructional videos to enhance the video captioning of egocentric videos. (2) For training the cross-view retrieval module, we devise an automatic pipeline to discover ego-exo video pairs from distinct large-scale egocentric and exocentric datasets. (3) We train the cross-view retrieval module with a novel EgoExoNCE loss that pulls egocentric and exocentric video features closer by aligning them to shared text features that describe similar actions. (4) Through extensive experiments, our cross-view retrieval module demonstrates superior performance across seven benchmarks. Regarding egocentric video captioning, EgoInstructor exhibits significant improvements by leveraging third-person videos as references.
翻訳日:2024-01-03 15:43:48 公開日:2024-01-01
# astraios: パラメータ効率のよい命令チューニングコード 大規模言語モデル

Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models ( http://arxiv.org/abs/2401.00788v1 )

ライセンス: Link先を確認
Terry Yue Zhuo, Armel Zebaze, Nitchakarn Suppattarachai, Leandro von Werra, Harm de Vries, Qian Liu, Niklas Muennighoff(参考訳) LLM(Large Language Models)のFFT(Full-parameter fine-tuning)の高コスト化は、パラメータ効率のよい細調整(PEFT)手法の連続を導いた。 しかし、どの手法が、異なるモデルスケールで最高のコストパフォーマンストレードオフを提供するのかは定かではない。 Astraiosは7つのチューニングメソッドと最大16億のパラメータの4つのモデルサイズを使用して、命令チューニングされた28のOctoCoderモデルのスイートである。 コード理解タスクとコード生成タスクの両方を含む5つのタスクと8つの異なるデータセットの調査を通じて、FFTは一般的に、すべてのスケールで最高のダウンストリームパフォーマンスをもたらし、PEFT手法はモデルスケールに基づいて、その有効性において著しく異なることがわかった。 LoRAは通常、コストとパフォーマンスの最も好ましいトレードオフを提供します。 これらの手法がモデルロバスト性およびコードセキュリティの両方に与える影響に関するさらなる調査により、より大きなモデルではロバスト性が低下し、セキュリティが低下する傾向があることが明らかになった。 最後に,更新パラメータ,クロスエントロピー損失,タスクパフォーマンスの関係について検討する。 小型モデルで観測されたチューニングの有効性は,より大規模なモデルによく当てはまり,インストラクションチューニングにおける検証損失は,全体のダウンストリーム性能の信頼性を示す指標となる。

The high cost of full-parameter fine-tuning (FFT) of Large Language Models (LLMs) has led to a series of parameter-efficient fine-tuning (PEFT) methods. However, it remains unclear which methods provide the best cost-performance trade-off at different model scales. We introduce Astraios, a suite of 28 instruction-tuned OctoCoder models using 7 tuning methods and 4 model sizes up to 16 billion parameters. Through investigations across 5 tasks and 8 different datasets encompassing both code comprehension and code generation tasks, we find that FFT generally leads to the best downstream performance across all scales, and PEFT methods differ significantly in their efficacy based on the model scale. LoRA usually offers the most favorable trade-off between cost and performance. Further investigation into the effects of these methods on both model robustness and code security reveals that larger models tend to demonstrate reduced robustness and less security. At last, we explore the relationships among updated parameters, cross-entropy loss, and task performance. We find that the tuning effectiveness observed in small models generalizes well to larger models, and the validation loss in instruction tuning can be a reliable indicator of overall downstream performance.
翻訳日:2024-01-03 15:43:29 公開日:2024-01-01
# ビット平面表現モデルにおける量子多重グレースケール画像暗号化方式

Quantum multiple gray scale images encryption scheme in the bit plane representation model ( http://arxiv.org/abs/2401.00787v1 )

ライセンス: Link先を確認
Claire I. Levaillant(参考訳) マルチイメージにビット平面量子表現を導入することで、量子コンピュータを用いて複数の画像の暗号化/復号を行う新しい方法を提案する。 我々の暗号方式は, 量子ベーカーマップを用いて, 片手に画像とビット平面の2段階スクランブルと他方に画素位置の2段階スクランブルに基づいている。 結果として生じる量子マルチイメージは、チェビシェフ多項式と同様に二次元h\'enon写像の正弦チェオトフィケーションを用いて制御されたcnotゲートで拡散される。 復号は、すべての逆量子ゲートを逆順に操作することで処理される。

After introducing a bit-plane quantum representation for a multi-image, we present a novel way to encrypt/decrypt multiple images using a quantum computer. Our encryption scheme is based on a two-stage scrambling of the images and of the bit planes on one hand and of the pixel positions on the other hand, each time using quantum baker maps. The resulting quantum multi-image is then diffused with controlled CNOT gates using a sine chaotification of a two-dimensional H\'enon map as well as Chebyshev polynomials. The decryption is processed by operating all the inverse quantum gates in the reverse order.
翻訳日:2024-01-03 15:43:05 公開日:2024-01-01
# プレトレーニング動作モデルの改良

Refining Pre-Trained Motion Models ( http://arxiv.org/abs/2401.00850v1 )

ライセンス: Link先を確認
Xinglong Sun, Adam W. Harley, and Leonidas J. Guibas(参考訳) 動画中の動きを手動でアノテートすることの難しさから、現在の最良の動き推定法は合成データで訓練されるため、列車/テストのギャップのために多少の困難がある。 自己監督的手法は、実際のビデオで直接トレーニングするという約束を保っているが、通常より悪いパフォーマンスを示す。 これには、ワープ誤差(すなわち色コンステンシー)と滑らかさ項の組み合わせで訓練された方法と、見積もりのサイクル一貫性を促進する方法が含まれる(すなわち、後方追跡は、前方追跡として反対の軌道を生じさせる)。 本研究では,自己教師型トレーニングによる最先端の教師付きモデルの改善に挑戦する。 初期化を監督する重み付けを行うと、既存の自己超越技術のほとんどは、改善ではなくパフォーマンスを悪くするので、新しいデータを見る利点はトレーニング信号のノイズによって過度に隠されていることが示唆される。 実世界の映像から「クリーン」のトレーニング信号を得ることに着目し,ラベル作成とトレーニングを2つの異なる段階に分けることを提案する。 第1段階では,事前学習モデルを用いて映像中の動きを推定し,サイクル整合性で検証可能な動き推定のサブセットを選択する。 これにより、ビデオのスパースだが正確な擬似ラベリングが生成される。 第2段階では、これらの出力を再現するためにモデルを微調整し、入力に拡張を適用する。 このブートストラップ方式を,疑似ラベルを高密度化し再バランスさせるシンプルな手法で補完し,‘easy’ トラックを単にトレーニングしないようにした。 本手法は,実映像における全教師あり方式に対して,短期的(フローベース)と長期的(マルチフレーム)の画素追跡において,信頼性の高いゲインが得られることを示す。

Given the difficulty of manually annotating motion in video, the current best motion estimation methods are trained with synthetic data, and therefore struggle somewhat due to a train/test gap. Self-supervised methods hold the promise of training directly on real video, but typically perform worse. These include methods trained with warp error (i.e., color constancy) combined with smoothness terms, and methods that encourage cycle-consistency in the estimates (i.e., tracking backwards should yield the opposite trajectory as tracking forwards). In this work, we take on the challenge of improving state-of-the-art supervised models with self-supervised training. We find that when the initialization is supervised weights, most existing self-supervision techniques actually make performance worse instead of better, which suggests that the benefit of seeing the new data is overshadowed by the noise in the training signal. Focusing on obtaining a ``clean'' training signal from real-world unlabelled video, we propose to separate label-making and training into two distinct stages. In the first stage, we use the pre-trained model to estimate motion in a video, and then select the subset of motion estimates which we can verify with cycle-consistency. This produces a sparse but accurate pseudo-labelling of the video. In the second stage, we fine-tune the model to reproduce these outputs, while also applying augmentations on the input. We complement this boot-strapping method with simple techniques that densify and re-balance the pseudo-labels, ensuring that we do not merely train on ``easy'' tracks. We show that our method yields reliable gains over fully-supervised methods in real videos, for both short-term (flow-based) and long-range (multi-frame) pixel tracking.
翻訳日:2024-01-03 15:36:14 公開日:2024-01-01
# COSMO: インターリーブプレトレーニングによる圧縮流線形マルチモードモデル

COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training ( http://arxiv.org/abs/2401.00849v1 )

ライセンス: Link先を確認
Alex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou(参考訳) Vision-Language 事前学習の進化において、短文理解から拡張されたテキストコンテキストへのシフトが重要である。 最近の自動回帰視覚言語モデルである \cite{flamingo, palme} は、Large Language Models の長期コンテキスト機能を活用し、数発のテキスト生成タスクで優れているが、アライメントタスクでは課題に直面している。 このギャップに対処するために、テキスト生成モデルに対照的な損失を導入し、Contrastive-Streamlined MultimOdal framework (\ModelName)を提示し、言語モデルを戦略的に非モーダルテキスト処理とアドレプトマルチモーダルデータ処理コンポーネントに分割する。 統一されたフレームワークである \modelnameは、ユニモーダルおよびマルチモーダル要素をマージし、学習可能なパラメータを著しく削減しながら、テキストおよびビジュアルデータを含むタスクのモデルパフォーマンスを高めます。 しかし、これらのモデルは広範囲にわたる長文データセットを要求するが、高品質な長文ビデオデータセットの利用可能性は限られている。 このギャップを埋めるため、本研究では、包括的なキャプションを特徴とする最初のインターリーブされたビデオテキストデータセットである \videodatasetnameを導入する。 その影響を示すために, \videodatasetname{} が画像テキストタスクのモデル性能をどのように向上させるかを示す。 学習可能なパラメータの34%、利用可能なデータの72\%を活用することで、openflamingo~\cite{openflamingo}よりも優れた結果が得られる。 例えば、4ショットのフリックキャプションタスクでは、パフォーマンスが57.2%から65.\%に顕著に向上する。 \modelname{} と \videodatasetname{} の貢献は、画像テキストとビデオテキストの両方のタスクを含む14のダウンストリームデータセットで注目すべきパフォーマンス向上によって裏付けられている。

In the evolution of Vision-Language Pre-training, shifting from short-text comprehension to encompassing extended textual contexts is pivotal. Recent autoregressive vision-language models like \cite{flamingo, palme}, leveraging the long-context capability of Large Language Models, have excelled in few-shot text generation tasks but face challenges in alignment tasks. Addressing this gap, we introduce the contrastive loss into text generation models, presenting the COntrastive-Streamlined MultimOdal framework (\ModelName), strategically partitioning the language model into dedicated unimodal text processing and adept multimodal data handling components. \ModelName, our unified framework, merges unimodal and multimodal elements, enhancing model performance for tasks involving textual and visual data while notably reducing learnable parameters. However, these models demand extensive long-text datasets, yet the availability of high-quality long-text video datasets remains limited. To bridge this gap, this work introduces \VideoDatasetName, an inaugural interleaved video-text dataset featuring comprehensive captions, marking a significant step forward. Demonstrating its impact, we illustrate how \VideoDatasetName{} enhances model performance in image-text tasks. With 34% learnable parameters and utilizing 72\% of the available data, our model demonstrates significant superiority over OpenFlamingo~\cite{openflamingo}. For instance, in the 4-shot flickr captioning task, performance notably improves from 57.2% to 65.\%. The contributions of \ModelName{} and \VideoDatasetName{} are underscored by notable performance gains across 14 diverse downstream datasets encompassing both image-text and video-text tasks.
翻訳日:2024-01-03 15:35:18 公開日:2024-01-01
# スマートウォッチとヘッドマウントカメラ搭載の軽量モーションキャプチャー「Mocap Every Everywhere」

Mocap Everyone Everywhere: Lightweight Motion Capture With Smartwatches and a Head-Mounted Camera ( http://arxiv.org/abs/2401.00847v1 )

ライセンス: Link先を確認
Jiye Lee, Hanbyul Joo(参考訳) 2台のスマートウォッチとヘッドマウントカメラを用いた軽量で手頃なモーションキャプチャ方式を提案する。 6つ以上の専門家レベルのIMUデバイスを使用する既存のアプローチとは対照的に、我々のアプローチはコスト効率が高く便利です。 この方法では、ウェアラブルのモーションキャプチャーをあらゆる場所で使えるようにし、多様な環境で3dフルボディモーションキャプチャを可能にする。 センサ入力の極端な間隔とあいまいさを克服する鍵となるアイデアとして,頭部搭載カメラから得られた6Dヘッドポーズを統合して動作推定を行う。 屋内および屋外のシーンの撮影を可能にするため,多段トランスフォーマーベース回帰モジュールと組み合わせた頭部ポーズ定義のためのフロアレベルの変化の追跡と更新を行うアルゴリズムを提案する。 また,エゴセントリック画像の視覚的手がかりを活用した新しい手法を導入し,あいまいさを低減しつつモーションキャプチャのクオリティを高める。 本手法は,複雑な屋外環境や,物体の相互作用や複数の個人間の社会的相互作用を含む日常的な動作など,様々な難易度シナリオにおいて,その性能を示す。

We present a lightweight and affordable motion capture method based on two smartwatches and a head-mounted camera. In contrast to the existing approaches that use six or more expert-level IMU devices, our approach is much more cost-effective and convenient. Our method can make wearable motion capture accessible to everyone everywhere, enabling 3D full-body motion capture in diverse environments. As a key idea to overcome the extreme sparsity and ambiguities of sensor inputs, we integrate 6D head poses obtained from the head-mounted cameras for motion estimation. To enable capture in expansive indoor and outdoor scenes, we propose an algorithm to track and update floor level changes to define head poses, coupled with a multi-stage Transformer-based regression module. We also introduce novel strategies leveraging visual cues of egocentric images to further enhance the motion capture quality while reducing ambiguities. We demonstrate the performance of our method on various challenging scenarios, including complex outdoor environments and everyday motions including object interactions and social interactions among multiple individuals.
翻訳日:2024-01-03 15:33:54 公開日:2024-01-01
# 3次元ガウススプラッティングの劣化

Deblurring 3D Gaussian Splatting ( http://arxiv.org/abs/2401.00834v1 )

ライセンス: Link先を確認
Byeonghyeon Lee, Howoong Lee, Xiangyu Sun, Usman Ali, Eunbyung Park(参考訳) 近年の放射光分野の研究は、フォトリアリスティックなレンダリング品質を持つ新しいビュー合成のロバストな方法を生み出している。 それにもかかわらず、彼らは通常ニューラルネットワークとボリュームレンダリングを採用しており、長いレンダリング時間のために様々なリアルタイムアプリケーションで広く使用されることを訓練し妨げている。 近年,3次元ガウシアンスプラッティングに基づく3次元シーンのモデル化手法が提案されている。 しかし、トレーニング画像がぼやけている場合、レンダリング品質が著しく低下する。 ぼやけは通常、レンズのデフォーカス、物体の動き、カメラの揺動によって起こり、必然的にクリーンな画像取得に介入する。 過去のいくつかの研究は、ニューラルネットワークを用いてぼやけた入力画像からクリーンでシャープな画像をレンダリングしようと試みている。 しかし、これらの研究の大部分は、ボリュームレンダリングに基づく神経放射場のためにのみ設計されており、ラスタライズに基づく3Dガウススプラッティング法には直接適用されない。 そこで本稿では,各3次元ガウスの共分散を操作する小型多層パーセプトロン(mlp)を用いて,3次元ガウスのスプラッティングをデブラリングし,シーンのぼやけをモデル化する,新しいリアルタイムデブラリングフレームワークを提案する。 3D Gassian Splattingはリアルタイムレンダリングを楽しめるが、ぼやけた画像から細部と鋭い細部を再構築することができる。 様々な実験がベンチマークで行われており, 評価結果から, 脱臭に対するアプローチの有効性が明らかとなった。 質的な結果はhttps://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/で確認できる。

Recent studies in Radiance Fields have paved the robust way for novel view synthesis with their photorealistic rendering quality. Nevertheless, they usually employ neural networks and volumetric rendering, which are costly to train and impede their broad use in various real-time applications due to the lengthy rendering time. Lately 3D Gaussians splatting-based approach has been proposed to model the 3D scene, and it achieves remarkable visual quality while rendering the images in real-time. However, it suffers from severe degradation in the rendering quality if the training images are blurry. Blurriness commonly occurs due to the lens defocusing, object motion, and camera shake, and it inevitably intervenes in clean image acquisition. Several previous studies have attempted to render clean and sharp images from blurry input images using neural fields. The majority of those works, however, are designed only for volumetric rendering-based neural radiance fields and are not straightforwardly applicable to rasterization-based 3D Gaussian splatting methods. Thus, we propose a novel real-time deblurring framework, deblurring 3D Gaussian Splatting, using a small Multi-Layer Perceptron (MLP) that manipulates the covariance of each 3D Gaussian to model the scene blurriness. While deblurring 3D Gaussian Splatting can still enjoy real-time rendering, it can reconstruct fine and sharp details from blurry images. A variety of experiments have been conducted on the benchmark, and the results have revealed the effectiveness of our approach for deblurring. Qualitative results are available at https://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/
翻訳日:2024-01-03 15:33:10 公開日:2024-01-01
# 効率的な光流動のためのRAFTの再考

Rethinking RAFT for Efficient Optical Flow ( http://arxiv.org/abs/2401.00833v1 )

ライセンス: Link先を確認
Navid Eslami, Farnoosh Arefi, Amir M. Mansourian, Shohreh Kasaei(参考訳) ディープラーニングに基づくオプティカルフロー手法の大幅な進歩にもかかわらず、大きな変位や繰り返しパターンを正確に推定することは課題である。 これらのアルゴリズムで使用される局所的特徴と類似性検索パターンの制限がこの問題に寄与する。 さらに、いくつかの既存のメソッドは、実行が遅く、グラフィックメモリ消費が過剰である。 そこで本研究では,RAFTフレームワークに基づく新しいアプローチを提案する。 AFL(Attention-based Feature Localization)アプローチでは、グローバルな特徴抽出と繰り返しパターンへの対処のためのアテンション機構が組み込まれている。 第2フレームで対応するピクセルと対応するピクセルをマッチングし、正確なフロー値を割り当てる演算子を導入する。 さらに,アモルファスルックアップ演算子(alo)を提案し,探索演算子のデータ冗長性を低減し,類似度抽出のための探索空間を拡大することにより,収束速度の向上と大きな変位処理能力の向上を図る。 提案手法は,効率的なRAFT(Ef-RAFT)であり,Sintelデータセットで10%,RAFT上でのKITTIデータセットで5%の大幅な改善を実現している。 驚くべきことに、これらの拡張は、わずか33%の速度低下と、わずか13%のメモリ使用の増加で達成されている。 コードは https://github.com/n3slami/Ef-RAFT

Despite significant progress in deep learning-based optical flow methods, accurately estimating large displacements and repetitive patterns remains a challenge. The limitations of local features and similarity search patterns used in these algorithms contribute to this issue. Additionally, some existing methods suffer from slow runtime and excessive graphic memory consumption. To address these problems, this paper proposes a novel approach based on the RAFT framework. The proposed Attention-based Feature Localization (AFL) approach incorporates the attention mechanism to handle global feature extraction and address repetitive patterns. It introduces an operator for matching pixels with corresponding counterparts in the second frame and assigning accurate flow values. Furthermore, an Amorphous Lookup Operator (ALO) is proposed to enhance convergence speed and improve RAFTs ability to handle large displacements by reducing data redundancy in its search operator and expanding the search space for similarity extraction. The proposed method, Efficient RAFT (Ef-RAFT),achieves significant improvements of 10% on the Sintel dataset and 5% on the KITTI dataset over RAFT. Remarkably, these enhancements are attained with a modest 33% reduction in speed and a mere 13% increase in memory usage. The code is available at: https://github.com/n3slami/Ef-RAFT
翻訳日:2024-01-03 15:32:40 公開日:2024-01-01
# 生成型人工知能の次のステップを歩む - 理科教育におけるマルチモーダル大規模言語モデルの変容的役割-

Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education ( http://arxiv.org/abs/2401.00832v1 )

ライセンス: Link先を確認
Arne Bewersdorff, Christian Hartmann, Marie Hornberger, Kathrin Se{\ss}ler, Maria Bannert, Enkelejda Kasneci, Gjergji Kasneci, Xiaoming Zhai, Claudia Nerdel(参考訳) 教育における人工知能(AI)、特にLarge Language Model(LLM)ベースのシステムの統合は、教育と学習経験の強化を約束している。 しかし、gpt-4 with vision(gpt-4v)のようなマルチモーダル大規模言語モデル(mllm)の出現は、テキスト、音声、視覚入力を含むマルチモーダルデータを処理できるようになり、教育における豊かでパーソナライズされたインタラクティブな学習風景の新しい時代を開く。 本稿では,マルチメディア学習の理論を基礎として,科学教育の中心的側面におけるmllmの変容的役割について,模範的な革新的学習シナリオを提示することで考察する。 MLLMの応用は、コンテンツ作成から学習のための適切なサポート、科学的実践における能力の育成、評価とフィードバックの提供まで様々である。 これらのシナリオはテキストベースやユニモーダル形式に限らず、マルチモーダルになり、パーソナライズ、アクセシビリティ、潜在的な学習効率が向上する。 多くの機会に加えて、データ保護や倫理的考慮といった課題がより健全になり、責任ある統合を保証するための堅牢なフレームワークが求められます。 本稿では,理科教育におけるAIの効果的な倫理的活用を確実にするために,教育者の役割に取って代わるのではなく,技術が補完するMLLMの実装において,バランスのとれたアプローチの必要性を強調する。 教育者の役割の進化に対するmllmのニュアンス的含意を探求し、科学教育を越えて他の分野への談話を拡大するためにさらなる研究が求められている。 我々は,可能性,課題,将来的な意味の探索を通じて,理科教育などにおけるMLLMの変容軌道の予備的理解をめざす。

The integration of Artificial Intelligence (AI), particularly Large Language Model (LLM)-based systems, in education has shown promise in enhancing teaching and learning experiences. However, the advent of Multimodal Large Language Models (MLLMs) like GPT-4 with vision (GPT-4V), capable of processing multimodal data including text, sound, and visual inputs, opens a new era of enriched, personalized, and interactive learning landscapes in education. Grounded in theory of multimedia learning, this paper explores the transformative role of MLLMs in central aspects of science education by presenting exemplary innovative learning scenarios. Possible applications for MLLMs could range from content creation to tailored support for learning, fostering competencies in scientific practices, and providing assessment and feedback. These scenarios are not limited to text-based and uni-modal formats but can be multimodal, increasing thus personalization, accessibility, and potential learning effectiveness. Besides many opportunities, challenges such as data protection and ethical considerations become more salient, calling for robust frameworks to ensure responsible integration. This paper underscores the necessity for a balanced approach in implementing MLLMs, where the technology complements rather than supplants the educator's role, ensuring thus an effective and ethical use of AI in science education. It calls for further research to explore the nuanced implications of MLLMs on the evolving role of educators and to extend the discourse beyond science education to other disciplines. Through the exploration of potentials, challenges, and future implications, we aim to contribute to a preliminary understanding of the transformative trajectory of MLLMs in science education and beyond.
翻訳日:2024-01-03 15:32:19 公開日:2024-01-01
# ニューラルネットワークによる量子場理論のマルチ格子サンプリング

Multi-Lattice Sampling of Quantum Field Theories via Neural Operators ( http://arxiv.org/abs/2401.00828v1 )

ライセンス: Link先を確認
B\'alint M\'at\'e, Fran\c{c}ois Fleuret(参考訳) 我々は、ボルツマン分布から離散体構成をサンプリングする問題を$\phi$, $[d\phi] Z^{-1} e^{-S[\phi]}$, where $S$ is the lattice-discretization of the continuous Euclidean action $\mathcal S$ of some quantum field theoryとする。 そのような密度は、基礎となる汎函数密度 $[\mathcal D\phi(x)] \mathcal Z^{-1} e^{-\mathcal S[\phi(x)]}$ の近似として生じるので、演算子学習の例としてタスクをフレーム化する。 特に、時間積分が自由理論 $[\mathcal D\phi(x)] \mathcal Z_0^{-1} e^{-\mathcal S_{0}[\phi(x)]} の函数分布と対象理論 $[\mathcal D\phi(x)]\mathcal Z^{-1}e^{-\mathcal S[\phi(x)]} の写像を与える時間依存作用素 $\mathcal V_t$ を近似することを提案する。 特定の格子が選択されると、作用素 $\mathcal v_t$ は有限次元の時間依存ベクトル場 $v_t$ に離散化され、これは選択された格子上の有限次元分布の間の連続正規化フローを誘導する。 この流れは、離散化された自由理論と対象理論である $[d\phi] z_0^{-1} e^{-s_{0}[\phi]}$, $[d\phi] z^{-1}e^{-s[\phi]}$ の間の二相化として訓練することができる。 このような演算子ベースのフローアーキテクチャが、トレーニングされていない格子サイズにどの程度一般化するかを探索するために、$\phi^4$-theoryで実験を行い、より小さな格子に対する事前トレーニングが、ターゲット格子サイズのみのトレーニングよりも高速になることを示す。

We consider the problem of sampling discrete field configurations $\phi$ from the Boltzmann distribution $[d\phi] Z^{-1} e^{-S[\phi]}$, where $S$ is the lattice-discretization of the continuous Euclidean action $\mathcal S$ of some quantum field theory. Since such densities arise as the approximation of the underlying functional density $[\mathcal D\phi(x)] \mathcal Z^{-1} e^{-\mathcal S[\phi(x)]}$, we frame the task as an instance of operator learning. In particular, we propose to approximate a time-dependent operator $\mathcal V_t$ whose time integral provides a mapping between the functional distributions of the free theory $[\mathcal D\phi(x)] \mathcal Z_0^{-1} e^{-\mathcal S_{0}[\phi(x)]}$ and of the target theory $[\mathcal D\phi(x)]\mathcal Z^{-1}e^{-\mathcal S[\phi(x)]}$. Whenever a particular lattice is chosen, the operator $\mathcal V_t$ can be discretized to a finite dimensional, time-dependent vector field $V_t$ which in turn induces a continuous normalizing flow between finite dimensional distributions over the chosen lattice. This flow can then be trained to be a diffeormorphism between the discretized free and target theories $[d\phi] Z_0^{-1} e^{-S_{0}[\phi]}$, $[d\phi] Z^{-1}e^{-S[\phi]}$. We run experiments on the $\phi^4$-theory to explore to what extent such operator-based flow architectures generalize to lattice sizes they were not trained on and show that pretraining on smaller lattices can lead to speedup over training only a target lattice size.
翻訳日:2024-01-03 15:31:44 公開日:2024-01-01
# 残差アダプタを用いた高効率マルチドメインテキスト認識深層ニューラルネットワークパラメータ化

Efficient Multi-domain Text Recognition Deep Neural Network Parameterization with Residual Adapters ( http://arxiv.org/abs/2401.00971v1 )

ライセンス: Link先を確認
Jiayou Chao and Wei Zhu(参考訳) ディープニューラルネットワークの最近の進歩はコンピュータビジョンタスクの性能を著しく向上させたが、これらのネットワークの特殊性は、しばしば広範なデータと高い計算能力を必要とする。 これらの要件に対処し、多タスク学習の強みを活用して効率と一般化を向上させるために、様々な領域にわたる光学的文字認識(OCR)に適応する新しいニューラルネットワークモデルを提案する。 このモデルは、新しいドメインへの迅速な適応を実現し、計算リソースの需要を減らすためにコンパクトなサイズを維持し、高い精度を確保し、学習経験から知識を保持し、完全に再訓練することなくドメイン固有のパフォーマンス改善を可能にするように設計されている。 オープンデータセットに対する厳密な評価は、パフォーマンスを犠牲にすることなくトレーニング可能なパラメータの数を著しく削減するモデルの能力を検証しており、特に光テキスト認識への応用において、コンピュータビジョンの分野でスケーラブルで適応可能なソリューションとしての可能性を示している。

Recent advancements in deep neural networks have markedly enhanced the performance of computer vision tasks, yet the specialized nature of these networks often necessitates extensive data and high computational power. Addressing these requirements, this study presents a novel neural network model adept at optical character recognition (OCR) across diverse domains, leveraging the strengths of multi-task learning to improve efficiency and generalization. The model is designed to achieve rapid adaptation to new domains, maintain a compact size conducive to reduced computational resource demand, ensure high accuracy, retain knowledge from previous learning experiences, and allow for domain-specific performance improvements without the need to retrain entirely. Rigorous evaluation on open datasets has validated the model's ability to significantly lower the number of trainable parameters without sacrificing performance, indicating its potential as a scalable and adaptable solution in the field of computer vision, particularly for applications in optical text recognition.
翻訳日:2024-01-03 15:13:34 公開日:2024-01-01
# データ中心から見た合成クレジットカード取引時系列の忠実性と実用性の向上

Improve Fidelity and Utility of Synthetic Credit Card Transaction Time Series from Data-centric Perspective ( http://arxiv.org/abs/2401.00965v1 )

ライセンス: Link先を確認
Din-Yin Hsieh, Chi-Hua Wang, Guang Cheng(参考訳) 合成表データ、特にクレジットカード取引データなどのシーケンシャルコンテキストにおける生成モデルトレーニングの探索は、大きな課題を提示している。 本稿では,これらの課題に対処し,実データに対する高忠実性と機械学習タスクの最適性の両方の実現に焦点をあてる。 本稿では,CPAR(Conditional Probabilistic Auto-Regressive Model)のトレーニングを強化するために,5つの事前処理スキーマを導入する。 良好な忠実度を達成すると、時系列データに適した不正検出モデルを訓練し、合成データの有用性を評価する。 本研究は、金融セクターの総合データ実践者にとって貴重な洞察と実践的ガイドラインを提供し、トレーニング目的のために実データから合成データセットへ移行し、クレジットカード取引時系列を合成するためのより広範な方法論を明らかにした。

Exploring generative model training for synthetic tabular data, specifically in sequential contexts such as credit card transaction data, presents significant challenges. This paper addresses these challenges, focusing on attaining both high fidelity to actual data and optimal utility for machine learning tasks. We introduce five pre-processing schemas to enhance the training of the Conditional Probabilistic Auto-Regressive Model (CPAR), demonstrating incremental improvements in the synthetic data's fidelity and utility. Upon achieving satisfactory fidelity levels, our attention shifts to training fraud detection models tailored for time-series data, evaluating the utility of the synthetic data. Our findings offer valuable insights and practical guidelines for synthetic data practitioners in the finance sector, transitioning from real to synthetic datasets for training purposes, and illuminating broader methodologies for synthesizing credit card transaction time series.
翻訳日:2024-01-03 15:13:17 公開日:2024-01-01
# クロスドメインWiFi CSIに基づくヒューマンアクティビティ認識のためのデータ拡張手法

Data Augmentation Techniques for Cross-Domain WiFi CSI-based Human Activity Recognition ( http://arxiv.org/abs/2401.00964v1 )

ライセンス: Link先を確認
Julian Strohmayer and Martin Kampel(参考訳) WiFiチャンネル状態情報(CSI)に基づく人間の活動の認識は、屋内環境における接触のない視覚的プライバシー保護センシングを可能にする。 しかし、環境条件やセンサーハードウェアの差異によるモデル一般化は、この分野ではよく知られた問題である。 この課題に対処するために、WiFi CSIに画像ベース学習で一般的に使用されるデータ拡張技術を適用し、クロスシナリオおよびクロスシステム設定におけるモデル一般化性能に与える影響について検討する。 特に、LOS(Line-of-Sight)とNLOS(Non-of-Sight)のスルーウォールシナリオの一般化と、未探索のアンテナシステム間の一般化に焦点を当てる。 我々は,人間の活動のcsi振幅スペクトログラムのデータセットを収集し,公開する。 このデータを利用して, efficientnetv2 アーキテクチャに基づく活動認識モデルを訓練し,各拡張がモデル一般化性能に与える影響を評価できるアブレーション研究を行った。 以上の結果から,CSI振幅データに適用された単純なデータ拡張手法の特定の組み合わせは,クロスシナリオとクロスシステム一般化を著しく改善できることが示された。

The recognition of human activities based on WiFi Channel State Information (CSI) enables contactless and visual privacy-preserving sensing in indoor environments. However, poor model generalization, due to varying environmental conditions and sensing hardware, is a well-known problem in this space. To address this issue, in this work, data augmentation techniques commonly used in image-based learning are applied to WiFi CSI to investigate their effects on model generalization performance in cross-scenario and cross-system settings. In particular, we focus on the generalization between line-of-sight (LOS) and non-line-of-sight (NLOS) through-wall scenarios, as well as on the generalization between different antenna systems, which remains under-explored. We collect and make publicly available a dataset of CSI amplitude spectrograms of human activities. Utilizing this data, an ablation study is conducted in which activity recognition models based on the EfficientNetV2 architecture are trained, allowing us to assess the effects of each augmentation on model generalization performance. The gathered results show that specific combinations of simple data augmentation techniques applied to CSI amplitude data can significantly improve cross-scenario and cross-system generalization.
翻訳日:2024-01-03 15:12:59 公開日:2024-01-01
# Dafnyの開発者生産性を高めるために大規模言語モデルを活用する

Leveraging Large Language Models to Boost Dafny's Developers Productivity ( http://arxiv.org/abs/2401.00963v1 )

ライセンス: Link先を確認
\'Alvaro Silva, Alexandra Mendes, Jo\~ao F. Ferreira(参考訳) 本稿では,Dafny開発者の生産性を高めるためにLLM(Large Language Models)を活用することを提案する。 Dafnyのような検証対応言語の使用は過去10年間で大幅に増加したが、まだ広く採用されていない。 このような言語を使うことのコストが高すぎるのは、開発者に必要な専門知識のレベルと、プログラムを正しく証明しようとするときにしばしば直面する課題のためです。 Dafnyは検証プロセスの多くを自動化するが、時にはDafnyが単独で実行するには複雑すぎるステップもある。 そのような場合の1つは、補題の欠如、すなわちダフニーは、ステップの証明においてそれを助けることができる定理の形で、さらなる助けを与えることなく結果を証明できないことである。 本稿では,新しいdafnyプラグインの予備的な開発について述べる。llmを利用して,dafnyが発見・使用できない関連する補題の提案を生成することで,開発者を支援する。 さらに、自動で証明できない補題に対して、プラグインは付随する計算的証明を提供しようとしている。 また,LCMを用いた検証対応言語の普及に向けた研究課題を述べるとともに,開発者の生産性の向上と,正式な仕様作成やプログラム特性の証明に必要な専門知識のレベルを低下させることにより,今後の作業に向けたアイデアについても論じる。

This research idea paper proposes leveraging Large Language Models (LLMs) to enhance the productivity of Dafny developers. Although the use of verification-aware languages, such as Dafny, has increased considerably in the last decade, these are still not widely adopted. Often the cost of using such languages is too high, due to the level of expertise required from the developers and challenges that they often face when trying to prove a program correct. Even though Dafny automates a lot of the verification process, sometimes there are steps that are too complex for Dafny to perform on its own. One such case is that of missing lemmas, i.e. Dafny is unable to prove a result without being given further help in the form of a theorem that can assist it in the proof of the step. In this paper, we describe preliminary work on a new Dafny plugin that leverages LLMs to assist developers by generating suggestions for relevant lemmas that Dafny is unable to discover and use. Moreover, for the lemmas that cannot be proved automatically, the plugin also attempts to provide accompanying calculational proofs. We also discuss ideas for future work by describing a research agenda on using LLMs to increase the adoption of verification-aware languages in general, by increasing developers productivity and by reducing the level of expertise required for crafting formal specifications and proving program properties.
翻訳日:2024-01-03 15:12:39 公開日:2024-01-01
# 表データの自動モデル選択

Automated Model Selection for Tabular Data ( http://arxiv.org/abs/2401.00961v1 )

ライセンス: Link先を確認
Avinash Amballa, Anmol Mekala, Gayathri Akkinapalli, Manas Madine, Naga Pavana Priya Yarrabolu, Przemyslaw A. Grabowicz(参考訳) 表型データセットの形式で構造化されたデータには、個別および相対的な重要度が異なる、個別かつ離散的な特徴が含まれている。 1つ以上の機能の組み合わせは、単純な個々の機能コントリビューションよりも予測的かつ有意義なものです。 Rの混合効果線形モデルライブラリは、モデル設計においてそのようなインタラクティブな機能の組み合わせを提供することができる。 しかし、多くの特徴とそこから選択できる相互作用を考えると、モデル選択は指数関数的に難しいタスクとなる。 計算コストを小さく保ちながら特徴的相互作用を取り入れた表型データセットの予測のためのモデル選択プロセスを自動化することを目的としている。 このフレームワークには、優先順位ベースのランダムグリッド検索とグレディ検索という、2つの異なる機能選択アプローチが含まれている。 優先順位に基づくアプローチは、検索を導く事前確率を用いて、機能の組み合わせを効率的に探索する。 greedyメソッドは、その影響に基づいて機能を追加または削除することで、反復的にソリューションを構築します。 合成実験は、予測的特徴の組み合わせを効果的に捉える能力を示す。

Structured data in the form of tabular datasets contain features that are distinct and discrete, with varying individual and relative importances to the target. Combinations of one or more features may be more predictive and meaningful than simple individual feature contributions. R's mixed effect linear models library allows users to provide such interactive feature combinations in the model design. However, given many features and possible interactions to select from, model selection becomes an exponentially difficult task. We aim to automate the model selection process for predictions on tabular datasets incorporating feature interactions while keeping computational costs small. The framework includes two distinct approaches for feature selection: a Priority-based Random Grid Search and a Greedy Search method. The Priority-based approach efficiently explores feature combinations using prior probabilities to guide the search. The Greedy method builds the solution iteratively by adding or removing features based on their impact. Experiments on synthetic demonstrate the ability to effectively capture predictive feature combinations.
翻訳日:2024-01-03 15:12:15 公開日:2024-01-01
# 超伝導イオンメモリをフィードバックに挿入した人工ニューロンの量子制御

Quantum control in artificial neurons with superconductor-ionic memory inserted in the feedback ( http://arxiv.org/abs/2401.00958v1 )

ライセンス: Link先を確認
Osama M. Nayfeh, Haik Manukian, Matthew Kelly, Justin Mauger(参考訳) 人工知能と自律システムを改善し、神経の状態を治療するためには、生物学的に模倣する人工ニューロンハードウェアが必要である。 イオン酸化ハフニウムとニオブ金属の4.2nmを振動子の正負のフィードバックに挿入した量子トンネルメモリを用いた実験人工ニューロンについて検討した。 これらのニューロンは適応的なスパイク行動とハイブリッド非カオス/カオスモードを持つ。 ネットワーク化されると、強い並行性で出力する。 8.1ケルビンの超伝導状態はジョセフソントンネルにおいて、イオン状態が期待値と相関関数の量子マスター方程式による量子コヒーレント制御の影響を受けていることを示す。 4つの人工ニューロンの学習ネットワークと信号の変調を実験的に実証した。

To improve artificial intelligence/autonomous systems and help with treating neurological conditions, there's a requirement for artificial neuron hardware that mimics biological. We examine experimental artificial neurons with quantum tunneling memory using 4.2 nm of ionic Hafnium oxide and Niobium metal inserted in the positive and negative feedback of an oscillator. These neurons have adaptive spiking behavior and hybrid non-chaotic/chaotic modes. When networked, they output with strong itinerancy. The superconducting state at 8.1 Kelvin results in Josephson tunneling with signs that the ionic states are influenced by quantum coherent control in accordance with quantum master equation calculations of the expectation values and correlation functions with a calibrated time dependent Hamiltonian. We experimentally demonstrate a learning network of 4 artificial neurons, and the modulation of signals.
翻訳日:2024-01-03 15:12:02 公開日:2024-01-01
# 最適輸送におけるゼロおよび非負のMTWテンソルによるコストの家族

Families of costs with zero and nonnegative MTW tensor in optimal transport ( http://arxiv.org/abs/2401.00953v1 )

ライセンス: Link先を確認
Du Nguyen(参考訳) 我々は、$\mathsf{c}(x, y) = \mathsf{u}(x^{\mathfrak{t}}y)$, ここで$\mathsf{u}$は逆$\mathsf{s}$, $x^{\ft}y$は、$\mathbb{R}^n$の開部分集合に属する非退化双線型対である。 kim-mccann計量の下でヌルベクトル上でmtw-テンソルが消滅する条件は4階の非線形odeであり、これは定数係数 $p$ と $s$ を持つ $\mathsf{s}^{(2)} - s\mathsf{s}^{(1)} + p\mathsf{s} = 0$ の形の線型odeに還元できる。 結果として得られる逆函数には、 {\it Lambert} および {\it generalized inverse hyperbolic\slash trigonometric} 関数がある。 平方ユークリッド計量と$\log$-typeコストはこれらの解の例と同値である。 族に対する最適写像もまた明示的である。 双曲空間と単位球面の双曲型モデル上の同様の形式のコスト函数に対して、このテンソルはガウス・コダッツィ方程式を用いて$\mathsf{s}$ の微分の代数表現の観点から表現され、これらの多様体に対する厳密な正規コストの新しい族を得る。 我々は、$\sinh$型双曲コストを分析し、$\mathsf{c}$-convex関数と発散の例を提供する。

We compute explicitly the MTW tensor (or cross curvature) for the optimal transport problem on $\mathbb{R}^n$ with a cost function of form $\mathsf{c}(x, y) = \mathsf{u}(x^{\mathfrak{t}}y)$, where $\mathsf{u}$ is a scalar function with inverse $\mathsf{s}$, $x^{\ft}y$ is a nondegenerate bilinear pairing of vectors $x, y$ belonging to an open subset of $\mathbb{R}^n$. The condition that the MTW-tensor vanishes on null vectors under the Kim-McCann metric is a fourth-order nonlinear ODE, which could be reduced to a linear ODE of the form $\mathsf{s}^{(2)} - S\mathsf{s}^{(1)} + P\mathsf{s} = 0$ with constant coefficients $P$ and $S$. The resulting inverse functions include {\it Lambert} and {\it generalized inverse hyperbolic\slash trigonometric} functions. The square Euclidean metric and $\log$-type costs are equivalent to instances of these solutions. The optimal map for the family is also explicit. For cost functions of a similar form on a hyperboloid model of the hyperbolic space and unit sphere, we also express this tensor in terms of algebraic expressions in derivatives of $\mathsf{s}$ using the Gauss-Codazzi equation, obtaining new families of strictly regular costs for these manifolds, including new families of {\it power function costs}. We analyze the $\sinh$-type hyperbolic cost, providing examples of $\mathsf{c}$-convex functions and divergence.
翻訳日:2024-01-03 15:11:47 公開日:2024-01-01
# 境界注意:どんな解像度でも境界を見つけることを学ぶ

Boundary Attention: Learning to Find Faint Boundaries at Any Resolution ( http://arxiv.org/abs/2401.00935v1 )

ライセンス: Link先を確認
Mia Gaia Polansky, Charles Herrmann, Junhwa Hur, Deqing Sun, Dor Verbin, Todd Zickler(参考訳) 我々は境界注意と呼ばれる新しいメカニズムを用いて、輪郭、コーナー、ジャンクションを含む境界を明示的にモデル化する微分可能なモデルを提案する。 その結果,境界信号が非常に弱かったり,雑音が弱かったりしても,モデルが正確な結果を与えることがわかった。 ファイン境界を求める従来の手法と比較して、我々のモデルは微分可能であり、大きな画像に対してスケーラブルであり、画像の各部分における幾何的詳細の適切なレベルに自動的に適応するという利点がある。 エンドツーエンドのトレーニングによる境界を見つけるための従来のディープメソッドと比較して、サブピクセルの精度を提供し、ノイズに耐性があり、ネイティブ解像度とアスペクト比で任意の画像を処理できるという利点がある。

We present a differentiable model that explicitly models boundaries -- including contours, corners and junctions -- using a new mechanism that we call boundary attention. We show that our model provides accurate results even when the boundary signal is very weak or is swamped by noise. Compared to previous classical methods for finding faint boundaries, our model has the advantages of being differentiable; being scalable to larger images; and automatically adapting to an appropriate level of geometric detail in each part of an image. Compared to previous deep methods for finding boundaries via end-to-end training, it has the advantages of providing sub-pixel precision, being more resilient to noise, and being able to process any image at its native resolution and aspect ratio.
翻訳日:2024-01-03 15:11:09 公開日:2024-01-01
# GenH2R: スケーラブルシミュレーション,デモ,模倣による汎用型人間ロボットハンドオーバ学習

GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and Imitation ( http://arxiv.org/abs/2401.00929v1 )

ライセンス: Link先を確認
Zifan Wang, Junyu Chen, Ziqing Chen, Pengwei Xie, Rui Chen, Li Yi(参考訳) 本稿では,汎用視覚ベースロボットハンドオーバスキルを学習するためのフレームワークであるgenh2rを提案する。 目標は、ロボットにさまざまな複雑な軌道で人間が引き継いだ見えない形状の物体を確実に受信する能力を持たせることだ。 h2rハンドオーバを大規模に学習し,手続きシミュレーションアセットの作成,自動デモンストレーション生成,効果的な模倣学習などを含む包括的解法を用いて一般化する。 我々は,大規模3次元モデルリポジトリ,デクスタラスグリップ生成法,曲線に基づく3次元アニメーションを活用して,既存のシミュレータのシーン数を3桁超えたH2Rハンドオーバシミュレーション環境を創出する。 さらに,学習に適した100万個の高品質な実演を自動生成する蒸留フレンドリーな実演生成手法を提案する。 最後に、将来の予測目標によって強化された4次元模倣学習手法を提案し、実演をビジュオモータのハンドオーバポリシに蒸留する。 シミュレータと実世界の双方での実験的な評価は、すべての場合においてベースラインよりも大きな改善(少なくとも+10\%の成功率)を示す。 プロジェクトページはhttps://GenH2R.github.io/。

This paper presents GenH2R, a framework for learning generalizable vision-based human-to-robot (H2R) handover skills. The goal is to equip robots with the ability to reliably receive objects with unseen geometry handed over by humans in various complex trajectories. We acquire such generalizability by learning H2R handover at scale with a comprehensive solution including procedural simulation assets creation, automated demonstration generation, and effective imitation learning. We leverage large-scale 3D model repositories, dexterous grasp generation methods, and curve-based 3D animation to create an H2R handover simulation environment named \simabbns, surpassing the number of scenes in existing simulators by three orders of magnitude. We further introduce a distillation-friendly demonstration generation method that automatically generates a million high-quality demonstrations suitable for learning. Finally, we present a 4D imitation learning method augmented by a future forecasting objective to distill demonstrations into a visuo-motor handover policy. Experimental evaluations in both simulators and the real world demonstrate significant improvements (at least +10\% success rate) over baselines in all cases. The project page is https://GenH2R.github.io/.
翻訳日:2024-01-03 15:10:56 公開日:2024-01-01
# Deformable-DETR と Multi-Level Feature Fusion を用いた正確な白血球検出による血液疾患の診断支援

Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases ( http://arxiv.org/abs/2401.00926v1 )

ライセンス: Link先を確認
Yifei Chen, Chenyan Zhang, Ben Chen, Yiyu Huang, Yifei Sun, Changmiao Wang, Xianjun Fu, Yuxing Dai, Feiwei Qin, Yong Peng, Yu Gao(参考訳) 通常の病院血液検査では、医師は顕微鏡で患者の血液の顕微鏡画像から白血球を手動で分離する必要がある。 これらの単離白血球は、自動白血球分類器を介して分類され、血液サンプルに存在する異なる種類の白血球の割合と体積を判定し、疾患の診断を支援する。 この手法は時間と労力を消費するだけでなく、画像の品質や環境条件などの要因によるエラーの確率が高く、その後の分類や誤診断につながる可能性がある。 これらの課題に対処するために, マルチレベル機能融合と変形性自己注意型DETR (MFDS-DETR) を提案する。 白血球スケールの格差問題に対処するため,高レベルスクリーニング機能融合ピラミッド (hs-fpn) を設計し,マルチレベル融合を可能にした。 このモデルは、チャネルアテンションモジュールを介して低レベル特徴情報をフィルタリングし、スクリーニングされた情報を高レベル特徴とマージすることにより、モデルの特徴表現能力を向上する。 さらに,多スケールの変形可能な自己着脱モジュールをエンコーダに組み込んで,自己着脱および相互着脱可能な注意機構をデコーダに組み込むことで白血球特徴量不足の問題に対処し,白血球特徴マップの全体的特徴の抽出を支援する。 提案手法の有効性, 優位性, 一般化性は, プライベートWBCDD, パブリックLISC, BCCDデータセットを用いた他の最先端白血球検出モデルとの比較により確認した。 ソースコードとプライベートなWBCCDデータセットはhttps://github.com/JustlfC03/MFDS-DETRで公開されています。

In standard hospital blood tests, the traditional process requires doctors to manually isolate leukocytes from microscopic images of patients' blood using microscopes. These isolated leukocytes are then categorized via automatic leukocyte classifiers to determine the proportion and volume of different types of leukocytes present in the blood samples, aiding disease diagnosis. This methodology is not only time-consuming and labor-intensive, but it also has a high propensity for errors due to factors such as image quality and environmental conditions, which could potentially lead to incorrect subsequent classifications and misdiagnosis. To address these issues, this paper proposes an innovative method of leukocyte detection: the Multi-level Feature Fusion and Deformable Self-attention DETR (MFDS-DETR). To tackle the issue of leukocyte scale disparity, we designed the High-level Screening-feature Fusion Pyramid (HS-FPN), enabling multi-level fusion. This model uses high-level features as weights to filter low-level feature information via a channel attention module and then merges the screened information with the high-level features, thus enhancing the model's feature expression capability. Further, we address the issue of leukocyte feature scarcity by incorporating a multi-scale deformable self-attention module in the encoder and using the self-attention and cross-deformable attention mechanisms in the decoder, which aids in the extraction of the global features of the leukocyte feature maps. The effectiveness, superiority, and generalizability of the proposed MFDS-DETR method are confirmed through comparisons with other cutting-edge leukocyte detection models using the private WBCDD, public LISC and BCCD datasets. Our source code and private WBCCD dataset are available at https://github.com/JustlfC03/MFDS-DETR.
翻訳日:2024-01-03 15:10:35 公開日:2024-01-01
# Skeleton2vec:スケルトンシーケンスの文脈的ターゲット表現を用いた自己教師型学習フレームワーク

Skeleton2vec: A Self-supervised Learning Framework with Contextualized Target Representations for Skeleton Sequence ( http://arxiv.org/abs/2401.00921v1 )

ライセンス: Link先を確認
Ruizhuo Xu, Linzhi Huang, Mei Wang, Jiani Hu, Weihong Deng(参考訳) 自己教師付き事前訓練パラダイムは骨格に基づく行動認識の分野で広く研究されている。 特に,マスク予測に基づく手法は,事前学習の性能を新たな高さへと押し上げている。 しかし, これらの手法は, 仮面領域の予測対象として, 生の関節座標や時間運動などの低レベル特徴を取り入れている。 本稿では,高レベルの文脈化特徴を予測対象として用いることで,優れた性能が得られることを示す。 具体的には,unmasked training sampleを入力としてtransformerベースの教師エンコーダを使用して,潜在文脈化表現を予測対象として生成する,単純で効率的な3dアクション表現学習フレームワークstoart2vecを提案する。 セルフアテンション機構の利点により、教師エンコーダによって生成された潜在表現は、トレーニングサンプル全体のグローバルコンテキストを取り入れることができ、よりリッチなトレーニングタスクに繋がる。 さらに, 骨格列の時間的相関を高く考慮し, 骨格列を複数の管に分割し, 動作先行に基づいて各管内に永続的なマスキングを行う動き認識型チューブマスキング手法を提案する。 NTU-60, NTU-120, PKU-MMDデータセットの大規模な実験により, 提案したSkeleton2vecが従来の手法より優れ, 最先端の結果が得られた。

Self-supervised pre-training paradigms have been extensively explored in the field of skeleton-based action recognition. In particular, methods based on masked prediction have pushed the performance of pre-training to a new height. However, these methods take low-level features, such as raw joint coordinates or temporal motion, as prediction targets for the masked regions, which is suboptimal. In this paper, we show that using high-level contextualized features as prediction targets can achieve superior performance. Specifically, we propose Skeleton2vec, a simple and efficient self-supervised 3D action representation learning framework, which utilizes a transformer-based teacher encoder taking unmasked training samples as input to create latent contextualized representations as prediction targets. Benefiting from the self-attention mechanism, the latent representations generated by the teacher encoder can incorporate the global context of the entire training samples, leading to a richer training task. Additionally, considering the high temporal correlations in skeleton sequences, we propose a motion-aware tube masking strategy which divides the skeleton sequence into several tubes and performs persistent masking within each tube based on motion priors, thus forcing the model to build long-range spatio-temporal connections and focus on action-semantic richer regions. Extensive experiments on NTU-60, NTU-120, and PKU-MMD datasets demonstrate that our proposed Skeleton2vec outperforms previous methods and achieves state-of-the-art results.
翻訳日:2024-01-03 15:10:04 公開日:2024-01-01
# 深層強化学習を用いたカオスシステムにおけるデータ同化

Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning ( http://arxiv.org/abs/2401.00916v1 )

ライセンス: Link先を確認
Mohamad Abed El Rahman Hammoud and Naila Raboudi and Edriss S. Titi and Omar Knio and Ibrahim Hoteit(参考訳) data assimilation(da)は、気候予測や天気予報、自動運転車の軌道計画など、さまざまなアプリケーションにおいて重要な役割を果たす。 主な例として広く使われているアンサンブルカルマンフィルタ(EnKF)があり、これは予測状態のアンサンブルの分散を最小化するために線形更新に依存する。 近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。 しかし、これらのモデルの未学習シナリオへの適応性は依然として課題である。 本研究では,強化学習(rl)を活用した新しいda戦略を導入し,状態変数の完全あるいは部分的観測を用いて状態補正を行う。 本研究は、観測と対応する予測状態の間の根平均二乗誤差を最小化することを目的としたカオスロレンツ'63システムに対するこのアプローチの実証に焦点を当てている。 その結果、エージェントは、利用可能なシステム状態の観測に基づいてモデル予測を強化する補正戦略を開発する。 我々の戦略は確率的行動ポリシーを用いており、モンテカルロを基盤としたDAフレームワークはポリシーをランダムにサンプリングし、同化実現のアンサンブルを生成する。 その結果,このRLアルゴリズムはEnKFと比較して良好な性能を示した。 さらに、エージェントが非ガウスデータを同化し、EnKFの大幅な制限に対処する能力について説明する。

Data assimilation (DA) plays a pivotal role in diverse applications, ranging from climate predictions and weather forecasts to trajectory planning for autonomous vehicles. A prime example is the widely used ensemble Kalman filter (EnKF), which relies on linear updates to minimize variance among the ensemble of forecast states. Recent advancements have seen the emergence of deep learning approaches in this domain, primarily within a supervised learning framework. However, the adaptability of such models to untrained scenarios remains a challenge. In this study, we introduce a novel DA strategy that utilizes reinforcement learning (RL) to apply state corrections using full or partial observations of the state variables. Our investigation focuses on demonstrating this approach to the chaotic Lorenz '63 system, where the agent's objective is to minimize the root-mean-squared error between the observations and corresponding forecast states. Consequently, the agent develops a correction strategy, enhancing model forecasts based on available system state observations. Our strategy employs a stochastic action policy, enabling a Monte Carlo-based DA framework that relies on randomly sampling the policy to generate an ensemble of assimilated realizations. Results demonstrate that the developed RL algorithm performs favorably when compared to the EnKF. Additionally, we illustrate the agent's capability to assimilate non-Gaussian data, addressing a significant limitation of the EnKF.
翻訳日:2024-01-03 15:09:21 公開日:2024-01-01
# scatterformer: 線形に散在した効率的なvoxel変圧器

ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention ( http://arxiv.org/abs/2401.00912v1 )

ライセンス: Link先を確認
Chenhang He, Ruihuang Li, Guowen Zhang and Lei Zhang(参考訳) ウィンドウベースのトランスフォーマーは、よりローカライズされた方法で手頃な注意計算でコンテキスト認識表現をキャプチャすることで、大規模ポイントクラウド理解において強力な能力を示している。 しかし、点雲のばらばらな性質のため、ウィンドウ当たりのボクセル数は著しく変化する。 現在のメソッドでは、各ウィンドウ内のvoxelを同じサイズの複数のサブセットに分割しているため、voxelのソートとパディングにコストがかかるため、スパース畳み込みベースのメソッドよりも動作が遅い。 本稿では,我々の知る限りでは初めて,可変長のボクセル集合に対して直接注意を向けることのできるスキャッタフォーマを提案する。 scatterformerの鍵は、異なるウィンドウに散在するすべてのボクセルを並列に処理するために線形注意機構を利用する革新的なslaモジュールにある。 また,GPUと行列ブロッキングアルゴリズムの階層計算ユニットを併用することにより,提案したSLAモジュールの遅延を1ミリ秒未満に短縮する。 さらに,局所表現を同時に拡張し,ウィンドウ間の情報フローを可能とし,ウィンドウシフトを不要としたウィンドウ間相互作用モジュールを開発した。 提案するScatterFormerでは,大規模なWaymo Open Dataset上で73mAP(L2),NuScenesデータセット上で70.5NDSを,28FPSの優れた検出速度で実行している。 コードはhttps://github.com/skyhehe123/ScatterFormerで入手できる。

Window-based transformers have demonstrated strong ability in large-scale point cloud understanding by capturing context-aware representations with affordable attention computation in a more localized manner. However, because of the sparse nature of point clouds, the number of voxels per window varies significantly. Current methods partition the voxels in each window into multiple subsets of equal size, which cost expensive overhead in sorting and padding the voxels, making them run slower than sparse convolution based methods. In this paper, we present ScatterFormer, which, for the first time to our best knowledge, could directly perform attention on voxel sets with variable length. The key of ScatterFormer lies in the innovative Scatter Linear Attention (SLA) module, which leverages the linear attention mechanism to process in parallel all voxels scattered in different windows. Harnessing the hierarchical computation units of the GPU and matrix blocking algorithm, we reduce the latency of the proposed SLA module to less than 1 ms on moderate GPUs. Besides, we develop a cross-window interaction module to simultaneously enhance the local representation and allow the information flow across windows, eliminating the need for window shifting. Our proposed ScatterFormer demonstrates 73 mAP (L2) on the large-scale Waymo Open Dataset and 70.5 NDS on the NuScenes dataset, running at an outstanding detection rate of 28 FPS. Code is available at https://github.com/skyhehe123/ScatterFormer
翻訳日:2024-01-03 15:08:42 公開日:2024-01-01
# 不正検出モデルのための合成データトレーニングにおける下流タスク指向生成モデル選択

Downstream Task-Oriented Generative Model Selections on Synthetic Data Training for Fraud Detection Models ( http://arxiv.org/abs/2401.00974v1 )

ライセンス: Link先を確認
Yinan Cheng, Chi-Hua Wang, Vamsi K. Potluru, Tucker Balch, Guang Cheng(参考訳) 下流タスク指向生成モデル選択の策定手順は、実用上重要な未解決問題である。 既存の研究は、生成モデルの単一の族の有用性に焦点を当てている。 彼らは、機械学習モデルクラスとパフォーマンスメトリックの特定の組み合わせによって、合成データ実践者が合成トレーニングタスクのために最適な家族生成モデルを選択する方法に関する限られた洞察を提供した。 本稿では,不正検出モデルのトレーニングにおいて,下流のタスク指向生成モデル選択問題にアプローチし,モデル解釈可能性とモデル性能制約の異なる組み合わせによるベストプラクティスを検討する。 本研究は,ニューラルネットワーク(nn)ベースとベイズネットワーク(bn)ベースの生成モデルの両方が,ゆるいモデル解釈性制約下での合成訓練タスクの完了に適しているが,厳密なモデル解釈性制約下での総合訓練詐欺検出モデルの場合,bnベースの生成モデルはnnベースよりも優れていることを裏付ける。 本研究は,学習データセットを実データから合成データに置き換えることに関心のある機械学習実践者に実践的な指導を与え,より一般的な下流タスク指向生成モデル選択問題に光を当てる。

Devising procedures for downstream task-oriented generative model selections is an unresolved problem of practical importance. Existing studies focused on the utility of a single family of generative models. They provided limited insights on how synthetic data practitioners select the best family generative models for synthetic training tasks given a specific combination of machine learning model class and performance metric. In this paper, we approach the downstream task-oriented generative model selections problem in the case of training fraud detection models and investigate the best practice given different combinations of model interpretability and model performance constraints. Our investigation supports that, while both Neural Network(NN)-based and Bayesian Network(BN)-based generative models are both good to complete synthetic training task under loose model interpretability constrain, the BN-based generative models is better than NN-based when synthetic training fraud detection model under strict model interpretability constrain. Our results provides practical guidance for machine learning practitioner who is interested in replacing their training dataset from real to synthetic, and shed lights on more general downstream task-oriented generative model selection problems.
翻訳日:2024-01-03 14:57:05 公開日:2024-01-01
# FacebookがfNIRSデータのプライバシーを報告

Facebook Report on Privacy of fNIRS data ( http://arxiv.org/abs/2401.00973v1 )

ライセンス: Link先を確認
Md Imran Hossen, Sai Venkatesh Chilukoti, Liqun Shan, Vijay Srinivas Tida and Xiali Hei(参考訳) このプロジェクトの主な目標は、fNIRSデータのためのプライバシ保護機械学習モデルのトレーニング技術を開発することだ。 このプロジェクトは、差分プライバシー(dp)と認定堅牢性の両方を備えた集中型環境でローカルモデルを構築する。 また、ローカルのfnirsデータセットを共有することなく、複数のクライアント間で共有モデルをトレーニングするための協調学習も検討する。 このようなクライアントのプライベートデータセットの意図しないプライベート情報漏洩を防止するため,連邦学習環境にDPを実装する。

The primary goal of this project is to develop privacy-preserving machine learning model training techniques for fNIRS data. This project will build a local model in a centralized setting with both differential privacy (DP) and certified robustness. It will also explore collaborative federated learning to train a shared model between multiple clients without sharing local fNIRS datasets. To prevent unintentional private information leakage of such clients' private datasets, we will also implement DP in the federated learning setting.
翻訳日:2024-01-03 14:56:44 公開日:2024-01-01
# 非外傷性ICU患者における輸血の必要性予測のためのロバストメタモデル

Robust Meta-Model for Predicting the Need for Blood Transfusion in Non-traumatic ICU Patients ( http://arxiv.org/abs/2401.00972v1 )

ライセンス: Link先を確認
Alireza Rafiei, Ronald Moore, Tilendra Choudhary, Curtis Marshall, Geoffrey Smith, John D. Roback, Ravi M. Patel, Cassandra D. Josephson, Rishikesan Kamaleswaran(参考訳) 目的:ICU設定における貧血と凝固症管理に不可欠な輸血は,効果的な資源配分と患者リスク評価の正確な予測を必要とする。 しかし、既存の臨床診断支援システムは主に特定の患者層を対象にしており、単一のタイプの輸血に焦点を当てている。 本研究の目的は,非外傷性icu患者に対して,今後24時間にわたって輸血の必要性を予測できる高度な機械学習モデルを開発することである。 方法:2016年から2020年にかけて,米国大都市立病院に入院した72,072人の成人非外傷性ICU患者を対象に,振り返りコホート調査を行った。 メタリーナーと様々な機械学習モデルを開発し,予測者として活用し,年間4年間のデータを用いて学習し,5年連続で5年連続で評価した。 結果: 実験の結果, メタモデルは, 異なる開発シナリオにおいて, 他のモデルを上回ることがわかった。 性能指標としては、受信機動作特性(auroc)曲線下の0.09、精度0.93、最善のシナリオではf1-score 0.89などが挙げられる。 結論: 本研究は, 重症患者の多様なコホートにおける輸血ニーズを予測するための機械学習モデルの利用を開拓した。 本評価の結果から,本モデルは輸血要求を効果的に予測するだけでなく,輸血決定の鍵となるバイオマーカーを特定する。

Objective: Blood transfusions, crucial in managing anemia and coagulopathy in ICU settings, require accurate prediction for effective resource allocation and patient risk assessment. However, existing clinical decision support systems have primarily targeted a particular patient demographic with unique medical conditions and focused on a single type of blood transfusion. This study aims to develop an advanced machine learning-based model to predict the probability of transfusion necessity over the next 24 hours for a diverse range of non-traumatic ICU patients. Methods: We conducted a retrospective cohort study on 72,072 adult non-traumatic ICU patients admitted to a high-volume US metropolitan academic hospital between 2016 and 2020. We developed a meta-learner and various machine learning models to serve as predictors, training them annually with four-year data and evaluating on the fifth, unseen year, iteratively over five years. Results: The experimental results revealed that the meta-model surpasses the other models in different development scenarios. It achieved notable performance metrics, including an Area Under the Receiver Operating Characteristic (AUROC) curve of 0.97, an accuracy rate of 0.93, and an F1-score of 0.89 in the best scenario. Conclusion: This study pioneers the use of machine learning models for predicting blood transfusion needs in a diverse cohort of critically ill patients. The findings of this evaluation confirm that our model not only predicts transfusion requirements effectively but also identifies key biomarkers for making transfusion decisions.
翻訳日:2024-01-03 14:56:36 公開日:2024-01-01
# variabilitytrack:可変速物体移動を用いたマルチオブジェクトトラッキング

VariabilityTrack:Multi-Object Tracking with Variable Speed Object Movement ( http://arxiv.org/abs/2203.06424v3 )

ライセンス: Link先を確認
Run Luo, JinLin Wei, and Qiao Lin(参考訳) マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。 ほとんどの方法は追跡・検出・結合パラダイムとして大まかに分類できる。 Although the latter has elicited more attention and demonstrates comparable performance relative than the former, we claim that the tracking-by-detection paradigm is still the optimal solution in terms of tracking accuracy,such as ByteTrack,which achieves 80.3 MOTA, 77.3 IDF1 and 63.1 HOTA on the test set of MOT17 with 30 FPS running speed on a single V100 GPU.However, under complex perspectives such as vehicle and UAV acceleration, the performance of such a tracker using uniform Kalman filter will be greatly affected, resulting in tracking loss.In this paper, we propose a variable speed Kalman filter algorithm based on environmental feedback and improve the matching process, which can greatly improve the tracking effect in complex variable speed scenes while maintaining high tracking accuracy in relatively static scenes. 最終的には、ByteTrackよりも高いMOTAとIDF1がMOT17テストセットで達成される。

Multi-object tracking (MOT) aims at estimating bounding boxes and identities of objects in videos. Most methods can be roughly classified as tracking-by-detection and joint-detection-association paradigms. Although the latter has elicited more attention and demonstrates comparable performance relative than the former, we claim that the tracking-by-detection paradigm is still the optimal solution in terms of tracking accuracy,such as ByteTrack,which achieves 80.3 MOTA, 77.3 IDF1 and 63.1 HOTA on the test set of MOT17 with 30 FPS running speed on a single V100 GPU.However, under complex perspectives such as vehicle and UAV acceleration, the performance of such a tracker using uniform Kalman filter will be greatly affected, resulting in tracking loss.In this paper, we propose a variable speed Kalman filter algorithm based on environmental feedback and improve the matching process, which can greatly improve the tracking effect in complex variable speed scenes while maintaining high tracking accuracy in relatively static scenes. Eventually, higher MOTA and IDF1 results can be achieved on MOT17 test set than ByteTrack
翻訳日:2024-01-03 03:34:03 公開日:2024-01-01
# 垂直的フェデレーション学習のためのデータ評価:モデルフリーかつプライバシ保護手法

Data Valuation for Vertical Federated Learning: A Model-free and Privacy-preserving Method ( http://arxiv.org/abs/2112.08364v2 )

ライセンス: Link先を確認
Xiao Han and Leye Wang and Junjie Wu and Xiao Fang(参考訳) Vertical Federated Learning(VFL)は、予測分析のための有望なパラダイムであり、複数のデータサプライヤー(すなわちデータパーティ)と分散的かつプライバシ保護的な方法でコラボレーションすることで、予測モデルを強化する組織(タスクパーティ)に権限を与える。 VFLへの関心が急速に高まっているにもかかわらず、データパーティが所有するデータの価値を評価する効果的なセキュアなツールが欠如していることは、ビジネスコンテキストにおけるVFLの適用を妨げる。 そこで本研究では,vflに対して,データバリュエーション指標とフェデレーション計算法からなる,プライバシを保護し,タスク固有だがモデルフリーのデータバリュエーション手法であるfeedvalueを提案する。 具体的には,まず,新しいデータ評価指標mshapley-cmiを紹介する。 このメトリクスは、機械学習モデルを実行する必要なく、予測分析タスクに対するデータパーティの貢献を評価し、VFLの現実的な応用に適している。 次に,各データパーティのMShapley-CMI値をプライバシ保護方式で計算する,革新的なフェデレーション計算手法を提案する。 6つの公開データセットで実施された大規模な実験は、VFLのコンテキストにおけるデータバリュエーションに対するFedValueの有効性を検証する。 さらに,フェデリックな映画レコメンデーションを取り入れたケーススタディで,FedValueの実用性について述べる。

Vertical Federated learning (VFL) is a promising paradigm for predictive analytics, empowering an organization (i.e., task party) to enhance its predictive models through collaborations with multiple data suppliers (i.e., data parties) in a decentralized and privacy-preserving way. Despite the fast-growing interest in VFL, the lack of effective and secure tools for assessing the value of data owned by data parties hinders the application of VFL in business contexts. In response, we propose FedValue, a privacy-preserving, task-specific but model-free data valuation method for VFL, which consists of a data valuation metric and a federated computation method. Specifically, we first introduce a novel data valuation metric, namely MShapley-CMI. The metric evaluates a data party's contribution to a predictive analytics task without the need of executing a machine learning model, making it well-suited for real-world applications of VFL. Next, we develop an innovative federated computation method that calculates the MShapley-CMI value for each data party in a privacy-preserving manner. Extensive experiments conducted on six public datasets validate the efficacy of FedValue for data valuation in the context of VFL. In addition, we illustrate the practical utility of FedValue with a case study involving federated movie recommendations.
翻訳日:2024-01-03 03:32:44 公開日:2024-01-01
# ビザンチンは歴史から学ぶこともできる:フェデレート学習における中心的クリッピングの崩壊

Byzantines can also Learn from History: Fall of Centered Clipping in Federated Learning ( http://arxiv.org/abs/2208.09894v3 )

ライセンス: Link先を確認
Kerem Ozfatura and Emre Ozfatura and Alptekin Kupcu and Deniz Gunduz(参考訳) 幅広い協調学習タスクの成功により、フェデレーション学習(fl)フレームワークの人気が高まり、特定のセキュリティ上の懸念も引き起こされる。 多くの脆弱性のうち、ビザンチン攻撃のリスクは特に懸念されており、これは学習プロセスに参加している悪意のあるクライアントの可能性を指す。 したがって、flの重要な目的はビザンチン攻撃の潜在的な影響を無力化し、最終的なモデルが信頼できることを保証することである。 クライアントのモデル/アップデート間のばらつきが高くなればなるほど、ビザンツ攻撃が隠される余地が大きくなることが観察されている。 その結果、運動量を利用して分散を減少させることで、既知のビザンチン攻撃の強さを弱めることができる。 中心的なクリッピング(CC)フレームワークは、前回の反復から得られるモーメント項が、ばらつきを減らすことに加えて、ビザンティン攻撃をより中和するための基準点として使用できることを示した。 本研究では,まずccフレームワークの脆弱性を明らかにするとともに,ccやその他のロバストアグリゲータの防御を回避し,画像分類タスクにおける最善のシナリオにおいて,テスト精度を最大%33まで低減する,新たな攻撃戦略を提案する。 そこで我々は,提案されている他のビザンツ攻撃に対して有効な,より堅牢で高速な防御機構を提案する。

The increasing popularity of the federated learning (FL) framework due to its success in a wide range of collaborative learning tasks also induces certain security concerns. Among many vulnerabilities, the risk of Byzantine attacks is of particular concern, which refers to the possibility of malicious clients participating in the learning process. Hence, a crucial objective in FL is to neutralize the potential impact of Byzantine attacks and to ensure that the final model is trustable. It has been observed that the higher the variance among the clients' models/updates, the more space there is for Byzantine attacks to be hidden. As a consequence, by utilizing momentum, and thus, reducing the variance, it is possible to weaken the strength of known Byzantine attacks. The centered clipping (CC) framework has further shown that the momentum term from the previous iteration, besides reducing the variance, can be used as a reference point to neutralize Byzantine attacks better. In this work, we first expose vulnerabilities of the CC framework, and introduce a novel attack strategy that can circumvent the defences of CC and other robust aggregators and reduce their test accuracy up to %33 on best-case scenarios in image classification tasks. Then, we propose a new robust and fast defence mechanism that is effective against the proposed and other existing Byzantine attacks.
翻訳日:2024-01-03 03:22:33 公開日:2024-01-01
# BSpell: CNN対応のBERTベースのバングラスペルチェッカー

BSpell: A CNN-Blended BERT Based Bangla Spell Checker ( http://arxiv.org/abs/2208.09709v2 )

ライセンス: Link先を確認
Chowdhury Rafeed Rahman, MD. Hasibur Rahman, Samiha Zakir, Mohammad Rafsan, Mohammed Eunus Ali(参考訳) バングラのタイピングは主に英語のキーボードで行われており、複合文字や同様に発音される文字が存在するため、非常に誤りがある。 スペルミスされた単語のスペル訂正には、単語の型付けパターンの理解と、単語の使用状況が必要である。 本稿では,BSpell という名称の特殊BERTモデルを提案する。 BSpellには、セマンティックネットと呼ばれるエンドツーエンドのトレーニング可能なCNNサブモデルと、特別な補助的損失が含まれている。 これにより、BSpellはスペルエラーの存在下で高度に屈折したバングラ語彙を専門化することができる。 さらに,単語レベルと文字レベルのマスキングを組み合わせたハイブリッド事前学習方式が提案されている。 2つのバングラと1つのヒンディー語スペル補正データセットの比較は,提案手法の優位性を示している。 BSpellはGitHub経由でBanglaスペルチェックツールとして利用できる。

Bangla typing is mostly performed using English keyboard and can be highly erroneous due to the presence of compound and similarly pronounced letters. Spelling correction of a misspelled word requires understanding of word typing pattern as well as the context of the word usage. A specialized BERT model named BSpell has been proposed in this paper targeted towards word for word correction in sentence level. BSpell contains an end-to-end trainable CNN sub-model named SemanticNet along with specialized auxiliary loss. This allows BSpell to specialize in highly inflected Bangla vocabulary in the presence of spelling errors. Furthermore, a hybrid pretraining scheme has been proposed for BSpell that combines word level and character level masking. Comparison on two Bangla and one Hindi spelling correction dataset shows the superiority of our proposed approach. BSpell is available as a Bangla spell checking tool via GitHub: https://github.com/Hasiburshanto/Bangla-Spell-Checker
翻訳日:2024-01-03 03:22:09 公開日:2024-01-01
# 多値決定変数の分布推定アルゴリズム

Estimation-of-Distribution Algorithms for Multi-Valued Decision Variables ( http://arxiv.org/abs/2302.14420v2 )

ライセンス: Link先を確認
Firas Ben Jedidia, Benjamin Doerr, Martin S. Krejca(参考訳) 分布推定アルゴリズム (EDAs) の研究の大半は擬ブール最適化と置換問題に集中しており、決定変数が2つ以上の値を取ることができる問題に対してEDAの領域は残るが、ほとんど探索されていない置換問題ではない。 このドメインをよりアクセスしやすいものにするために、既知の単変量EDAをこの設定に拡張する自然な方法を提案する。 初歩的な二分法と異なり、我々のアプローチは追加の制約を避ける。 遺伝的ドリフトの理解は最適なパラメータ選択に不可欠であるため、遺伝的ドリフトの既知の定量分析を多値変数のEDAに拡張する。 大まかに言えば、変数が異なる値 r$ を取るとき、遺伝的ドリフトが重要になる時間は二項の場合よりも r$ 倍短い。 そのため、確率モデルの更新強度は、現在$r$よりも低く選択する必要がある。 本フレームワークでは,モデル更新がどの程度望ましいかを検討するために,$r$-valued \leadingones問題に関する数学的ランタイム解析を行う。 適切なパラメータにより、マルチ値 umda はこの問題を $o(r\ln(r)^2 n^2 \ln(n))$ で効率的に解くことが証明される。 この境界は、我々の下界 $\Omega(r\ln(r) n^2 \ln(n))$ が表すように、ほぼ密である。 全体として、我々の研究はバイナリEDAの理解が自然に多値設定にまで拡張していることを示し、マルチ値EDAの主パラメータの設定方法についてアドバイスを与えます。

The majority of research on estimation-of-distribution algorithms (EDAs) concentrates on pseudo-Boolean optimization and permutation problems, leaving the domain of EDAs for problems in which the decision variables can take more than two values, but which are not permutation problems, mostly unexplored. To render this domain more accessible, we propose a natural way to extend the known univariate EDAs to this setting. Different from a naive reduction to the binary case, our approach avoids additional constraints. Since understanding genetic drift is crucial for an optimal parameter choice, we extend the known quantitative analysis of genetic drift to EDAs for multi-valued variables. Roughly speaking, when the variables take $r$ different values, the time for genetic drift to become significant is $r$ times shorter than in the binary case. Consequently, the update strength of the probabilistic model has to be chosen $r$ times lower now. To investigate how desired model updates take place in this framework, we undertake a mathematical runtime analysis on the $r$-valued \leadingones problem. We prove that with the right parameters, the multi-valued UMDA solves this problem efficiently in $O(r\ln(r)^2 n^2 \ln(n))$ function evaluations. This bound is nearly tight as our lower bound $\Omega(r\ln(r) n^2 \ln(n))$ shows. Overall, our work shows that our good understanding of binary EDAs naturally extends to the multi-valued setting, and it gives advice on how to set the main parameters of multi-values EDAs.
翻訳日:2024-01-03 02:58:01 公開日:2024-01-01
# 合成データ生成のための機械学習: レビュー

Machine Learning for Synthetic Data Generation: A Review ( http://arxiv.org/abs/2302.04062v6 )

ライセンス: Link先を確認
Yingzhou Lu, Minjie Shen, Huazheng Wang, Xiao Wang, Capucine van Rechem, Wenqi Wei(参考訳) 機械学習はデータに大きく依存するが、現実のアプリケーションは様々なデータ関連の問題に直面することが多い。 これには、品質の低いデータ、マシンラーニングモデルの適合性の低いデータポイント、プライバシや安全性、規制に関する懸念によるデータアクセスの困難などが含まれる。 これらの課題に照らして、合成データ生成の概念は、現実世界のデータが容易にならない方法でデータ共有と利用を可能にする、有望な代替手段として浮上する。 本稿では,合成データ生成のために機械学習モデルを用いた既存研究の総合的な体系的レビューを行う。 このレビューは、合成データ生成、コンピュータビジョン、スピーチ、自然言語処理、ヘルスケア、ビジネスドメインの応用から始まり、様々な視点を包含している。 さらに、ニューラルネットワークアーキテクチャと深層生成モデルを重視した、さまざまな機械学習手法を探求する。 また、合成データ生成に関するプライバシーと公平性に関する重要な側面についても論じる。 さらに,本研究では,この新興分野における課題と機会を明らかにし,今後の研究の道筋を明かす。 本稿では,合成データ生成の複雑さを解明し,知識の進歩に寄与し,合成データ生成のさらなる探求を促すことを目的とする。

Machine learning heavily relies on data, but real-world applications often encounter various data-related issues. These include data of poor quality, insufficient data points leading to under-fitting of machine learning models, and difficulties in data access due to concerns surrounding privacy, safety, and regulations. In light of these challenges, the concept of synthetic data generation emerges as a promising alternative that allows for data sharing and utilization in ways that real-world data cannot facilitate. This paper presents a comprehensive systematic review of existing studies that employ machine learning models for the purpose of generating synthetic data. The review encompasses various perspectives, starting with the applications of synthetic data generation, spanning computer vision, speech, natural language processing, healthcare, and business domains. Additionally, it explores different machine learning methods, with particular emphasis on neural network architectures and deep generative models. The paper also addresses the crucial aspects of privacy and fairness concerns related to synthetic data generation. Furthermore, this study identifies the challenges and opportunities prevalent in this emerging field, shedding light on the potential avenues for future research. By delving into the intricacies of synthetic data generation, this paper aims to contribute to the advancement of knowledge and inspire further exploration in synthetic data generation.
翻訳日:2024-01-03 02:56:28 公開日:2024-01-01
# 因果関係の方法・課題・展望に関する調査

A Survey of Methods, Challenges and Perspectives in Causality ( http://arxiv.org/abs/2302.00293v3 )

ライセンス: Link先を確認
Ga\"el Gendron, Michael Witbrock and Gillian Dobbie(参考訳) ディープラーニングモデルは、高次元データから相関パターンを抽出することで、様々なタスクで成功したが、初期分布を一般化する際にはまだ苦労している。 因果エンジンはデータ分布から独立したメカニズムを学習することを目的としており、Deep LearningとCausalityの組み合わせは2つの分野に大きな影響を与える可能性がある。 本稿では,この仮定をさらに動機づける。 我々は、異なる視点から因果関係の理論と手法を徹底的に概観し、深層学習と2つの領域が直面する課題を強調する。 フィールドをまとめようという初期の試みと、将来の展望を示します。 私たちはCausalityのテクニックに対して、さまざまなアプリケーションを提供することで終了します。

Deep Learning models have shown success in a large variety of tasks by extracting correlation patterns from high-dimensional data but still struggle when generalizing out of their initial distribution. As causal engines aim to learn mechanisms independent from a data distribution, combining Deep Learning with Causality can have a great impact on the two fields. In this paper, we further motivate this assumption. We perform an extensive overview of the theories and methods for Causality from different perspectives, with an emphasis on Deep Learning and the challenges met by the two domains. We show early attempts to bring the fields together and the possible perspectives for the future. We finish by providing a large variety of applications for techniques from Causality.
翻訳日:2024-01-03 02:56:09 公開日:2024-01-01
# 低照度画像とビデオの強化: 総合的な調査とその先

Low-Light Image and Video Enhancement: A Comprehensive Survey and Beyond ( http://arxiv.org/abs/2212.10772v5 )

ライセンス: Link先を確認
Shen Zheng, Yiling Ma, Jinqian Pan, Changjie Lu, Gaurav Gupta(参考訳) 本稿では,低照度画像と映像エンハンスメントの包括的調査を行い,この分野の主な課題について述べる。 第1の課題は、既存の方法で適切に対処されていない混合オーバー/アンダー露画像の出現率である。 これに応えて、この研究はSICEデータセットの2つの拡張版、SICE_GradとSICE_Mixを紹介した。 第2の課題は、トレーニングとテストに適した低照度ビデオデータセットの不足である。 これに対処するため、本論文では、高速に動く空中シーンや街並みに様々な照度や劣化を伴う挑戦を特徴とする、大規模で高解像度のビデオコレクションであるnight wenzhou datasetを紹介している。 本研究は,鍵となる手法を幅広く分析し,提案したベンチマークデータセットと現在のベンチマークデータセットを用いて比較実験を行う。 調査は、新興アプリケーションに注目し、未解決の課題を議論し、llieコミュニティ内の今後の研究方向性を提案することで締めくくられた。 データセットはhttps://github.com/shenzheng2000/llie_surveyで利用可能である。

This paper presents a comprehensive survey of low-light image and video enhancement, addressing two primary challenges in the field. The first challenge is the prevalence of mixed over-/under-exposed images, which are not adequately addressed by existing methods. In response, this work introduces two enhanced variants of the SICE dataset: SICE_Grad and SICE_Mix, designed to better represent these complexities. The second challenge is the scarcity of suitable low-light video datasets for training and testing. To address this, the paper introduces the Night Wenzhou dataset, a large-scale, high-resolution video collection that features challenging fast-moving aerial scenes and streetscapes with varied illuminations and degradation. This study also conducts an extensive analysis of key techniques and performs comparative experiments using the proposed and current benchmark datasets. The survey concludes by highlighting emerging applications, discussing unresolved challenges, and suggesting future research directions within the LLIE community. The datasets are available at https://github.com/ShenZheng2000/LLIE_Survey.
翻訳日:2024-01-03 02:55:06 公開日:2024-01-01
# udtiri: オープンソースのインテリジェント道路検査ベンチマークスイート

UDTIRI: An Online Open-Source Intelligent Road Inspection Benchmark Suite ( http://arxiv.org/abs/2304.08842v3 )

ライセンス: Link先を確認
Sicen Guo, Jiahang Li, Yi Feng, Dacheng Zhou, Denghuang Zhang, Chen Chen, Shuai Su, Xingyi Zhu, Qijun Chen, Rui Fan(参考訳) 都市デジタル双生児(UDT)の初期領域では、最先端のディープラーニング技術を活用する可能性は大きく、魅力的である。 特に知的道路検査(iri)の専門分野には、現在の専門的な研究努力と大規模に注釈が付されたデータセットの欠如によって明らかなギャップが存在する。 この急成長分野の進歩を促進するため、UDTIRIと呼ばれるオンラインのオープンソースベンチマークスイートをローンチしました。 本稿では,このベンチマークスイート内で公開された最初のオンラインコンペティションである道路穴検出タスクを紹介する。 このタスクは、1,000のRGB画像と、異なる照明と気象条件下で様々な現実世界のシナリオでキャプチャされるピクセル/インスタンスレベルの地平線アノテーションを含む、よくアノテーションされたデータセットを提供する。 本ベンチマークは,畳み込みニューラルネットワークとトランスフォーマーの両方に基づいて開発した,最先端のオブジェクト検出,意味セグメンテーション,インスタンスセグメンテーションネットワークの体系的かつ徹底的な評価を提供する。 IRIに先進的なUDT技術を統合する触媒として,我々のベンチマークが期待できる。 多様な道路条件をより包括的に理解するアルゴリズムを提供することで、私たちはその未解決の可能性を解き放ち、この重要な領域におけるイノベーションを育もうとしています。

In the nascent domain of urban digital twins (UDT), the prospects for leveraging cutting-edge deep learning techniques are vast and compelling. Particularly within the specialized area of intelligent road inspection (IRI), a noticeable gap exists, underscored by the current dearth of dedicated research efforts and the lack of large-scale well-annotated datasets. To foster advancements in this burgeoning field, we have launched an online open-source benchmark suite, referred to as UDTIRI. Along with this article, we introduce the road pothole detection task, the first online competition published within this benchmark suite. This task provides a well-annotated dataset, comprising 1,000 RGB images and their pixel/instance-level ground-truth annotations, captured in diverse real-world scenarios under different illumination and weather conditions. Our benchmark provides a systematic and thorough evaluation of state-of-the-art object detection, semantic segmentation, and instance segmentation networks, developed based on either convolutional neural networks or Transformers. We anticipate that our benchmark will serve as a catalyst for the integration of advanced UDT techniques into IRI. By providing algorithms with a more comprehensive understanding of diverse road conditions, we seek to unlock their untapped potential and foster innovation in this critical domain.
翻訳日:2024-01-03 02:45:31 公開日:2024-01-01
# 回帰移動のための決定焦点モデルに基づく強化学習

Decision-Focused Model-based Reinforcement Learning for Reward Transfer ( http://arxiv.org/abs/2304.03365v2 )

ライセンス: Link先を確認
Abhishek Sharma, Sonali Parbhoo, Omer Gottesman, Finale Doshi-Velez(参考訳) 決定型モデルに基づく強化学習は、近年、高いリターンを得るのに最も関係のあるMDPダイナミクスの学習に集中できる強力なアルゴリズムとして導入されている。 このアプローチは報酬を直接最適化することでエージェントのパフォーマンスを向上させるが、最大度の観点からより正確なダイナミクスを学習することで実現している。 本研究では,複数の目的に対する選好によって報奨関数が定義される場合,dfモデルが対象選好の変化に敏感になる可能性があることを実証する。本研究では,dfソリューションの非識別性を活用したロバスト決定焦点(rdf)アルゴリズムを開発し,複数の目的に対する選好の変化に伝達するモデルを同時に学習する。 本研究では,2つの合成ドメインと2つの医療シミュレータにおけるRDFの有効性を実証し,DFモデル学習の堅牢性をトレーニング時間リターンを損なうことなく,報酬関数の変化に大きく改善することを示した。

Decision-focused (DF) model-based reinforcement learning has recently been introduced as a powerful algorithm that can focus on learning the MDP dynamics that are most relevant for obtaining high returns. While this approach increases the agent's performance by directly optimizing the reward, it does so by learning less accurate dynamics from a maximum likelihood perspective. We demonstrate that when the reward function is defined by preferences over multiple objectives, the DF model may be sensitive to changes in the objective preferences.In this work, we develop the robust decision-focused (RDF) algorithm, which leverages the non-identifiability of DF solutions to learn models that maximize expected returns while simultaneously learning models that transfer to changes in the preference over multiple objectives. We demonstrate the effectiveness of RDF on two synthetic domains and two healthcare simulators, showing that it significantly improves the robustness of DF model learning to changes in the reward function without compromising training-time return.
翻訳日:2024-01-03 02:44:08 公開日:2024-01-01
# 学生執筆におけるAI生成テキストの探索 - AIはどのように役立つのか?

Exploring AI-Generated Text in Student Writing: How Does AI Help? ( http://arxiv.org/abs/2304.02478v2 )

ライセンス: Link先を確認
David James Woo (1), Hengky Susanto (2), Chi Ho Yeung (2), Kai Guo (3), and (4) April Ka Yeng Fung ((1) Precious Blood Secondary School, Hong Kong, (2) Department of Science and Environmental Studies, The Education University of Hong Kong, Hong Kong, (3) Faculty of Education, The University of Hong Kong, Hong Kong, and (4) Hoi Ping Chamber of Commerce Secondary School, Hong Kong)(参考訳) 外国語_EFL_studentsによる人工知能_AI_natural言語生成_NLG_toolsからのテキストの使用は、文字の品質を向上させる可能性がある。 しかし、これらの学生の執筆におけるAI生成テキストが高品質な執筆につながるかどうかは不明である。 香港の高校生23名を対象に,自語とAI生成テキストからなる物語の執筆を試みた。 人間の専門家は、コンテンツ、言語、組織の大きさでストーリーを決めました。 ストーリーのai生成テキストの基本構造と構造,構文複雑性を分析し,線形回帰とクラスタ分析を行った。 その結果、人間の単語の数とAI生成語数は、スコアに大きく寄与することがわかった。 さらに、学生は、AIが生成するテキストまたはAIが生成するテキストを仲間よりも少ないテキストを使用する、有能で能力の低いライターにグループ化することができる。 クラスタの比較により,高評価の学生と低評価の学生の文章の質を向上させる上で,AI生成テキストの利点が示された。 この発見は、EFL学生の執筆にAI生成テキストを使用し、デジタル分割に対処するための教育戦略を通知することができる。 本研究は,NLGツールの設計や,学校におけるAI生成テキストの実装活動に貢献する。

English as foreign language_EFL_students' use of text generated from artificial intelligence_AI_natural language generation_NLG_tools may improve their writing quality. However, it remains unclear to what extent AI-generated text in these students' writing might lead to higher-quality writing. We explored 23 Hong Kong secondary school students' attempts to write stories comprising their own words and AI-generated text. Human experts scored the stories for dimensions of content, language and organization. We analyzed the basic organization and structure and syntactic complexity of the stories' AI-generated text and performed multiple linear regression and cluster analyses. The results show the number of human words and the number of AI-generated words contribute significantly to scores. Besides, students can be grouped into competent and less competent writers who use more AI-generated text or less AI-generated text compared to their peers. Comparisons of clusters reveal some benefit of AI-generated text in improving the quality of both high-scoring students' and low-scoring students' writing. The findings can inform pedagogical strategies to use AI-generated text for EFL students' writing and to address digital divides. This study contributes designs of NLG tools and writing activities to implement AI-generated text in schools.
翻訳日:2024-01-03 02:43:48 公開日:2024-01-01
# NegVSR: リアルタイムビデオ超解法における一般化ノイズモデリングのための負の増大

NegVSR: Augmenting Negatives for Generalized Noise Modeling in Real-World Video Super-Resolution ( http://arxiv.org/abs/2305.14669v3 )

ライセンス: Link先を確認
Yexing Song, Meilin Wang, Zhijing Yang, Xiaoyu Xian, Yukai Shi(参考訳) 理想的なデータセットから高解像度(HR)ビデオを合成するビデオ超解像(VSR)の能力は、多くの研究で実証されている。 しかし、未知の複雑な劣化を伴う実世界のビデオにVSRモデルを適用することは難しい課題である。 まず、ほとんどのvsrメソッドにおける既存の劣化指標は、実世界のノイズやぼけを効果的にシミュレートできない。 それとは対照的に、古典的劣化の単純な組み合わせは実世界のノイズモデリングに使われ、VSRモデルはしばしば分配外ノイズによって破られる。 第二に、多くのSRモデルはノイズシミュレーションと転送に焦点を当てている。 しかし、サンプルノイズは単調で制限されている。 上記の問題に対処するために,ビデオ超解法(NegVSR)タスクにおける一般化雑音モデリングのための負の強化戦略を提案する。 具体的には,実世界のデータを対象とした逐次ノイズ生成手法を提案する。 そして、負の加減により、デジェネレーションドメインが広範囲に拡張され、様々な実世界のノイズ集合を構築する。 我々はさらに,arded negative guidance lossを提案し,arded negatives間のロバストな特徴を効果的に学習する。 実世界のデータセット(例えば VideoLQ や FLIR)に対する大規模な実験により、我々の手法は、特に視覚的品質において、最先端の手法よりも優れていることが示された。 プロジェクトページはhttps://negvsr.github.io/。

The capability of video super-resolution (VSR) to synthesize high-resolution (HR) video from ideal datasets has been demonstrated in many works. However, applying the VSR model to real-world video with unknown and complex degradation remains a challenging task. First, existing degradation metrics in most VSR methods are not able to effectively simulate real-world noise and blur. On the contrary, simple combinations of classical degradation are used for real-world noise modeling, which led to the VSR model often being violated by out-of-distribution noise. Second, many SR models focus on noise simulation and transfer. Nevertheless, the sampled noise is monotonous and limited. To address the aforementioned problems, we propose a Negatives augmentation strategy for generalized noise modeling in Video Super-Resolution (NegVSR) task. Specifically, we first propose sequential noise generation toward real-world data to extract practical noise sequences. Then, the degeneration domain is widely expanded by negative augmentation to build up various yet challenging real-world noise sets. We further propose the augmented negative guidance loss to learn robust features among augmented negatives effectively. Extensive experiments on real-world datasets (e.g., VideoLQ and FLIR) show that our method outperforms state-of-the-art methods with clear margins, especially in visual quality. Project page is available at: https://negvsr.github.io/.
翻訳日:2024-01-03 02:32:43 公開日:2024-01-01
# 因果効果推定のための伝達学習

Transfer Learning for Causal Effect Estimation ( http://arxiv.org/abs/2305.09126v3 )

ライセンス: Link先を確認
Song Wei, Hanyu Zhang, Ronald Moore, Rishikesan Kamaleswaran, Yao Xie(参考訳) 本稿では,ターゲット領域とソース領域が同一の共変量・特徴空間を共有する場合の伝達因果学習(tcl)フレームワークを提案する。 限られたデータは医学的応用において非常に一般的であり、敗血症などいくつかの稀な医学的状況が注目される。 提案手法は, ニュアンスモデルに対する正規化TLを$\ell_1$-TCLと命名し, ニュアンスパラメータのTL推定器を下流平均因果・処理効果推定器(逆確率重み付き推定器など)に差し込む。 GLMと最近のニューラルネットワークニュアンスモデルに対する広範な数値シミュレーションにより、高次元の空間的仮定の下で一般化線形モデル (GLM) を用いた \texttt{$\ell_1$-TCL} の非漸近回復保証を確立し、 \texttt{$\ell_1$-TCL} の実証的な利点を実証する。 この方法はその後実データに拡張され、すべてのベースラインメソッドが失敗する場合の医学文献と整合した有意義な洞察を生成する。

We present a Transfer Causal Learning (TCL) framework when target and source domains share the same covariate/feature spaces, aiming to improve causal effect estimation accuracy in limited data. Limited data is very common in medical applications, where some rare medical conditions, such as sepsis, are of interest. Our proposed method, named \texttt{$\ell_1$-TCL}, incorporates $\ell_1$ regularized TL for nuisance models (e.g., propensity score model); the TL estimator of the nuisance parameters is plugged into downstream average causal/treatment effect estimators (e.g., inverse probability weighted estimator). We establish non-asymptotic recovery guarantees for the \texttt{$\ell_1$-TCL} with generalized linear model (GLM) under the sparsity assumption in the high-dimensional setting, and demonstrate the empirical benefits of \texttt{$\ell_1$-TCL} through extensive numerical simulation for GLM and recent neural network nuisance models. Our method is subsequently extended to real data and generates meaningful insights consistent with medical literature, a case where all baseline methods fail.
翻訳日:2024-01-03 02:31:06 公開日:2024-01-01
# InRank: インクリメンタルな低ランク学習

InRank: Incremental Low-Rank Learning ( http://arxiv.org/abs/2306.11250v2 )

ライセンス: Link先を確認
Jiawei Zhao, Yifei Zhang, Beidi Chen, Florian Sch\"afer, Anima Anandkumar(参考訳) グレディ低ランク学習(GLRL)の理論は、ディープラーニングの印象的な一般化能力を説明することを目的としている。 確率的勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクソリューションへと暗黙的に規則化する。 しかし、GLRLは重みの無限小初期化を必要とするため、理論と実践の間にはギャップがある。 本研究では,累積重み更新に着目して無限小初期化の仮定を除去する。 累積重み更新は3層線形ネットワークにおける重みの任意の直交初期化のためのインクリメンタル低ランク軌跡に続く。 経験的に、我々の理論は幅広いニューラルネットワーク(例えば、トランスフォーマー)と標準トレーニングアルゴリズム(例えば、SGD、Adam)で成り立っていることを実証する。 しかし、既存のトレーニングアルゴリズムは、ネットワークが低ランクでパラメータ化されていないため、計算効率を改善するために低ランク特性を利用しない。 これを改善するために、我々は、トレーニング中のランクを漸進的に増加させながら、低ランク行列として累積重量更新を明示的に表現する新しいトレーニングアルゴリズムInRank(Incrmental Low-Rank Learning)を設計する。 InRank を GPT-2 上で評価した結果,InRank は全学級の33% を要し,全学級に匹敵する予測性能を達成できることが示唆された。 また,WikiText-103 上で GPT-medium をスクラッチからトレーニングする場合,トレーニング時間を 37% 削減し,モデルサイズを 36% 削減する,効率的な InRank 版を提案する。

The theory of greedy low-rank learning (GLRL) aims to explain the impressive generalization capabilities of deep learning. It proves that stochastic gradient-based training implicitly regularizes neural networks towards low-rank solutions through a gradual increase of the rank during training. However, there is a gap between theory and practice since GLRL requires an infinitesimal initialization of the weights, which is not practical due to the fact that it is a saddle point. In this work, we remove the assumption of infinitesimal initialization by focusing on cumulative weight updates. We prove the cumulative weight updates follow an incremental low-rank trajectory for arbitrary orthogonal initialization of weights in a three-layer linear network. Empirically, we demonstrate that our theory holds on a broad range of neural networks (e.g., transformers) and standard training algorithms (e.g., SGD, Adam). However, existing training algorithms do not exploit the low-rank property to improve computational efficiency as the networks are not parameterized in low-rank. To remedy this, we design a new training algorithm Incremental Low-Rank Learning (InRank), which explicitly expresses cumulative weight updates as low-rank matrices while incrementally augmenting their ranks during training. We evaluate InRank on GPT-2, and our results indicate that InRank achieves comparable prediction performance as the full-rank counterpart while requiring at most 33% of the total ranks throughout training. We also propose an efficient version of InRank that achieves a reduction of 37% in total training time and 36% in model size when training GPT-medium on WikiText-103 from scratch.
翻訳日:2024-01-03 02:24:16 公開日:2024-01-01
# Bose-Hubbardモデルにおける演算子成長とクリロフ複雑性

Operator growth and Krylov Complexity in Bose-Hubbard Model ( http://arxiv.org/abs/2306.05542v2 )

ライセンス: Link先を確認
Arpan Bhattacharyya, Debodirna Ghosh, Poulami Nandi(参考訳) 1次元ボソニック系のクリロフ複雑性(ボース=ハバードモデル)について検討した。 ボース・ハバード・ハミルトン群は格子上の相互作用するボソンから構成され、超低温原子を記述する。 超流動-モット絶縁体相転移を示すだけでなく、相互作用パラメータの値に応じてカオス的および可積分的(混合)なダイナミクスを示す。 本稿では,混合度の高い3地点のBose Hubbardモデル(粒子数が異なる)に焦点を当てる。 我々はLanczosアルゴリズムを用いてLanczos係数とKrylov基底を求める。 正則クリロフ基底は、与えられたハミルトニアンを持つ系の作用素成長を捉える。 しかし,lanczosアルゴリズムは,計算誤差の積み上げによる不安定性のため,修正が必要となる。 次に、krylovの複雑さとその初期および後期の振る舞いを計算する。 この結果は,システムのカオス的かつ可積分的な性質を捉えている。 本稿では,自動相関法によらずに,離散的四進ボソニックハミルトニアンに対して,ランツォスアルゴリズムを非摂動的に非摂動的に使用するための第一歩を踏み出した。

We study Krylov complexity of a one-dimensional Bosonic system, the celebrated Bose-Hubbard Model. The Bose-Hubbard Hamiltonian consists of interacting bosons on a lattice, describing ultra-cold atoms. Apart from showing superfluid-Mott insulator phase transition, the model also exhibits both chaotic and integrable (mixed) dynamics depending on the value of the interaction parameter. We focus on the three-site Bose Hubbard Model (with different particle numbers), which is known to be highly mixed. We use the Lanczos algorithm to find the Lanczos coefficients and the Krylov basis. The orthonormal Krylov basis captures the operator growth for a system with a given Hamiltonian. However, the Lanczos algorithm needs to be modified for our case due to the instabilities instilled by the piling up of computational errors. Next, we compute the Krylov complexity and its early and late-time behaviour. Our results capture the chaotic and integrable nature of the system. Our paper takes the first step to use the Lanczos algorithm non-perturbatively for a discrete quartic bosonic Hamiltonian without depending on the auto-correlation method.
翻訳日:2024-01-03 02:20:49 公開日:2024-01-01
# 深層強化学習による複数噴流による回転シリンダ上の流れのアクティブ制御

Active Control of Flow over Rotating Cylinder by Multiple Jets using Deep Reinforcement Learning ( http://arxiv.org/abs/2307.12083v3 )

ライセンス: Link先を確認
Kamyar Dobakhti, Jafar Ghazanfarian(参考訳) 人工知能の真のパワーは強化学習に現れ、その動的性質から計算と物理的により洗練されたものである。 回転と注入は、鈍体での抗力低減のためのアクティブフロー制御で証明されたいくつかの方法である。 本稿では,複数の制御ジェットを用いて最大抗力抑制を行う深部強化学習(DRL)アルゴリズムとともに,シリンダに回転を付加する。 DRL符号の特徴として,パラメータの制御,制限,回転を考慮したDRLネットワークの最適化について述べる。 本研究は, ジェットの数と位置, センサ位置, 最大許容流量を, 各アクティベーションの最大流量と各エピソードの総流量の形式で最適化することに焦点を当てる。 回転とDRLの組み合わせは渦の沈みを抑え、カルマン渦路を安定化させ、抵抗係数を最大49.75%減少させるので有望であることがわかった。 また、より多くの場所にセンサを配置することは必ずしも良い選択ではなく、ユーザのニーズと対応する構成に基づいてセンサ番号と位置を決定する必要があることも示します。 また、シリンダーが回転する場合を除き、エージェントがより高い流量にアクセスできるようにすることで性能が低下する。 いずれの場合も、エージェントはリフト係数を0に近い値に維持したり、より小さい数値で安定化することができる。

The real power of artificial intelligence appears in reinforcement learning, which is computationally and physically more sophisticated due to its dynamic nature. Rotation and injection are some of the proven ways in active flow control for drag reduction on blunt bodies. In this paper, rotation will be added to the cylinder alongside the deep reinforcement learning (DRL) algorithm, which uses multiple controlled jets to reach the maximum possible drag suppression. Characteristics of the DRL code, including controlling parameters, their limitations, and optimization of the DRL network for use with rotation will be presented. This work will focus on optimizing the number and positions of the jets, the sensors location, and the maximum allowed flow rate to jets in the form of the maximum allowed flow rate of each actuation and the total number of them per episode. It is found that combining the rotation and DRL is promising since it suppresses the vortex shedding, stabilizes the Karman vortex street, and reduces the drag coefficient by up to 49.75%. Also, it will be shown that having more sensors at more locations is not always a good choice and the sensor number and location should be determined based on the need of the user and corresponding configuration. Also, allowing the agent to have access to higher flow rates, mostly reduces the performance, except when the cylinder rotates. In all cases, the agent can keep the lift coefficient at a value near zero, or stabilize it at a smaller number.
翻訳日:2024-01-03 02:12:02 公開日:2024-01-01
# テクスチャ特徴の事前設定に基づく軽量テクスチャ転送

Lightweight texture transfer based on texture feature preset ( http://arxiv.org/abs/2306.16846v3 )

ライセンス: Link先を確認
ShiQi Jiang(参考訳) テクスチャ転送のタスクでは、参照テクスチャ画像は、非常に反復的なテクスチャ特徴を示し、同じスタイルで異なるコンテンツ画像からのテクスチャ転送結果も、非常に類似したテクスチャパターンを示す。 このような高度に類似したテクスチャ特徴をエンコーディングするには、しばしば深い層と多くのチャネルを必要とするため、モデル全体のパラメータ数と計算負荷、推論時間の主な原因でもある。 本稿では,テクスチャ特徴プリセット(tfp)に基づく軽量なテクスチャ転送を提案する。 TFPは、所定のスタイルに対して予め設定された普遍的なテクスチャ特徴写像を提供することにより、テクスチャ特徴の反復性を最大限に活用する。 これらのプリセットフィーチャマップは、任意のコンテンツの浅いカラー転送フィーチャマップと直接融合して、テクスチャ転送結果を生成することができ、冗長なテクスチャ情報が繰り返しエンコードされるのを避けることができる。 予め設定したテクスチャ特徴写像は、一貫した分布(標準正規分布)を持つノイズ入力画像を通して符号化される。 この一貫した入力分布は、テクスチャ伝達分化の問題を完全に回避することができ、異なるノイズ入力をランダムにサンプリングすることで、同じ参照スタイルで異なるテクスチャ特徴とテクスチャ伝達結果を得ることができる。 最新技術と比較して、TFPは視覚的に優れた結果をもたらすだけでなく、モデルサイズを3.2~3538倍に減らし、プロセスを1.8~5.6倍高速化する。

In the task of texture transfer, reference texture images typically exhibit highly repetitive texture features, and the texture transfer results from different content images under the same style also share remarkably similar texture patterns. Encoding such highly similar texture features often requires deep layers and a large number of channels, making it is also the main source of the entire model's parameter count and computational load, and inference time. We propose a lightweight texture transfer based on texture feature preset (TFP). TFP takes full advantage of the high repetitiveness of texture features by providing preset universal texture feature maps for a given style. These preset feature maps can be fused and decoded directly with shallow color transfer feature maps of any content to generate texture transfer results, thereby avoiding redundant texture information from being encoded repeatedly. The texture feature map we preset is encoded through noise input images with consistent distribution (standard normal distribution). This consistent input distribution can completely avoid the problem of texture transfer differentiation, and by randomly sampling different noise inputs, we can obtain different texture features and texture transfer results under the same reference style. Compared to state-of-the-art techniques, our TFP not only produces visually superior results but also reduces the model size by 3.2-3538 times and speeds up the process by 1.8-5.6 times.
翻訳日:2024-01-03 02:09:17 公開日:2024-01-01
# 基礎モデルが連合学習を満たすとき - モチベーション,課題,今後の方向性

When Foundation Model Meets Federated Learning: Motivations, Challenges, and Future Directions ( http://arxiv.org/abs/2306.15546v2 )

ライセンス: Link先を確認
Weiming Zhuang, Chen Chen, Lingjuan Lyu(参考訳) ファンデーションモデル(FM)とフェデレーテッドラーニング(FL)の交差点は、相互利益を提供し、AI研究における新たな可能性を開くユニークな機会を提供し、AIと現実世界のアプリケーションにおける重要な課題に対処する。 FLは、FMデータの可用性を拡張し、計算共有、トレーニングプロセスの分散、FL参加者の負担軽減を可能にする。 共同FM開発を促進し、プロセスを民主化し、傾倒と革新を促進する。 一方、FMは、その巨大なサイズ、事前訓練された知識、および例外的な性能を持つため、FLの堅牢な出発点として機能し、非IDデータの下での高速な収束とより良い性能を実現する。 さらに、FMを利用して合成データを生成し、データの多様性を高め、過度な適合を減らし、プライバシを保存する。 flとfmの相互作用を考察し,それらの相乗的関係の理解を深め,モチベーション,課題,今後の方向性を強調する。 FLとFMが個別に直面する課題とその相互接続の探索を通じて、我々は、両方の分野をさらに強化し、進歩を促進し、プライバシー保護とスケーラブルなAIシステムの開発を促進する将来の研究方向を刺激することを目指している。

The intersection of the Foundation Model (FM) and Federated Learning (FL) provides mutual benefits, presents a unique opportunity to unlock new possibilities in AI research, and address critical challenges in AI and real-world applications. FL expands the availability of data for FMs and enables computation sharing, distributing the training process and reducing the burden on FL participants. It promotes collaborative FM development, democratizing the process and fostering inclusivity and innovation. On the other hand, FM, with its enormous size, pre-trained knowledge, and exceptional performance, serves as a robust starting point for FL, facilitating faster convergence and better performance under non-iid data. Additionally, leveraging FM to generate synthetic data enriches data diversity, reduces overfitting, and preserves privacy. By examining the interplay between FL and FM, this paper aims to deepen the understanding of their synergistic relationship, highlighting the motivations, challenges, and future directions. Through an exploration of the challenges faced by FL and FM individually and their interconnections, we aim to inspire future research directions that can further enhance both fields, driving advancements and propelling the development of privacy-preserving and scalable AI systems.
翻訳日:2024-01-03 02:08:19 公開日:2024-01-01
# 予測後の推論の再考

Revisiting inference after prediction ( http://arxiv.org/abs/2306.13746v2 )

ライセンス: Link先を確認
Keshav Motwani and Daniela Witten(参考訳) 最近の研究は、予測に基づく推論という非常に一般的な実践に焦点を当てている。 (i)事前学習した機械学習モデルを用いて、観測されていない応答変数を予測し、次に、 二 予測応答と一部の共変量との関連性に関する推論を行うこと。 wang et al. (2020) で指摘されているように、標準推論アプローチを適用する (ii)は、観測されていない(予測された)応答と共変量との関係を正確に定量化していない。 Wang et al. (2020) と Angelopoulos et al. (2023) は最近の研究でステップの修正を提案している。 (ii) 観測されていない応答と共変量との相関に関する有効な推論を可能にすること。 本稿では,angelopoulosら (2023) が提案する手法がタイプ1の誤り率の制御に成功し,不観測応答の予測に使用される事前学習された機械学習モデルの品質に関わらず,信頼区間と正しい公称カバレッジを提供することを示す。 しかし、wang et al. (2020) によって提唱された手法は、実際にほとんど持たない非常に強い条件下でのみ有効な推論を提供する:例えば、機械学習モデルが興味のある研究人口の真の回帰関数を完全に推定するならば。

Recent work has focused on the very common practice of prediction-based inference: that is, (i) using a pre-trained machine learning model to predict an unobserved response variable, and then (ii) conducting inference on the association between that predicted response and some covariates. As pointed out by Wang et al. (2020), applying a standard inferential approach in (ii) does not accurately quantify the association between the unobserved (as opposed to the predicted) response and the covariates. In recent work, Wang et al. (2020) and Angelopoulos et al. (2023) propose corrections to step (ii) in order to enable valid inference on the association between the unobserved response and the covariates. Here, we show that the method proposed by Angelopoulos et al. (2023) successfully controls the type 1 error rate and provides confidence intervals with correct nominal coverage, regardless of the quality of the pre-trained machine learning model used to predict the unobserved response. However, the method proposed by Wang et al. (2020) provides valid inference only under very strong conditions that rarely hold in practice: for instance, if the machine learning model perfectly estimates the true regression function in the study population of interest.
翻訳日:2024-01-03 02:07:05 公開日:2024-01-01
# ディープニューラルネットワークアーキテクチャの非同期進化

Asynchronous Evolution of Deep Neural Network Architectures ( http://arxiv.org/abs/2308.04102v3 )

ライセンス: Link先を確認
Jason Liang, Hormoz Shahrzad, Risto Miikkulainen(参考訳) 多くの進化的アルゴリズム(EA)は、候補の並列評価を利用する。 しかし、評価時間が著しく異なる場合、多くのワーカノード(例えば、\計算クライアント)は、その時間の大部分をアイドル状態にし、次の世代が作られるのを待ちます。 ディープニューラルネットワークのアーキテクチャとハイパーパラメータを最適化するeasのクラスである evolutionary neural architecture search (enas) は、この問題に特に脆弱である。 本稿では,ENASと協調して動作する汎用非同期評価戦略(AES)を提案する。 aesは最大$k$のキューを保持して、評価のために労働者に送信し、$m<<k$の個人が評価されるとすぐに次の世代に進むことでスループットを向上させる。 M$の適切な値は、多様性と効率のバランスをとって実験的に決定される。 AESの汎用性とパワーを示すために、8行のソートネットワーク設計(評価時間に制限のある単一ポピュレーション最適化タスク)で最初に評価され、2倍以上のスピードアップを実現した。 次に、14倍のスピードアップが観測された11ビットマルチプレクサ設計(拡張変数を持つ単一集団探索タスク)で評価した。 その後、イメージキャプション(マルチポピュレーションのオープンエンド最適化タスク)のためにENASにスケールアップされ、2倍以上のスピードアップを実現した。 すべての問題において、aesはenasのような長く可変な評価時間を持つ複雑なシステムの進化を並列化する有望な方法であることが示唆された。

Many evolutionary algorithms (EAs) take advantage of parallel evaluation of candidates. However, if evaluation times vary significantly, many worker nodes (i.e.,\ compute clients) are idle much of the time, waiting for the next generation to be created. Evolutionary neural architecture search (ENAS), a class of EAs that optimizes the architecture and hyperparameters of deep neural networks, is particularly vulnerable to this issue. This paper proposes a generic asynchronous evaluation strategy (AES) that is then adapted to work with ENAS. AES increases throughput by maintaining a queue of up to $K$ individuals ready to be sent to the workers for evaluation and proceeding to the next generation as soon as $M<<K$ individuals have been evaluated. A suitable value for $M$ is determined experimentally, balancing diversity and efficiency. To showcase the generality and power of AES, it was first evaluated in eight-line sorting network design (a single-population optimization task with limited evaluation-time variability), achieving an over two-fold speedup. Next, it was evaluated in 11-bit multiplexer design (a single-population discovery task with extended variability), where a 14-fold speedup was observed. It was then scaled up to ENAS for image captioning (a multi-population open-ended-optimization task), resulting in an over two-fold speedup. In all problems, a multifold performance improvement was observed, suggesting that AES is a promising method for parallelizing the evolution of complex systems with long and variable evaluation times, such as those in ENAS.
翻訳日:2024-01-03 01:56:45 公開日:2024-01-01
# Q-Bench: 低レベルのビジョンに基づく汎用基盤モデルのベンチマーク

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision ( http://arxiv.org/abs/2309.14181v3 )

ライセンス: Link先を確認
Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Chunyi Li, Wenxiu Sun, Qiong Yan, Guangtao Zhai, Weisi Lin(参考訳) MLLM(Multi-modality Large Language Models)の急速な進化は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを引き起こした。 それでも、低レベルの視覚知覚と理解においてMLLMの能力を評価するにはまだ不十分である。 このギャップに対処するために、我々は3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視覚品質評価)でMLLMの潜在能力を体系的に評価する総合的なベンチマークであるQ-Benchを紹介する。 a) 低レベルの知覚能力を評価するために,2,990個の多様なソース画像からなるLLVisionQAデータセットを構築し,その低レベルの属性に着目した人間に質問する。 次に,これらの質問に対するMLLMの正当性を測定した。 b) MLLMの低レベル情報に基づく記述能力を検討するため, 499 画像上の長大な専門家による黄金の低レベルテキスト記述からなるLLDescribeデータセットと, MLLMの出力と黄金の記述との GPT による比較パイプラインを提案する。 c) この2つの課題に加えて, 人間の意見スコアに合わせる視覚的品質評価能力も測定した。 具体的には、MLLMが定量品質スコアを予測できるソフトマックスベースの戦略を設計し、既存の画像品質評価(IQA)データセットで評価する。 評価の結果,MLLMは低レベルの視覚能力を有することが明らかとなった。 しかし、これらのスキルはまだ不安定で比較的不正確であり、これらの能力に対するMLLMの具体的な強化の必要性を示している。 私たちのベンチマークは、MLLMの未解決の可能性を発見し、強化するために、研究コミュニティをより深く掘り下げることを奨励するものです。 プロジェクトページ: https://q-future.github.io/q-bench。

The rapid evolution of Multi-modality Large Language Models (MLLMs) has catalyzed a shift in computer vision from specialized models to general-purpose foundation models. Nevertheless, there is still an inadequacy in assessing the abilities of MLLMs on low-level visual perception and understanding. To address this gap, we present Q-Bench, a holistic benchmark crafted to systematically evaluate potential abilities of MLLMs on three realms: low-level visual perception, low-level visual description, and overall visual quality assessment. a) To evaluate the low-level perception ability, we construct the LLVisionQA dataset, consisting of 2,990 diverse-sourced images, each equipped with a human-asked question focusing on its low-level attributes. We then measure the correctness of MLLMs on answering these questions. b) To examine the description ability of MLLMs on low-level information, we propose the LLDescribe dataset consisting of long expert-labelled golden low-level text descriptions on 499 images, and a GPT-involved comparison pipeline between outputs of MLLMs and the golden descriptions. c) Besides these two tasks, we further measure their visual quality assessment ability to align with human opinion scores. Specifically, we design a softmax-based strategy that enables MLLMs to predict quantifiable quality scores, and evaluate them on various existing image quality assessment (IQA) datasets. Our evaluation across the three abilities confirms that MLLMs possess preliminary low-level visual skills. However, these skills are still unstable and relatively imprecise, indicating the need for specific enhancements on MLLMs towards these abilities. We hope that our benchmark can encourage the research community to delve deeper to discover and enhance these untapped potentials of MLLMs. Project Page: https://q-future.github.io/Q-Bench.
翻訳日:2024-01-03 01:47:26 公開日:2024-01-01
# ULDP-FL:サイロユーザレベル差分プライバシーに関するフェデレーション学習

ULDP-FL: Federated Learning with Across Silo User-Level Differential Privacy ( http://arxiv.org/abs/2308.12210v2 )

ライセンス: Link先を確認
Fumiyuki Kato, Li Xiong, Shun Takagi, Yang Cao, Masatoshi Yoshikawa(参考訳) Differentially Private Federated Learning (DP-FL)は、正式なプライバシを保証するための協調機械学習アプローチとして注目を集めている。 ほとんどのDP-FLアプローチは、各サイロ内のレコードレベルにおいて、クロスサイロFLに対してDPを保証する。 しかし、単一のユーザのデータは複数のサイロにまたがって拡張される可能性があり、そのような設定に対するユーザレベルのDP保証は依然として不明である。 本研究では,単一ユーザのデータが複数のサイロに属する可能性のあるクロスサイロFLにおいて,ユーザレベルのDPを保証するための新しいFLフレームワークUldp-FLを提案する。 提案アルゴリズムは,グループプライバシアプローチから外れた,ユーザ単位のクリッピングによるユーザレベルDPを直接保証する。 アルゴリズムのプライバシーと実用性に関する理論的分析を行う。 さらに,ユーザレコード分布に基づく重み付け戦略を改良し,サイロとサーバに付加的な情報が明らかにされないような新しいプライベートプロトコルを設計することで,提案アルゴリズムの有用性を向上する。 実世界のデータセットを用いた実験では,ユーザレベルのDPの下でのプライバシ・ユーティリティ・トレードオフにおいて,ベースライン方式に比べて大幅に改善されている。 我々の知る限り、私たちの研究は、一般のクロスサイロFL設定において、ユーザレベルのDPを効果的に提供する最初のFLフレームワークです。

Differentially Private Federated Learning (DP-FL) has garnered attention as a collaborative machine learning approach that ensures formal privacy. Most DP-FL approaches ensure DP at the record-level within each silo for cross-silo FL. However, a single user's data may extend across multiple silos, and the desired user-level DP guarantee for such a setting remains unknown. In this study, we present Uldp-FL, a novel FL framework designed to guarantee user-level DP in cross-silo FL where a single user's data may belong to multiple silos. Our proposed algorithm directly ensures user-level DP through per-user weighted clipping, departing from group-privacy approaches. We provide a theoretical analysis of the algorithm's privacy and utility. Additionally, we enhance the utility of the proposed algorithm with an enhanced weighting strategy based on user record distribution and design a novel private protocol that ensures no additional information is revealed to the silos and the server. Experiments on real-world datasets show substantial improvements in our methods in privacy-utility trade-offs under user-level DP compared to baseline methods. To the best of our knowledge, our work is the first FL framework that effectively provides user-level DP in the general cross-silo FL setting.
翻訳日:2024-01-03 01:43:08 公開日:2024-01-01
# Semantic Code Graph -- ソフトウェアの理解を促進する情報モデル

Semantic Code Graph -- an information model to facilitate software comprehension ( http://arxiv.org/abs/2310.02128v2 )

ライセンス: Link先を確認
Krzysztof Borowski, Bartosz Bali\'s, Tomasz Orzechowski(参考訳) コードベースが増え続けているため、ソフトウェア理解は極めて時間がかかります。 その結果、メンテナンスを容易にし、関連するコストを削減するために、コード理解プロセスを加速する必要性が高まっている。 このプロセスの重要な側面は、コード依存関係の構造の高品質を理解し保存することである。 さまざまなコード構造モデルがすでに存在しているが、ソースコードを密接に表現し、ソフトウェア理解に焦点を当てたモデルが驚くほど欠如している。 結果として、依存性の理解、リファクタリング、コードの品質監視を支援するツールが簡単には利用できない。 このギャップに対処するため,ソースコードと密接な関係を持つコード依存関係の詳細な抽象表現を提供する情報モデルであるSemantic Code Graph (SCG)を提案する。 ソフトウェア理解におけるSCGモデルの有用性を検証するため、他の9つのソースコード表現モデルと比較した。 さらに,java と scala で開発されている11の著名なオープンソースプロジェクトを選択し,提案する scg,コールグラフ (cg),クラスコラボレーションネットワーク (ccn) という3つの異なるコード表現モデルを用いて,さまざまなソフトウェア理解活動を行う。 次に、ソフトウェア理解能力の観点から結果を分析し、これらのモデルの性能を比較する。 これらのアクティビティは、プロジェクト構造理解、重要なプロジェクトエンティティの識別、コードの依存関係のインタラクティブな可視化、ソフトウェアマイニングによるコード類似性の発見を含む。 その結果, SCG は CCN や CG モデルと比較して, ソフトウェア理解能力の向上を図っている。 説明した作業は、コードの依存性の理解と管理を効率化する次世代のツールへの一歩だと思います。

Software comprehension can be extremely time-consuming due to the ever-growing size of codebases. Consequently, there is an increasing need to accelerate the code comprehension process to facilitate maintenance and reduce associated costs. A crucial aspect of this process is understanding and preserving the high quality of the code dependency structure. While a variety of code structure models already exist, there is a surprising lack of models that closely represent the source code and focus on software comprehension. As a result, there are no readily available and easy-to-use tools to assist with dependency comprehension, refactoring, and quality monitoring of code. To address this gap, we propose the Semantic Code Graph (SCG), an information model that offers a detailed abstract representation of code dependencies with a close relationship to the source code. To validate the SCG model's usefulness in software comprehension, we compare it to nine other source code representation models. Additionally, we select 11 well-known and widely-used open-source projects developed in Java and Scala and perform a range of software comprehension activities on them using three different code representation models: the proposed SCG, the Call Graph (CG), and the Class Collaboration Network (CCN). We then qualitatively analyze the results to compare the performance of these models in terms of software comprehension capabilities. These activities encompass project structure comprehension, identifying critical project entities, interactive visualization of code dependencies, and uncovering code similarities through software mining. Our findings demonstrate that the SCG enhances software comprehension capabilities compared to the prevailing CCN and CG models. We believe that the work described is a step towards the next generation of tools that streamline code dependency comprehension and management.
翻訳日:2024-01-03 01:34:22 公開日:2024-01-01
# ParisLuco3D:LiDAR知覚の領域一般化のための高品質なターゲットデータセット

ParisLuco3D: A high-quality target dataset for domain generalization of LiDAR perception ( http://arxiv.org/abs/2310.16542v2 )

ライセンス: Link先を確認
Jules Sanchez, Louis Soum-Fontez, Jean-Emmanuel Deschaud, Francois Goulette(参考訳) LiDARは、シーンに関する正確な幾何学的情報を収集することによって、自動運転に不可欠なセンサーである。 様々なLiDAR認識タスクの性能が向上するにつれて、これらの最適化されたモデルを実環境下でテストするために、新しい環境やセンサーへの一般化が出現している。 残念ながら、データプロバイダのさまざまなアノテーション戦略は、クロスドメインパフォーマンスの計算を複雑にします。 本稿では,様々なソースデータセットを用いた性能評価を容易にするために,クロスドメイン評価に特化した新しいデータセットであるparisluco3dを提案する。 データセットに加えて、LiDARセマンティックセグメンテーション、LiDARオブジェクト検出、LiDARトラッキングのためのオンラインベンチマークも提供され、メソッド間の公正な比較が保証される。 ParisLuco3Dデータセット、評価スクリプト、ベンチマークへのリンクは以下のウェブサイトで見ることができる。

LiDAR is an essential sensor for autonomous driving by collecting precise geometric information regarding a scene. As the performance of various LiDAR perception tasks has improved, generalizations to new environments and sensors has emerged to test these optimized models in real-world conditions. Unfortunately, the various annotation strategies of data providers complicate the computation of cross-domain performances. This paper provides a novel dataset, ParisLuco3D, specifically designed for cross-domain evaluation to make it easier to evaluate the performance utilizing various source datasets. Alongside the dataset, online benchmarks for LiDAR semantic segmentation, LiDAR object detection, and LiDAR tracking are provided to ensure a fair comparison across methods. The ParisLuco3D dataset, evaluation scripts, and links to benchmarks can be found at the following website: https://npm3d.fr/parisluco3d
翻訳日:2024-01-03 01:25:33 公開日:2024-01-01
# チェーンワイド刺激ラマンショートカット-アディバティックパスによる超低温深層分子の高効率創製と検出

Highly Efficient Creation and Detection of Ultracold Deeply-Bound Molecules via Chainwise Stimulated Raman Shortcut-to-Adiabatic Passage ( http://arxiv.org/abs/2310.11071v4 )

ライセンス: Link先を確認
Jiahui Zhang, Li Deng, Yueping Niu, Shangqing Gong(参考訳) M型分子系における連鎖的に刺激されたラマン断熱通路(C-STIRAP)は、状態間のフランク・コンドン因子の弱さにより典型的なSTIRAPが機能しない場合、超低温のディープバウンド分子を生成する良い方法である。 しかし、スムーズな進化の過程における生成効率は概して低い。 この過程の間、中間状態の個体群は急速に崩壊し、強いレーザーパルスは多光子過程を誘導する。 本稿では,C-STIRAPの性能向上に,ショートカット・トゥ・アディバティック(STA)パスが適していることを示す。 現在、連鎖的に刺激されたラマン短絡-断熱通路(C-STIRSAP)に関する関連する議論は稀である。 ここでは、このトピックを断熱的除去の下で検討する。 4つの入射パルスの関係を考えると、m型系が最も単純な共振結合を持つ効果的な {\lambda} 型構造に一般化できることは非常に興味深い。 したがって、三状態系に対するstaの可能な全ての方法が借用できる。 分子システム上での処理を実証するために, 反断熱駆動法と "chosen path" 法を例に挙げた。 本手法は, 励起状態が強い場合, 実3状態系ではうまく動作しないが, 両方式のC-STIRSAPプロトコルは, M型系では高効率で極低温の深い分子を生成できる。 強度レーザーパルスを使わずに進化時間を短縮し、STAのロバスト性は良好に保存される。 最後に,超低温深層分子の検出について論じる。

Chainwise stimulated Raman adiabatic passage (C-STIRAP) in M-type molecular system is a good alternative in creating ultracold deeply-bound molecules when the typical STIRAP in {\Lambda}-type system does not work due to weak Frank-Condon factors between states. However, its creation efficiency under the smooth evolution is generally low. During the process, the population in the intermediate states may decay out quickly and the strong laser pulses may induce multi-photon processes. In this paper, we find that shortcut-to-adiabatic (STA) passage fits very well in improving the performance of the C-STIRAP. Currently, related discussions on the so-called chainwise stimulated Raman shortcut-to-adiabatic passage (C-STIRSAP) are rare. Here, we investigate this topic under the adiabatic elimination. Given a relation among the four incident pulses, it is quite interesting that the M-type system can be generalized into an effective {\Lambda}-type structure with the simplest resonant coupling. Consequently, all possible methods of STA for three-state system can be borrowed. We take the counter-diabatic driving and "chosen path" method as instances to demonstrate our treatment on the molecular system. Although the "chosen path" method does not work well in real three-state system if there is strong decay in the excited state, our C-STIRSAP protocol under both the two methods can create ultracold deeply-bound molecules with high efficiency in the M-type system. The evolution time is shortened without strong laser pulses and the robustness of STA is well preserved. Finally, the detection of ultracold deeply-bound molecules is discussed.
翻訳日:2024-01-03 01:23:21 公開日:2024-01-01
# チェーンワイド刺激ラマンショートカット-アディバティックパスによる超低温深層分子の高効率創製と検出

Highly Efficient Creation and Detection of Ultracold Deeply-Bound Molecules via Chainwise Stimulated Raman Shortcut-to-Adiabatic Passage ( http://arxiv.org/abs/2310.11071v3 )

ライセンス: Link先を確認
Jiahui Zhang, Li Deng, Yueping Niu, Shangqing Gong(参考訳) M型分子系における連鎖的に刺激されたラマン断熱通路(C-STIRAP)は、状態間のフランク・コンドン因子の弱さにより典型的なSTIRAPが機能しない場合、超低温のディープバウンド分子を生成する良い方法である。 しかし、スムーズな進化の過程における生成効率は概して低い。 この過程の間、中間状態の個体群は急速に崩壊し、強いレーザーパルスは多光子過程を誘導する。 本稿では,C-STIRAPの性能向上に,ショートカット・トゥ・アディバティック(STA)パスが適していることを示す。 現在、連鎖的に刺激されたラマン短絡-断熱通路(C-STIRSAP)に関する関連する議論は稀である。 ここでは、このトピックを断熱的除去の下で検討する。 4つの入射パルスの関係を考えると、m型系が最も単純な共振結合を持つ効果的な {\lambda} 型構造に一般化できることは非常に興味深い。 したがって、三状態系に対するstaの可能な全ての方法が借用できる。 分子システム上での処理を実証するために, 反断熱駆動法と "chosen path" 法を例に挙げた。 本手法は, 励起状態が強い場合, 実3状態系ではうまく動作しないが, 両方式のC-STIRSAPプロトコルは, M型系では高効率で極低温の深い分子を生成できる。 強度レーザーパルスを使わずに進化時間を短縮し、STAのロバスト性は良好に保存される。 最後に,超低温深層分子の検出について論じる。

Chainwise stimulated Raman adiabatic passage (C-STIRAP) in M-type molecular system is a good alternative in creating ultracold deeply-bound molecules when the typical STIRAP in {\Lambda}-type system does not work due to weak Frank-Condon factors between states. However, its creation efficiency under the smooth evolution is generally low. During the process, the population in the intermediate states may decay out quickly and the strong laser pulses may induce multi-photon processes. In this paper, we find that shortcut-to-adiabatic (STA) passage fits very well in improving the performance of the C-STIRAP. Currently, related discussions on the so-called chainwise stimulated Raman shortcut-to-adiabatic passage (C-STIRSAP) are rare. Here, we investigate this topic under the adiabatic elimination. Given a relation among the four incident pulses, it is quite interesting that the M-type system can be generalized into an effective {\Lambda}-type structure with the simplest resonant coupling. Consequently, all possible methods of STA for three-state system can be borrowed. We take the counter-diabatic driving and "chosen path" method as instances to demonstrate our treatment on the molecular system. Although the "chosen path" method does not work well in real three-state system if there is strong decay in the excited state, our C-STIRSAP protocol under both the two methods can create ultracold deeply-bound molecules with high efficiency in the M-type system. The evolution time is shortened without strong laser pulses and the robustness of STA is well preserved. Finally, the detection of ultracold deeply-bound molecules is discussed.
翻訳日:2024-01-03 01:22:52 公開日:2024-01-01
# 逆正則化による分割学習におけるパッシブ推論攻撃

Passive Inference Attacks on Split Learning via Adversarial Regularization ( http://arxiv.org/abs/2310.10483v3 )

ライセンス: Link先を確認
Xiaochen Zhu, Xinjian Luo, Yuncheng Wu, Yangfan Jiang, Xiaokui Xiao, Beng Chin Ooi(参考訳) 分割学習(slit learning, sl)は、従来の連合学習に代わる実践的で効率的な選択肢として登場した。 SL攻撃の試みは、しばしば過度に強い仮定や、容易に悪用できるモデルに頼っているが、我々はより実用的な攻撃方法を模索している。 我々は,sldに対する新たな攻撃フレームワークであるsdarを紹介する。 SDARは補助データと逆正則化を利用してクライアントのプライベートモデルのデオード可能なシミュレータを学習し、バニラSLの下でクライアントのプライベート機能を効果的に推測する。 提案する攻撃の有効性を検証するため,両構成の広範な実験を行った。 特に、既存のパッシブアタックがクライアントのプライベートデータを効果的に再構築するのに苦労する、困難だが実用的なシナリオでは、SDARはアクティブアタックに匹敵するアタックパフォーマンスを一貫して達成します。 CIFAR-10では、7の深さ分割レベルでは、SDARは、バニラとU字型の両方において0.025以上の平均2乗誤差でプライベートな特徴再構成を達成し、U字型設定では98%以上のラベル推測精度を達成し、既存の攻撃では非自明な結果が得られない。

Split Learning (SL) has emerged as a practical and efficient alternative to traditional federated learning. While previous attempts to attack SL have often relied on overly strong assumptions or targeted easily exploitable models, we seek to develop more practical attacks. We introduce SDAR, a novel attack framework against SL with an honest-but-curious server. SDAR leverages auxiliary data and adversarial regularization to learn a decodable simulator of the client's private model, which can effectively infer the client's private features under the vanilla SL, and both features and labels under the U-shaped SL. We perform extensive experiments in both configurations to validate the effectiveness of our proposed attacks. Notably, in challenging but practical scenarios where existing passive attacks struggle to reconstruct the client's private data effectively, SDAR consistently achieves attack performance comparable to active attacks. On CIFAR-10, at the deep split level of 7, SDAR achieves private feature reconstruction with less than 0.025 mean squared error in both the vanilla and the U-shaped SL, and attains a label inference accuracy of over 98% in the U-shaped setting, while existing attacks fail to produce non-trivial results.
翻訳日:2024-01-03 01:21:44 公開日:2024-01-01
# 逆正則化による分割学習におけるパッシブ推論攻撃

Passive Inference Attacks on Split Learning via Adversarial Regularization ( http://arxiv.org/abs/2310.10483v2 )

ライセンス: Link先を確認
Xiaochen Zhu, Xinjian Luo, Yuncheng Wu, Yangfan Jiang, Xiaokui Xiao, Beng Chin Ooi(参考訳) 分割学習(slit learning, sl)は、従来の連合学習に代わる実践的で効率的な選択肢として登場した。 SL攻撃の試みは、しばしば過度に強い仮定や、容易に悪用できるモデルに頼っているが、我々はより実用的な攻撃方法を模索している。 我々は,sldに対する新たな攻撃フレームワークであるsdarを紹介する。 SDARは補助データと逆正則化を利用してクライアントのプライベートモデルのデオード可能なシミュレータを学習し、バニラSLの下でクライアントのプライベート機能を効果的に推測する。 提案する攻撃の有効性を検証するため,両構成の広範な実験を行った。 特に、既存のパッシブアタックがクライアントのプライベートデータを効果的に再構築するのに苦労する、困難だが実用的なシナリオでは、SDARはアクティブアタックに匹敵するアタックパフォーマンスを一貫して達成します。 CIFAR-10では、7の深さ分割レベルでは、SDARは、バニラとU字型の両方において0.025以上の平均2乗誤差でプライベートな特徴再構成を達成し、U字型設定では98%以上のラベル推測精度を達成し、既存の攻撃では非自明な結果が得られない。

Split Learning (SL) has emerged as a practical and efficient alternative to traditional federated learning. While previous attempts to attack SL have often relied on overly strong assumptions or targeted easily exploitable models, we seek to develop more practical attacks. We introduce SDAR, a novel attack framework against SL with an honest-but-curious server. SDAR leverages auxiliary data and adversarial regularization to learn a decodable simulator of the client's private model, which can effectively infer the client's private features under the vanilla SL, and both features and labels under the U-shaped SL. We perform extensive experiments in both configurations to validate the effectiveness of our proposed attacks. Notably, in challenging but practical scenarios where existing passive attacks struggle to reconstruct the client's private data effectively, SDAR consistently achieves attack performance comparable to active attacks. On CIFAR-10, at the deep split level of 7, SDAR achieves private feature reconstruction with less than 0.025 mean squared error in both the vanilla and the U-shaped SL, and attains a label inference accuracy of over 98% in the U-shaped setting, while existing attacks fail to produce non-trivial results.
翻訳日:2024-01-03 01:21:20 公開日:2024-01-01
# 単一量子回路の合成と算術

Synthesis and Arithmetic of Single Qutrit Circuits ( http://arxiv.org/abs/2311.08696v3 )

ライセンス: Link先を確認
Amolak Ratan Kalra, Dinesh Valluri, Michele Mosca(参考訳) 本稿では、clifford+$\mathcal{d}$ gate set 上の単語からなる単一量子回路について研究し、ここで $\mathcal{d}$ は、$\text{diag}(\pm\xi^{a},\pm\xi^{b},\pm\xi^{c}) という形のサイクロトミックゲートからなる。 我々は、$\chi := 1 - \xi に対して最小の分母指数(sde)を減少させる可能性に基づいて、$\mathbb{Z}[\xi, \frac{1}{\chi}]$のエントリを持つクォート単位ベクトルのクラス $z$ を Clifford+$\mathcal{D}$ の適切なゲートを作用させることにより特徴づける。 我々は、$\mathbb{Z}[\xi]$ の任意の元の ‘デリバティブ mod $3$' の概念を研究し、それを使って$HDz$ の最小の分母指数を研究し、$H$ は qutrit Hadamard gate と $D \in \mathcal{D} である。 さらに、与えられたスデーのすべての単位ベクトルを見つける問題は、いくつかの追加の制約とともに正定値二次形式の積分解を見つける問題に還元する。 その結果、clifford + $\mathcal{d}$ gates は sde $0$ と sde $ u(3,\mathbb{z}[\xi, \frac{1}{\chi}])$ of $3 \times 3$ unitaries with entry in $\mathbb{z}[\xi, \frac{1}{\chi}]$ のゲートとして自然に発生する。

In this paper we study single qutrit quantum circuits consisting of words over the Clifford+ $\mathcal{D}$ gate set, where $\mathcal{D}$ consists of cyclotomic gates of the form $\text{diag}(\pm\xi^{a},\pm\xi^{b},\pm\xi^{c}),$ where $\xi$ is a primitive $9$-th root of unity and $a,b,c$ are integers. We characterize classes of qutrit unit vectors $z$ with entries in $\mathbb{Z}[\xi, \frac{1}{\chi}]$ based on the possibility of reducing their smallest denominator exponent (sde) with respect to $\chi := 1 - \xi,$ by acting an appropriate gate in Clifford+$\mathcal{D}$. We do this by studying the notion of `derivatives mod $3$' of an arbitrary element of $\mathbb{Z}[\xi]$ and using it to study the smallest denominator exponent of $HDz$ where $H$ is the qutrit Hadamard gate and $D \in \mathcal{D}.$ In addition, we reduce the problem of finding all unit vectors of a given sde to that of finding integral solutions of a positive definite quadratic form along with some additional constraints. As a consequence we prove that the Clifford + $\mathcal{D}$ gates naturally arise as gates with sde $0$ and $3$ in the group $U(3,\mathbb{Z}[\xi, \frac{1}{\chi}])$ of $3 \times 3$ unitaries with entries in $\mathbb{Z}[\xi, \frac{1}{\chi}]$
翻訳日:2024-01-03 01:14:30 公開日:2024-01-01
# 確率微分方程式に基づく児童母系におけるY演算子に基づく強化学習の性能向上の一手法

A Method to Improve the Performance of Reinforcement Learning Based on the Y Operator for a Class of Stochastic Differential Equation-Based Child-Mother Systems ( http://arxiv.org/abs/2311.04014v3 )

ライセンス: Link先を確認
Cheng Yin, Yi Chen(参考訳) 本稿では,確率微分方程式(SDEs)に支配されるシステムに対するアクタ・クライト(AC)に基づく強化学習における制御性能を高めるために,Y演算子と呼ばれる新しい演算子を提案する。 The Y operator ingeniously integrates the stochasticity of a class of child-mother system into the Critic network's loss function, yielding substantial advancements in the control performance of RL algorithms.Additionally, the Y operator elegantly reformulates the challenge of solving partial differential equations for the state-value function into a parallel problem for the drift and diffusion functions within the system's SDEs.A rigorous mathematical proof confirms the operator's validity.This transformation enables the Y Operator-based Reinforcement Learning(YORL) framework to efficiently tackle optimal control problems in both model-based and data-driven systems.The superiority of YORL is demonstrated through linear and nonlinear numerical examples showing its enhanced performance over existing methods post convergence.

This paper introduces a novel operator, termed the Y operator, to elevate control performance in Actor-Critic(AC) based reinforcement learning for systems governed by stochastic differential equations(SDEs). The Y operator ingeniously integrates the stochasticity of a class of child-mother system into the Critic network's loss function, yielding substantial advancements in the control performance of RL algorithms.Additionally, the Y operator elegantly reformulates the challenge of solving partial differential equations for the state-value function into a parallel problem for the drift and diffusion functions within the system's SDEs.A rigorous mathematical proof confirms the operator's validity.This transformation enables the Y Operator-based Reinforcement Learning(YORL) framework to efficiently tackle optimal control problems in both model-based and data-driven systems.The superiority of YORL is demonstrated through linear and nonlinear numerical examples showing its enhanced performance over existing methods post convergence.
翻訳日:2024-01-03 01:12:36 公開日:2024-01-01
# 変分オートエンコーダの潜在空間から新しいブリッジ型を生成する試み

An attempt to generate new bridge types from latent space of variational autoencoder ( http://arxiv.org/abs/2311.03380v2 )

ライセンス: Link先を確認
Hongjun Zhang(参考訳) 生成人工知能技術を用いた新しいブリッジタイプの作成。 3dsMaxアニメーションソフトウェアを用いて橋梁ファサードのグレースケール画像をレンダリングし,OpenCVモジュールが適切な幾何変換(回転,水平スケール,垂直スケール)を行い,3本の梁橋,アーチブリッジ,ケーブルステイドブリッジ,サスペンションブリッジの画像データセットを得た。 Pythonプログラミング言語、TensorFlow、Kerasのディープラーニングプラットフォームフレームワークに基づいて、可変オートエンコーダを構築し、訓練し、ベクトル演算に便利な低次元ブリッジ型潜在空間を得た。 変分オートエンコーダは、人間のオリジナルに基づいて2つのブリッジタイプを新しいブリッジタイプに結合することができる。 生成型人工知能技術は橋梁型イノベーションの橋梁設計を支援し、コピロットとして使用できる。

Try to generate new bridge types using generative artificial intelligence technology. The grayscale images of the bridge facade with the change of component width was rendered by 3dsMax animation software, and then the OpenCV module performed an appropriate amount of geometric transformation (rotation, horizontal scale, vertical scale) to obtain the image dataset of three-span beam bridge, arch bridge, cable-stayed bridge and suspension bridge. Based on Python programming language, TensorFlow and Keras deep learning platform framework, variational autoencoder was constructed and trained, and low-dimensional bridge-type latent space that is convenient for vector operations was obtained. Variational autoencoder can combine two bridge types on the basis of the original of human into one that is a new bridge type. Generative artificial intelligence technology can assist bridge designers in bridge-type innovation, and can be used as copilot.
翻訳日:2024-01-03 01:12:22 公開日:2024-01-01
# 単一光学トラップされたセシウム原子のラマン側バンド冷却

Resolved Raman sideband cooling of a single optically trapped cesium atom ( http://arxiv.org/abs/2311.17494v2 )

ライセンス: Link先を確認
Zhuangzhuang Tian, Haobo Chang, Xin Lv, Mengna Yang, Zhihui Wang, Pengfei Yang, Pengfei Zhang, Gang Li, and Tiancai Zhang(参考訳) 我々は、光学的に閉じ込められたセシウム(Cs)原子をその運動基底状態に効率よく調製できる解決されたラマンサイドバンド冷却法を開発した。 フォノン数を減少させるために、2つの最外層ゼーマン準位の間の2光子ラマン過程を適用する。 本手法は2つの異なる基底超微粒子状態に属する2つの最外ゼーマン準位が取り込まれる一般的なスキームよりも磁場の変動に敏感ではない。 自然発光の少ない高速光ポンピングは冷却プロセスの効率を保証する。 50msの冷却後、Cs原子の82%が3次元の基底状態を形成する。 磁場ドリフトの存在下でのラマン側バンド冷却の長期安定性を向上し,磁気サブレベルが豊富な他の閉じ込められた原子やイオンを冷却するのに適している。

We developed a resolved Raman sideband cooling scheme that can efficiently prepare a single optically trapped cesium (Cs) atom in its motional ground states. A two-photon Raman process between two outermost Zeeman sublevels in a single hyperfine state is applied to reduce the phonon number. Our scheme is less sensitive to the variation in the magnetic field than the commonly used scheme where the two outermost Zeeman sublevels belonging to the two separate ground hyperfine states are taken. Fast optical pumping with less spontaneous emission guarantees the efficiency of the cooling process. After cooling for 50 ms, 82% of the Cs atoms populate their three-dimensional ground states. Our scheme improves the long-term stability of Raman sideband cooling in the presence of magnetic field drift and is thus suitable for cooling other trapped atoms or ions with abundant magnetic sublevels.
翻訳日:2024-01-03 01:00:50 公開日:2024-01-01
# 自律運転のための多エージェント協調型鳥眼視セグメンテーションのフルシーン領域一般化に向けて

Towards Full-scene Domain Generalization in Multi-agent Collaborative Bird's Eye View Segmentation for Connected and Autonomous Driving ( http://arxiv.org/abs/2311.16754v2 )

ライセンス: Link先を確認
Senkang Hu, Zhengru Fang, Xianhao Chen, Yuguang Fang, Sam Kwong(参考訳) 協調的知覚は、最近自動運転において大きな注目を集め、車両間の追加情報交換を可能にし、知覚品質の向上に寄与している。 しかし、協調認識システムの展開は、様々な環境条件とコネクテッド・自動運転車(CAV)間のデータの均一性によるドメインシフトにつながる可能性がある。 これらの課題に対処するために,協調認知の訓練段階と推論段階の両方に適用可能な統一ドメイン一般化フレームワークを提案する。 訓練段階では、低周波画像の変動を強調する振幅拡張法(ampaug)を導入し、様々な領域で学習するモデルの能力を広げる。 また、ドメインシフトをシミュレートするためにメタ一貫性トレーニングスキームを採用し、注意深く設計された一貫性損失でモデルを最適化し、ドメイン不変表現を促進する。 推論フェーズでは,システム内ドメインアライメント機構を導入し,推論に先立ってCAV間のドメイン不一致を低減または除去する。 包括的実験により,本手法の有効性が現行の手法と比較された。 コードはhttps://github.com/DG-CAVs/DG-CoPerception.gitでリリースされる。

Collaborative perception has recently gained significant attention in autonomous driving, improving perception quality by enabling the exchange of additional information among vehicles. However, deploying collaborative perception systems can lead to domain shifts due to diverse environmental conditions and data heterogeneity among connected and autonomous vehicles (CAVs). To address these challenges, we propose a unified domain generalization framework applicable in both training and inference stages of collaborative perception. In the training phase, we introduce an Amplitude Augmentation (AmpAug) method to augment low-frequency image variations, broadening the model's ability to learn across various domains. We also employ a meta-consistency training scheme to simulate domain shifts, optimizing the model with a carefully designed consistency loss to encourage domain-invariant representations. In the inference phase, we introduce an intra-system domain alignment mechanism to reduce or potentially eliminate the domain discrepancy among CAVs prior to inference. Comprehensive experiments substantiate the effectiveness of our method in comparison with the existing state-of-the-art works. Code will be released at https://github.com/DG-CAVs/DG-CoPerception.git.
翻訳日:2024-01-03 01:00:36 公開日:2024-01-01
# 定量的・質的統合分析を用いたリアルタイムオンライン株価予測

Real-Time Online Stock Forecasting Utilizing Integrated Quantitative and Qualitative Analysis ( http://arxiv.org/abs/2311.15218v3 )

ライセンス: Link先を確認
Sai Akash Bathini, Dagli Cihan(参考訳) 機械学習の金融への応用は、株式市場の予測よりもよく知られたアプローチになっている。 株式市場は揮発性が高く、全世界で毎分大量のデータが生成される。 このデータから効果的なインテリジェンスを抽出することが重要である。 しかし,数値ストックデータと定性的テキストデータとの協調は難しい課題である。 本研究は,ニュースアーカイブ,テレビニュースキャプション,ラジオ書き起こし,つぶやき,日刊金融新聞等から収集した,技術的および基本的データと感情を備えた,前例のない公開データセットを提供することにより,これを実現する。 感情抽出に使われるテキストデータエントリは合計で140万以上である。 データセットは、2018年1月から2022年12月までの、さまざまな産業部門を代表する8社とダウ・ジョーンズ工業平均(djia)全体の日刊エントリで構成されている。 モデル学習とデプロイの準備が整った、ホロスティック基本および技術データを提供する。 最も重要なことに、生成したデータは、停滞データを使用しないために、毎日取得されるリアルタイムデータポイントによるインクリメンタルオンライン学習に使用できる。 すべてのデータはAPIや自己設計の堅牢な情報検索技術から削除された。 これらの適応技術はあらゆる株式のデータ抽出を促進する。 さらに、リアルタイムデータよりもスピアマンのランク相関を利用して、ストックリターンと感情分析を結びつけることで、DJIAにとって注目すべき結果となり、精度は60倍を超えた。 データセットはhttps://github.com/batking24/Huge-Stock-Datasetで公開されている。

The application of Machine learning to finance has become a familiar approach, even more so in stock market forecasting. The stock market is highly volatile, and huge amounts of data are generated every minute globally. The extraction of effective intelligence from this data is of critical importance. However, a collaboration of numerical stock data with qualitative text data can be a challenging task. In this work, we accomplish this by providing an unprecedented, publicly available dataset with technical and fundamental data and sentiment that we gathered from news archives, TV news captions, radio transcripts, tweets, daily financial newspapers, etc. The text data entries used for sentiment extraction total more than 1.4 Million. The dataset consists of daily entries from January 2018 to December 2022 for eight companies representing diverse industrial sectors and the Dow Jones Industrial Average (DJIA) as a whole. Holistic Fundamental and Technical data is provided training ready for Model learning and deployment. Most importantly, the data generated could be used for incremental online learning with real-time data points retrieved daily since no stagnant data was utilized. All the data was retired from APIs or self-designed robust information retrieval technologies. These adaptable technologies facilitate data extraction for any stock. Moreover, the utilization of Spearman's rank correlation over real-time data, linking stock returns with sentiment analysis has produced noteworthy results for the DJIA, achieving accuracy levels surpassing 60\%. The dataset is made available at https://github.com/batking24/Huge-Stock-Dataset.
翻訳日:2024-01-03 00:59:26 公開日:2024-01-01
# DiffusionLight:Chromeのボールにペンキを塗って無料の光プローブ

DiffusionLight: Light Probes for Free by Painting a Chrome Ball ( http://arxiv.org/abs/2312.09168v2 )

ライセンス: Link先を確認
Pakkapon Phongthawee, Worameth Chinchuthakun, Nontaphat Sinsunthithet, Amit Raj, Varun Jampani, Pramook Khungurn, Supasorn Suwajanakorn(参考訳) 本稿では,単一入力画像における照明推定のための簡易かつ効果的な手法を提案する。 現在の技術は、HDRパノラマデータセットに大きく依存して、ニューラルネットワークをトレーニングし、視野の限られた入力をフル環境マップに回帰する。 しかしながら、これらのアプローチは、データセットの多様性とサイズが限られているため、実世界の制御不能な設定に苦しむことが多い。 この問題に対処するため、我々は数十億の標準画像でトレーニングされた拡散モデルを利用して、chromeボールが入力画像にレンダリングされる。 拡散モデルはしばしば不正確なオブジェクトや一貫性のないオブジェクトを挿入し、hdr形式では簡単に画像を生成することができない。 我々の研究は、クロムボールの出現と初期拡散ノイズマップとの驚くべき関係を解明し、高品質なクロムボールの連続生成に利用した。 さらに、LDR拡散モデル(Stable Diffusion XL)をLoRAで微調整し、HDR光推定のための露光ブラケットを行う。 提案手法は,様々な設定にまたがる説得力のある光推定を行い,現場シナリオに優れた一般化を示す。

We present a simple yet effective technique to estimate lighting in a single input image. Current techniques rely heavily on HDR panorama datasets to train neural networks to regress an input with limited field-of-view to a full environment map. However, these approaches often struggle with real-world, uncontrolled settings due to the limited diversity and size of their datasets. To address this problem, we leverage diffusion models trained on billions of standard images to render a chrome ball into the input image. Despite its simplicity, this task remains challenging: the diffusion models often insert incorrect or inconsistent objects and cannot readily generate images in HDR format. Our research uncovers a surprising relationship between the appearance of chrome balls and the initial diffusion noise map, which we utilize to consistently generate high-quality chrome balls. We further fine-tune an LDR difusion model (Stable Diffusion XL) with LoRA, enabling it to perform exposure bracketing for HDR light estimation. Our method produces convincing light estimates across diverse settings and demonstrates superior generalization to in-the-wild scenarios.
翻訳日:2024-01-03 00:51:39 公開日:2024-01-01
# COMBHelper: グラフコンビネーション問題に対する検索スペース削減のためのニューラルネットワーク

COMBHelper: A Neural Approach to Reduce Search Space for Graph Combinatorial Problems ( http://arxiv.org/abs/2312.09086v2 )

ライセンス: Link先を確認
Hao Tian, Sourav Medya, Wei Ye(参考訳) グラフに対する組合せ最適化(CO)問題は、トラフィックの最適化、ソーシャルネットワークにおけるバイラルマーケティング、ジョブ割り当てのマッチングなど、多くのアプリケーションで日常的に発生する。 組み合わせの性質のため、これらの問題はしばしばNPハードである。 既存の近似アルゴリズムとヒューリスティックスは探索空間に頼って解を見つけ出し、この空間が大きくなると時間がかかる。 本論文では,この空間を削減し,ノード選択に基づく従来のCOアルゴリズムの効率を向上させるために,COMBHelperと呼ばれるニューラル手法を設計する。 具体的には、グラフニューラルネットワーク(GNN)を使用して、ソリューションセットの有望なノードを特定する。 この刈り取られた探索空間は、従来のcoアルゴリズムに供給される。 COMBHelperはまた、知識蒸留(KD)モジュールと問題固有のブースティングモジュールを使用して、さらなる効率性と有効性をもたらす。 実験の結果,COMBHelperを用いた従来のCOアルゴリズムは,従来のバージョンに比べて少なくとも2倍高速であることがわかった。

Combinatorial Optimization (CO) problems over graphs appear routinely in many applications such as in optimizing traffic, viral marketing in social networks, and matching for job allocation. Due to their combinatorial nature, these problems are often NP-hard. Existing approximation algorithms and heuristics rely on the search space to find the solutions and become time-consuming when this space is large. In this paper, we design a neural method called COMBHelper to reduce this space and thus improve the efficiency of the traditional CO algorithms based on node selection. Specifically, it employs a Graph Neural Network (GNN) to identify promising nodes for the solution set. This pruned search space is then fed to the traditional CO algorithms. COMBHelper also uses a Knowledge Distillation (KD) module and a problem-specific boosting module to bring further efficiency and efficacy. Our extensive experiments show that the traditional CO algorithms with COMBHelper are at least 2 times faster than their original versions.
翻訳日:2024-01-03 00:51:21 公開日:2024-01-01
# 特徴ガイダンス:大規模誘導スケールでの拡散モデルに対する非線形補正

Characteristic Guidance: Non-linear Correction for Diffusion Model at Large Guidance Scale ( http://arxiv.org/abs/2312.07586v2 )

ライセンス: Link先を確認
Candi Zheng, Yuan Lan(参考訳) 拡散確率モデル(ddpm, denoising diffusion probabilistic model)は、異なる条件モデルを線形に組み合わせ、サンプルに対する制御を強化する。 しかし,本手法は誘導スケールが大きいと重要になる非線形効果を無視する。 そこで本研究では, 分類器を含まないddpmsに対して, 第一原理非線形補正を行うサンプリング手法である characteristic guidance を提案する。 このような補正により、DDPMは基礎となる拡散過程のフォッカー・プランク方程式を、訓練のない、誘導体のない、既存のサンプリング法と互換性のある方法で尊重せざるを得なくなる。 実験により、特性誘導は制御を強化し、画像生成における色と露出の問題を低減し、潜時空間サンプリングから磁気位相遷移のような物理問題の解決まで様々な応用に有効であることが示されている。

Popular guidance for denoising diffusion probabilistic model (DDPM) linearly combines distinct conditional models together to provide enhanced control over samples. However, this approach overlooks nonlinear effects that become significant when guidance scale is large. To address this issue, we propose characteristic guidance, a sampling method that provides first-principle non-linear correction for classifier-free guided DDPMs. Such correction forces the guided DDPMs to respect the Fokker-Planck equation of their underlying diffusion process, in a way that is training-free, derivative-free, and compatible with existing sampling methods. Experiments show that characteristic guidance enhances control and reduces color and exposure issues in image generation, proving effective in diverse applications ranging from latent space sampling to solving physics problems like magnet phase transitions.
翻訳日:2024-01-03 00:50:10 公開日:2024-01-01
# mabvit -- 視覚トランスフォーマーを改良したアテンションブロック

MABViT -- Modified Attention Block Enhances Vision Transformers ( http://arxiv.org/abs/2312.01324v2 )

ライセンス: Link先を確認
Mahesh Ramesh and Aswinkumar Ramkumar(参考訳) 近年の研究では、特にLLM(Large Language Models)において、トランスフォーマーモデルの強化における Gated Linear Units (GLU) の有効性が示されている。 さらに,従来のシリアライズ法ではなくトランスフォーマーブロック内の並列構成を利用することで,LLMのトレーニングを著しく向上させることができた。 しかし,画像分類タスクにおいて,MLPとアテンションブロックが並列に実行されると,顕著な性能低下が見られた。 本稿では,注意ブロック内の非線形性を統合した新しい変圧器を提案する。 我々は値テンソル上のgluベースのアクティベーション関数を実装し、この新手法はimagenet-1kデータセットで現在のs/16型視覚トランスフォーマーを0.6%上回り、パラメータを少なくした。 また、B/16の変種を代替し、パラメータの半分しか使用していない。 さらに,GELUアクティベーション関数の変種を用いて,アサーションの確認を行う。 最後に、MABViTの変種は、標準アーキテクチャと比較して深部変圧器での利用において大きなポテンシャルを示すことを示す。

Recent studies have demonstrated the effectiveness of Gated Linear Units (GLU) in enhancing transformer models, particularly in Large Language Models (LLMs). Additionally, utilizing a parallel configuration within each Transformer block rather than the conventional serialized method has been revealed to accelerate the training of LLMs without significantly impacting performance. However, when the MLP and attention block were run in parallel for the image classification task, we observed a noticeable decline in performance. We propose a novel transformer variant that integrates non-linearity within the attention block to tackle this problem. We implemented the GLU-based activation function on the Value tensor, and this new technique surpasses the current state-of-the-art S/16 variant of Vision Transformers by 0.6% on the ImageNet-1K dataset while utilizing fewer parameters. It also supersedes the B/16 variant while using only half the parameters. Furthermore, we provide results with the GELU activation function variant to confirm our assertions. Lastly, we showcase that the MABViT variants exhibit greater potential when utilized in deep transformers compared to the standard architecture.
翻訳日:2024-01-03 00:46:26 公開日:2024-01-01
# チューリングテスト:AIチャットボットは人間に似ているか?

A Turing Test: Are AI Chatbots Behaviorally Similar to Humans? ( http://arxiv.org/abs/2312.00798v2 )

ライセンス: Link先を確認
Qiaozhu Mei, Yutong Xie, Walter Yuan, Matthew O. Jackson(参考訳) aiチャットボットにチューリングテストを実行します。 チャットボットは,信頼,公平性,リスク回避,協力,<textit{etc>>といった特性を引き出すように設計された,一連の古典的な行動ゲームの中でどのように振る舞うかを検討する。 また、人格特性を測定する従来のBig-5の心理学的調査にも反応する。 chatgpt-4は50か国以上から数万人の被験者からランダムな人間と統計的に区別できない行動と性格特性を示す。 チャットボットはまた、以前の経験に基づいて行動を変更し、そのやりとりから学習していたコンテキストを‘as if’と表現し、同じ戦略的状況の異なるフレーミングに対応して行動を変える。 彼らの行動は、平均的な人間の行動と、より利他的かつ協調的な分布の端で行動する傾向にある。 私たちは、彼らが自分の平均とパートナーの支払いを最大化しているかのように振る舞うと見積もっています。

We administer a Turing Test to AI Chatbots. We examine how Chatbots behave in a suite of classic behavioral games that are designed to elicit characteristics such as trust, fairness, risk-aversion, cooperation, \textit{etc.}, as well as how they respond to a traditional Big-5 psychological survey that measures personality traits. ChatGPT-4 exhibits behavioral and personality traits that are statistically indistinguishable from a random human from tens of thousands of human subjects from more than 50 countries. Chatbots also modify their behavior based on previous experience and contexts ``as if'' they were learning from the interactions, and change their behavior in response to different framings of the same strategic situation. Their behaviors are often distinct from average and modal human behaviors, in which case they tend to behave on the more altruistic and cooperative end of the distribution. We estimate that they act as if they are maximizing an average of their own and partner's payoffs.
翻訳日:2024-01-03 00:46:02 公開日:2024-01-01
# assistgui:タスク指向のデスクトップユーザインタフェース自動化

ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation ( http://arxiv.org/abs/2312.13108v2 )

ライセンス: Link先を確認
Difei Gao, Lei Ji, Zechen Bai, Mingyu Ouyang, Peiran Li, Dongxing Mao, Qinchen Wu, Weichen Zhang, Peiyi Wang, Xiangwu Guo, Hengxu Wang, Luowei Zhou, Mike Zheng Shou(参考訳) グラフィカルユーザインタフェース(GUI)の自動化は、複雑なタスクでユーザを支援するという大きな約束を持ち、それによって人間の生産性が向上する。 LLM(Large Language Model)やLLMベースのAIエージェントを活用する既存の作業は、AndroidとWebプラットフォーム上でタスクを自動化する機能を示している。 しかし、これらのタスクは主に単純なデバイスの使用とエンターテイメント操作を目的としている。 本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。 我々は、After EffectsやMS Wordなど、広く使われている9つのソフトウェアアプリケーションから、必要なプロジェクトファイルとともに、100のタスクを慎重に収集した。 さらに,llmエージェントによって駆動される高度なguiパーサと,長い手続きタスクの処理に適した拡張推論機構を組み込んだ,高度なアクタ批判型エンボディエージェントフレームワークを提案する。 実験の結果,GUIパーザと推論機構が既存の性能手法より優れていることがわかった。 それでも、最良のモデルは私たちのベンチマークで46%の成功率しか得られていない。 結論として,現在の手法の限界を徹底的に分析し,この領域における今後のブレークスルーのステージを設定した。

Graphical User Interface (GUI) automation holds significant promise for assisting users with complex tasks, thereby boosting human productivity. Existing works leveraging Large Language Model (LLM) or LLM-based AI agents have shown capabilities in automating tasks on Android and Web platforms. However, these tasks are primarily aimed at simple device usage and entertainment operations. This paper presents a novel benchmark, AssistGUI, to evaluate whether models are capable of manipulating the mouse and keyboard on the Windows platform in response to user-requested tasks. We carefully collected a set of 100 tasks from nine widely-used software applications, such as, After Effects and MS Word, each accompanied by the necessary project files for better evaluation. Moreover, we propose an advanced Actor-Critic Embodied Agent framework, which incorporates a sophisticated GUI parser driven by an LLM-agent and an enhanced reasoning mechanism adept at handling lengthy procedural tasks. Our experimental results reveal that our GUI Parser and Reasoning mechanism outshine existing methods in performance. Nevertheless, the potential remains substantial, with the best model attaining only a 46% success rate on our benchmark. We conclude with a thorough analysis of the current methods' limitations, setting the stage for future breakthroughs in this domain.
翻訳日:2024-01-02 21:04:14 公開日:2024-01-01
# ポーカーハンド履歴ファイルフォーマットの仕様

Poker Hand History File Format Specification ( http://arxiv.org/abs/2312.11753v2 )

ライセンス: Link先を確認
Juho Kim(参考訳) 本稿ではポーカーハンドヒストリー(PHH)ファイルフォーマットを導入し,ポーカーハンドの記録を多種多様なゲームで標準化する。 心身スポーツとしてポーカーが主流の文化で広く普及し、不完全な情報AIエージェントのベンチマークとしての人工知能(AI)研究の分野における卓越しているにもかかわらず、機械で簡単に解析できる様々な種類のポーカーハンドを人間が文書化するために使用できる一貫したフォーマットが欠如している。 このギャップに対処するため,本論文では,初期ゲームパラメータやアクションから,会場,プレーヤ,タイムコントロール情報に制限されないコンテキストパラメータに至るまで,手作業のさまざまな詳細を包括的にキャプチャする,手作業履歴の簡潔で可読なマシンフレンドリーな表現を提供するPHHフォーマットを提案する。 補足では、PHHフォーマットの11種類の変種をカバーする1万以上の手を提供する。 ポーカーハンドシミュレーションツールであるPokerKitに関する以前の研究に基づいて、PHHパーサのオープンソースPython実装の使用例を実演しました。 パーサのソースコードはgithubで入手できる。 https://github.com/uoftcprg/pokerkit

This paper introduces the Poker Hand History (PHH) file format, designed to standardize the recording of poker hands across different game variants. Despite poker's widespread popularity in the mainstream culture as a mind sport and its prominence in the field of artificial intelligence (AI) research as a benchmark for imperfect information AI agents, it lacks a consistent format that humans can use to document poker hands across different variants that can also easily be parsed by machines. To address this gap in the literature, we propose the PHH format which provides a concise human-readable machine-friendly representation of hand history that comprehensively captures various details of the hand, ranging from initial game parameters and actions to contextual parameters including but not limited to the venue, players, and time control information. In the supplementary, we provide over 10,000 hands covering 11 different variants in the PHH format. Building on our previous work on PokerKit, a premier poker hand simulation tool, we demonstrate the usages of our open-source Python implementation of the PHH parser. The source code of the parser is available on GitHub: https://github.com/uoftcprg/pokerkit
翻訳日:2024-01-02 21:02:58 公開日:2024-01-01
# 光双極子トラップにおける1つのセシウム原子と20sのコヒーレンス時間

Coherence time of 20 s with a single cesium atom in an optical dipole trap ( http://arxiv.org/abs/2312.11196v2 )

ライセンス: Link先を確認
Zhuangzhuang Tian, Haobo Chang, Xin Lv, Mengna Yang, Zhihui Wang, Pengfei Yang, Pengfei Zhang, Gang Li, Tiancai Zhang(参考訳) 我々は、原子波動関数の完全な説明を用いて、光学的に捕捉された原子の2つの基底電子状態間のデコヒーレンスを分析する。 運動状態、すなわちフォノン状態が考慮される。 差分光シフト(DLS)のばらつきによるデコヒーレンスに加え、新しいデコヒーレンス機構、フォノンジャンピング誘発デコヒーレンス(PJID)が発見され、実験的に検証された。 次に、DLSとPJIDの両分散を抑えることにより、1つのCs原子に対して、BBTに原子をトラップし、原子を3次元の運動基底状態に準備することにより、T_2\approx 20$ sのコヒーレンス時間を得る。 我々の研究は、光学的に閉じ込められた単一原子のコヒーレンス時間を拡張する新しい可能性を開く。

We analyze the decoherence between two ground electronic states of an optically trapped atom by adopting a full description of the atomic wavefunction. The motional state, i.e., the phonon state, is taken into account. In addition to the decoherence due to the variance of differential light shift (DLS), a new decoherence mechanism, phonon-jumping-induced decoherence (PJID), is discovered and verified experimentally. A coherence time of $T_2\approx 20$ s is then obtained for a single Cs atom by suppressing both variances of DLS and PJID by trapping the atom in a blue-detuned BBT and preparing the atom into its three-dimensional motional ground states. Our work opens a new prospect to extend the coherence time of optically trapped single atoms.
翻訳日:2024-01-02 21:02:16 公開日:2024-01-01
# マルチストリーム分類のための概念ドリフトに基づくオンラインブーピング適応学習

Online Boosting Adaptive Learning under Concept Drift for Multistream Classification ( http://arxiv.org/abs/2312.10841v2 )

ライセンス: Link先を確認
En Yu, Jie Lu, Bin Zhang, Guangquan Zhang(参考訳) 概念ドリフトを伴う動的ストリーミングプロセスにおける高速適応の必要性から,マルチストリーム分類には大きな課題がある。 この領域における研究成果の増大にもかかわらず、これらのストリーム間の時間的ダイナミックな関係について注目すべき監視が行われており、無関係なデータから生じる負の転送の問題につながっている。 本稿では、異なるストリーム間の動的相関を適応的に学習することで、この制限を効果的に解決する新しいオンラインブースティング適応学習法を提案する。 具体的には、OBALは、まず、適応的共変量シフト適応(AdaCOSA)アルゴリズムを設計し、様々なソースストリームからのアーカイブデータを用いて初期化アンサンブルモデルを構築し、適応的再重み付け戦略を用いて動的相関を学習しながら、共変量シフトを緩和する。 オンラインプロセスではガウス混合モデルに基づく重み付け機構を用い,AdaCOSAを介して取得した相関関係とシームレスに統合し,非同期ドリフトを効果的に処理する。 このアプローチは、ターゲットストリームの予測性能と安定性を大幅に改善する。 我々は、様々なドリフトシナリオやタイプを含む、いくつかの合成および実世界のデータストリームに関する包括的な実験を行う。 その結果,複数ソースからの正の知識を効果的に活用することにより,obalはマルチストリーム分類問題に対して顕著な進歩を遂げていることが明らかとなった。

Multistream classification poses significant challenges due to the necessity for rapid adaptation in dynamic streaming processes with concept drift. Despite the growing research outcomes in this area, there has been a notable oversight regarding the temporal dynamic relationships between these streams, leading to the issue of negative transfer arising from irrelevant data. In this paper, we propose a novel Online Boosting Adaptive Learning (OBAL) method that effectively addresses this limitation by adaptively learning the dynamic correlation among different streams. Specifically, OBAL operates in a dual-phase mechanism, in the first of which we design an Adaptive COvariate Shift Adaptation (AdaCOSA) algorithm to construct an initialized ensemble model using archived data from various source streams, thus mitigating the covariate shift while learning the dynamic correlations via an adaptive re-weighting strategy. During the online process, we employ a Gaussian Mixture Model-based weighting mechanism, which is seamlessly integrated with the acquired correlations via AdaCOSA to effectively handle asynchronous drift. This approach significantly improves the predictive performance and stability of the target stream. We conduct comprehensive experiments on several synthetic and real-world data streams, encompassing various drifting scenarios and types. The results clearly demonstrate that OBAL achieves remarkable advancements in addressing multistream classification problems by effectively leveraging positive knowledge derived from multiple sources.
翻訳日:2024-01-02 21:01:37 公開日:2024-01-01
# Wikiformer: アドホック検索のためのウィキペディアの構造化情報による事前トレーニング

Wikiformer: Pre-training with Structured Information of Wikipedia for Ad-hoc Retrieval ( http://arxiv.org/abs/2312.10661v2 )

ライセンス: Link先を確認
Weihang Su, Qingyao Ai, Xiangsheng Li, Jia Chen, Yiqun Liu, Xiaolong Wu, Shengluan Hou(参考訳) ディープラーニングと自然言語処理技術の発展により、事前学習言語モデルは情報検索(IR)問題を解決するために広く利用されている。 事前訓練と微調整のパラダイムから恩恵を受け、これらのモデルは最先端のパフォーマンスを達成する。 以前の作品では、ウィキペディアのプレーンテキストは事前学習段階で広く使用されている。 しかし、ウィキペディアの豊富な構造化情報(タイトル、抽象論、階層的見出し(複数階層的タイトル)構造、記事間の関係、参照、ハイパーリンク構造、執筆組織など)は、完全には調査されていない。 本稿では,ウィキペディアの構造的知識に基づいて,IRタスクに適した4つの事前学習目標を考案する。 既存の事前学習手法と比較して,本手法は,ウィキペディアの人文による構造化データを活用することにより,トレーニングコーパスにおける意味的知識をよりよく捉えることができる。 複数のIRベンチマークデータセットに対する実験結果から,既存の強力な検索ベースラインと比較して,ゼロショットと微調整の両方でモデルの性能が優れていることがわかった。 さらに, 生物医学的, 法学的な領域における実験結果から, 従来のモデルと比較して, 垂直領域では, 特に長文類似性マッチングが必要なシナリオでは, 精度が向上することが示された。

With the development of deep learning and natural language processing techniques, pre-trained language models have been widely used to solve information retrieval (IR) problems. Benefiting from the pre-training and fine-tuning paradigm, these models achieve state-of-the-art performance. In previous works, plain texts in Wikipedia have been widely used in the pre-training stage. However, the rich structured information in Wikipedia, such as the titles, abstracts, hierarchical heading (multi-level title) structure, relationship between articles, references, hyperlink structures, and the writing organizations, has not been fully explored. In this paper, we devise four pre-training objectives tailored for IR tasks based on the structured knowledge of Wikipedia. Compared to existing pre-training methods, our approach can better capture the semantic knowledge in the training corpus by leveraging the human-edited structured data from Wikipedia. Experimental results on multiple IR benchmark datasets show the superior performance of our model in both zero-shot and fine-tuning settings compared to existing strong retrieval baselines. Besides, experimental results in biomedical and legal domains demonstrate that our approach achieves better performance in vertical domains compared to previous models, especially in scenarios where long text similarity matching is needed.
翻訳日:2024-01-02 21:00:50 公開日:2024-01-01
# 大規模言語モデル状況認識に基づく計画

Large Language Model Situational Awareness Based Planning ( http://arxiv.org/abs/2312.16127v2 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong(参考訳) この研究は、大規模言語モデルにおける状況認識に基づく創発的計画能力の評価の先駆者である。 貢献します (i)標準化評価のための新しいベンチマーク及び指標 (ii)進行を促すユニークなデータセット、及び (iii)状況に敏感な計画作業において,複数エージェントスキームを促し,計画性能を著しく向上させるデモンストレーション。 位置決めされたエージェントと自動計画研究に配置し、ドメインの進歩をシミュレートしながらも、世界国家を環境誘導のない行動に効率的にマッピングする、固有の信頼性の課題を強調した。 スコープ外ではあるが、バリデーション方法論とデータ可用性に関する制限は、拡張計画コーパスの微調整や高速な潜在計画のトリガの最適化など、エキサイティングな方向性を示している。 厳密な比較による現在の手法の約束と限界を決定的に示すことで、位置付けられたエージェントに対する信頼できる目標指向の推論を触媒する。

This work pioneers evaluating emergent planning capabilities based on situational awareness in large language models. We contribute (i) novel benchmarks and metrics for standardized assessment; (ii) a unique dataset to spur progress; and (iii) demonstrations that prompting and multi-agent schemes significantly enhance planning performance in context-sensitive planning tasks. Positioning this within a situated agent and automated planning research, we highlight inherent reliability challenges--efficiently mapping world states to actions without environmental guidance remains open despite simulated domain advances. Although out-of-scope, limitations around validation methodology and data availability indicate exciting directions, including fine-tuning on expanded planning corpora and optimizations for triggering fast latent planning. By conclusively demonstrating current methods' promise and limitations via rigorous comparison, we catalyze investigating reliable goal-directed reasoning for situated agents.
翻訳日:2024-01-02 20:26:13 公開日:2024-01-01
# 教師の多かれ少なかれ--知識蒸留における三方幾何学の活用

Less or More From Teacher: Exploiting Trilateral Geometry For Knowledge Distillation ( http://arxiv.org/abs/2312.15112v2 )

ライセンス: Link先を確認
Chengming Hu, Haolun Wu, Xuan Li, Chen Ma, Xi Chen, Jun Yan, Boyu Wang, Xue Liu(参考訳) 知識蒸留は、より大きな教師ネットワークからのソフトな監督と地上の真実からのハードな監督を用いて、コンパクトな学生ネットワークを訓練することを目的としている。 しかし、これらの監視信号のバランスをとる最適な知識融合比を決定することは依然として困難である。 従来の方法では、通常、一定のあるいはヒューリスティックな融合比を頼りにしており、しばしば適切なバランスに欠ける。 本研究では,教師と生徒の正当性を生かし,各生徒が各サンプルに対していかにその教師を模倣しているかを生かし,サンプルの知識融合比を学習するための適応的手法を提案する。 本手法は,学生の予測値(S$),教師の予測値(T$),基礎的真理値(G$)の3値内幾何学的関係を自然に導く。 外れ値の影響を均衡させるため、教師のグローバル平均予測$\bar{t}$を同じクラス内のサンプルに組み込むことで、サンプル間関係をさらに拡張する。 単純なニューラルネットワークは、サンプル内およびサンプル間関係から、適応的でサンプル単位の知識融合比への暗黙のマッピングをバイレベル最適化方式で学習する。 我々のアプローチは、様々なアーキテクチャやモデルサイズにまたがって適用可能な、シンプルで実用的で適応可能な知識蒸留ソリューションを提供する。 広範な実験により、画像分類、攻撃検出、クリックスルー率予測において、他の損失再重み付け方法よりも一貫した改善が示されている。

Knowledge distillation aims to train a compact student network using soft supervision from a larger teacher network and hard supervision from ground truths. However, determining an optimal knowledge fusion ratio that balances these supervisory signals remains challenging. Prior methods generally resort to a constant or heuristic-based fusion ratio, which often falls short of a proper balance. In this study, we introduce a novel adaptive method for learning a sample-wise knowledge fusion ratio, exploiting both the correctness of teacher and student, as well as how well the student mimics the teacher on each sample. Our method naturally leads to the intra-sample trilateral geometric relations among the student prediction ($S$), teacher prediction ($T$), and ground truth ($G$). To counterbalance the impact of outliers, we further extend to the inter-sample relations, incorporating the teacher's global average prediction $\bar{T}$ for samples within the same class. A simple neural network then learns the implicit mapping from the intra- and inter-sample relations to an adaptive, sample-wise knowledge fusion ratio in a bilevel-optimization manner. Our approach provides a simple, practical, and adaptable solution for knowledge distillation that can be employed across various architectures and model sizes. Extensive experiments demonstrate consistent improvements over other loss re-weighting methods on image classification, attack detection, and click-through rate prediction.
翻訳日:2024-01-02 20:24:48 公開日:2024-01-01
# Aurora:Mixtral-8x7B sparse Mixture-of-Expertsのインストラクションチューニングによる中国語チャット機能の活性化

Aurora:Activating Chinese chat capability for Mixtral-8x7B sparse Mixture-of-Experts through Instruction-Tuning ( http://arxiv.org/abs/2312.14557v2 )

ライセンス: Link先を確認
Rongsheng Wang, Haoming Chen, Ruizhe Zhou, Yaofei Duan, Kunyan Cai, Han Ma, Jiaxi Cui, Jian Li, Patrick Cheong-Iao Pang, Yapeng Wang, Tao Tan(参考訳) 既存の研究では、機械が生成する命令追従データを利用して大言語モデル(LLM)を精細化することで、人間が許可する命令を必要とせず、新しいタスクに対して印象的なゼロショット能力を発揮することが実証されている。 本稿では,Mixtral-8x7B sparse Mixture-of-Experts モデルの中国語会話能力向上を目的とした,中国語の命令追従データセットの体系化,事前処理,統合を行う。 この慎重に処理されたデータセットを微調整することで、Mixtral-8x7Bのスパースミクチャー・オブ・エクスプローラモデル"Aurora"の構築に成功した。 オーロラの性能を評価するために,C-Eval, MMLU, CMMLUの3つのベンチマークテストを利用する。 Mixtral-8x7B sparse Mixture-of-Experts モデルに適用した命令微調整の有効性を実証研究により検証した。 この研究は、スパースなエキスパート混合モデルにおける命令の微調整の実行において先駆的であり、このモデルアーキテクチャの能力向上において重要なブレークスルーとなった。 私たちのコード、データ、モデルはhttps://github.com/wangrongsheng/auroraで公開されている。

Existing research has demonstrated that refining large language models (LLMs) through the utilization of machine-generated instruction-following data empowers these models to exhibit impressive zero-shot capabilities for novel tasks, without requiring human-authored instructions. In this paper, we systematically investigate, preprocess, and integrate three Chinese instruction-following datasets with the aim of enhancing the Chinese conversational capabilities of Mixtral-8x7B sparse Mixture-of-Experts model. Through instruction fine-tuning on this carefully processed dataset, we successfully construct the Mixtral-8x7B sparse Mixture-of-Experts model named "Aurora." To assess the performance of Aurora, we utilize three widely recognized benchmark tests: C-Eval, MMLU, and CMMLU. Empirical studies validate the effectiveness of instruction fine-tuning applied to Mixtral-8x7B sparse Mixture-of-Experts model. This work is pioneering in the execution of instruction fine-tuning on a sparse expert-mixed model, marking a significant breakthrough in enhancing the capabilities of this model architecture. Our code, data and model are publicly available at https://github.com/WangRongsheng/Aurora
翻訳日:2024-01-02 20:23:11 公開日:2024-01-01
# Bandit-based Large Neborhood Search を用いた適応型任意のマルチエージェント経路探索

Adaptive Anytime Multi-Agent Path Finding Using Bandit-Based Large Neighborhood Search ( http://arxiv.org/abs/2312.16767v2 )

ライセンス: Link先を確認
Thomy Phan, Taoan Huang, Bistra Dilkina, Sven Koenig(参考訳) anytime multi-agent path finding (mapf) は大規模マルチエージェントシステムにおけるスケーラブルパス最適化への有望なアプローチである。 MAPFはLarge Neighborhood Search (LNS)に基づいており、高速な初期解は、ランダム化された破壊ヒューリスティック(英語版)と優先順位付けされた計画を用いて、一定数の部品を破壊・修復することで反復的に最適化される。 近年のMAPFインスタンスの成功にもかかわらず、現在のLSSベースのアプローチでは探索と柔軟性が欠如している。 これまでのところ、これらの制限は、実際の計画を超えて、チューニングやオフラインの機械学習に先立って取り組まれてきた。 本稿では,LNSにおけるオンライン学習に着目し,BALANCE(Adaptive LArge Neighborhood Search with Exploration)を提案する。 BALANCEは、二段式マルチアームバンディットスキームを使用して、探索中のフライ時の破壊ヒューリスティックと近傍サイズの選択に適応する。 我々はMAPFベンチマークセットから複数の地図上でのBALANCEを評価し、大規模シナリオにおける最先端のMAPFと比較して、少なくとも50%のコスト改善を実証的に実証した。 我々は、トンプソンサンプリングが、代替のマルチアームバンディットアルゴリズムと比較して特に優れていることを発見した。

Anytime multi-agent path finding (MAPF) is a promising approach to scalable path optimization in large-scale multi-agent systems. State-of-the-art anytime MAPF is based on Large Neighborhood Search (LNS), where a fast initial solution is iteratively optimized by destroying and repairing a fixed number of parts, i.e., the neighborhood, of the solution, using randomized destroy heuristics and prioritized planning. Despite their recent success in various MAPF instances, current LNS-based approaches lack exploration and flexibility due to greedy optimization with a fixed neighborhood size which can lead to low quality solutions in general. So far, these limitations have been addressed with extensive prior effort in tuning or offline machine learning beyond actual planning. In this paper, we focus on online learning in LNS and propose Bandit-based Adaptive LArge Neighborhood search Combined with Exploration (BALANCE). BALANCE uses a bi-level multi-armed bandit scheme to adapt the selection of destroy heuristics and neighborhood sizes on the fly during search. We evaluate BALANCE on multiple maps from the MAPF benchmark set and empirically demonstrate cost improvements of at least 50% compared to state-of-the-art anytime MAPF in large-scale scenarios. We find that Thompson Sampling performs particularly well compared to alternative multi-armed bandit algorithms.
翻訳日:2024-01-02 19:55:41 公開日:2024-01-01
# 平均場下界ランゲヴィンダイナミクスとその時空間離散化

Mean-field Underdamped Langevin Dynamics and its Space-Time Discretization ( http://arxiv.org/abs/2312.16360v2 )

ライセンス: Link先を確認
Qiang Fu, Ashia Wilson(参考訳) 確率測度空間上で定義された非線形汎函数の特殊クラスを最適化するN-粒子アンダーダム化ランゲヴィンアルゴリズムを提案する。 この定式化に関する問題の例としては、平均場状態におけるニューラルネットワークのトレーニング、密度推定、カーネルスタインの差分最小化などがある。 我々のアルゴリズムは、平均場下にあるランゲヴィン力学の空間的離散化に基づいており、新しい高速混合保証を提供する。 さらに,本アルゴリズムは全変動距離においてグローバルに収束し,ダイナミクスと実用的実装との理論的ギャップを橋渡しすることを示した。

We propose a new method called the N-particle underdamped Langevin algorithm for optimizing a special class of non-linear functionals defined over the space of probability measures. Examples of problems with this formulation include training neural networks in the mean-field regime, density estimation, and kernel Stein discrepancy minimization. Our algorithm is based on a novel space-time discretization of the mean-field underdamped Langevin dynamics, for which we provide a new, fast mixing guarantee. In addition, we demonstrate that our algorithm converges globally in total variation distance, bridging the theoretical gap between the dynamics and its practical implementation.
翻訳日:2024-01-02 19:51:42 公開日:2024-01-01
# FENet:レーン検出のための拡張ネットワーク

FENet: Focusing Enhanced Network for Lane Detection ( http://arxiv.org/abs/2312.17163v2 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong(参考訳) 人間の運転に着想を得たこの研究は、サンプリング、部分的な視野評価、fpnアーキテクチャの強化、指向性iou損失といった、自動運転のための正確な車線検出のための障害に対処するイノベーションをターゲットとしたネットワークの先駆者である。 実験では,一様アプローチと異なり,重要な遠方的詳細を強調する,集中的サンプリング戦略を実証し,安全に不可欠なベンチマークと実用的カーブ・ディスタント車線認識精度を著しく向上させた。 FENetV1は、ドライバービジョンを模倣する視点認識コンテキストを分離することで、最先端の従来のメトリックパフォーマンスを達成するが、FENetV2は提案された部分フィールド分析において最も信頼性が高いことを証明している。 したがって、標準的な全画像測定値の低下にもかかわらず、実用的なレーンナビゲーションにはv2を特に推奨する。 今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。 コードは利用可能になる。

Inspired by human driving focus, this research pioneers networks augmented with Focusing Sampling, Partial Field of View Evaluation, Enhanced FPN architecture and Directional IoU Loss - targeted innovations addressing obstacles to precise lane detection for autonomous driving. Experiments demonstrate our Focusing Sampling strategy, emphasizing vital distant details unlike uniform approaches, significantly boosts both benchmark and practical curved/distant lane recognition accuracy essential for safety. While FENetV1 achieves state-of-the-art conventional metric performance via enhancements isolating perspective-aware contexts mimicking driver vision, FENetV2 proves most reliable on the proposed Partial Field analysis. Hence we specifically recommend V2 for practical lane navigation despite fractional degradation on standard entire-image measures. Future directions include collecting on-road data and integrating complementary dual frameworks to further breakthroughs guided by human perception principles. Code will be made available.
翻訳日:2024-01-02 19:08:05 公開日:2024-01-01
# 正規表現を用いたリトアニア語の正規化

Normalization of Lithuanian Text Using Regular Expressions ( http://arxiv.org/abs/2312.17660v2 )

ライセンス: Link先を確認
Pijus Kasparaitis(参考訳) テキスト正規化は、音声合成システムにおいて不可欠な部分である。 自然言語のテキストには、数、日付、略語など他の記号類に属する要素がある。 これらは非標準語(NSW)と呼ばれ、通常の語に拡張する必要がある。 この目的のためには、各NSWのセミオティッククラスを特定する必要がある。 リトアニア語に適応したセミオティッククラスの分類が本書で提示されている。 nswsを正規表現に基づいて検出および拡張するためのルールセットが作成される。 3つの全く異なるデータセットで実験を行い、精度を評価した。 誤りの原因は説明され、テキスト正規化ルールの開発に推奨される。

Text Normalization is an integral part of any text-to-speech synthesis system. In a natural language text, there are elements such as numbers, dates, abbreviations, etc. that belong to other semiotic classes. They are called non-standard words (NSW) and need to be expanded into ordinary words. For this purpose, it is necessary to identify the semiotic class of each NSW. The taxonomy of semiotic classes adapted to the Lithuanian language is presented in the work. Sets of rules are created for detecting and expanding NSWs based on regular expressions. Experiments with three completely different data sets were performed and the accuracy was assessed. Causes of errors are explained and recommendations are given for the development of text normalization rules.
翻訳日:2024-01-02 12:51:17 公開日:2024-01-01