このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240228となっている論文です。

PDF登録状況(公開日: 20240228)

TitleAuthorsAbstract論文公表日・翻訳日
# ソーシャルインテリジェンスデータ基盤 - 現状の構築と未来への旅

Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future ( http://arxiv.org/abs/2403.14659v1 )

ライセンス: Link先を確認
Minzhi Li, Weiyan Shi, Caleb Ziems, Diyi Yang, (参考訳) 自然言語処理(NLP)システムが人間の社会生活にますます統合されるにつれて、これらの技術は社会的知性にますます依存する必要がある。 ソーシャルインテリジェンスの孤立した次元をベンチマークする貴重なデータセットは数多く存在するが、これらのスレッドを結束したサブフィールドに結合する作業は、研究者が研究のギャップや今後の方向性を素早く特定できるような、まだ存在しない。 この目標に向けて、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築します。 インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。 我々の分析は、現在のデータランドスケープを徹底的に理解し、将来のデータセット開発における潜在的な方向性に関する総合的な視点を提供する上で、その有用性を実証している。 多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。

As Natural Language Processing (NLP) systems become increasingly integrated into human social life, these technologies will need to increasingly rely on social intelligence. Although there are many valuable datasets that benchmark isolated dimensions of social intelligence, there does not yet exist any body of work to join these threads into a cohesive subfield in which researchers can quickly identify research gaps and future directions. Towards this goal, we build a Social AI Data Infrastructure, which consists of a comprehensive social AI taxonomy and a data library of 480 NLP datasets. Our infrastructure allows us to analyze existing dataset efforts, and also evaluate language models' performance in different social intelligence aspects. Our analyses demonstrate its utility in enabling a thorough understanding of current data landscape and providing a holistic perspective on potential directions for future dataset development. We show there is a need for multifaceted datasets, increased diversity in language and culture, more long-tailed social situations, and more interactive data in future social intelligence data efforts.
翻訳日:2024-04-01 03:43:10 公開日:2024-02-28
# Machina Economicus:スマートシティのエネルギーインターネットにおける消費者の新しいパラダイム

Machina Economicus: A New Paradigm for Prosumers in the Energy Internet of Smart Cities ( http://arxiv.org/abs/2403.14660v1 )

ライセンス: Link先を確認
Luyang Hou, Jun Yan, Yuankai Wu, Chun Wang, Tie Qiu, (参考訳) スマートシティにおけるフレキシブルな地域エネルギー供給のための新しいシェアエコノミープラットフォームとして、Energy Internet(EI)が登場している。 EIはIoT(Internet-of-Things)とAI(Artificial Intelligence, 人工知能)を駆使して、プロシューマー間のピアツーピアのエネルギー取引と共有を解き放つことを目的としている。 しかし、EIにおけるプロシューマーの統合は、エネルギー共有のための効率的で経済的、社会的に最適なプラットフォームをモデル化、分析、設計する上で多くの課題に直面するだろう。 本研究では,最近出現したパラダイムであるマキナ・エコノミクスを導入し,AI/IoTベースのEIプロサのモデリング,分析,最適化における経済的合理性を検討することを目的とする。 機械学習とメカニズム設計の理論に基づいて構築されたこの新しいパラダイムは、ゲーム理論の観点からAIの利己性を調査する新たなアングルを提供し、自己適応的な学習と意思決定能力による潜在的な競争と協力を明らかにする。 この研究は、AIの導入がEIにおける消費者行動をどのように変え、このパラダイムがAIがシェアエコノミーと出会う際の新たな研究課題や方向性を明らかにするかに焦点を当てる。 文献で広範なケース分析を行うことで、将来のスマートシティにおけるAIの進歩に対する潜在的な解決策も明らかにする。

Energy Internet (EI) is emerging as new share economy platform for flexible local energy supplies in smart cities. Empowered by the Internet-of-Things (IoT) and Artificial Intelligence (AI), EI aims to unlock peer-to-peer energy trading and sharing among prosumers, who can adeptly switch roles between providers and consumers in localized energy markets with rooftop photovoltaic panels, vehicle-to-everything technologies, packetized energy management, etc. The integration of prosumers in EI, however, will encounter many challenges in modelling, analyzing, and designing an efficient, economic, and social-optimal platform for energy sharing, calling for advanced AI/IoT-based solutions to resource optimization, information exchange, and interaction protocols in the context of the share economy. In this study, we aim to introduce a recently emerged paradigm, Machina Economicus, to investigate the economic rationality in modelling, analysis, and optimization of AI/IoT-based EI prosumer behaviors. The new paradigm, built upon the theory of machine learning and mechanism design, will offer new angles to investigate the selfishness of AI through a game-theoretic perspective, revealing potential competition and collaborations resulting from the self-adaptive learning and decision-making capacity. This study will focus on how the introduction of AI will reshape prosumer behaviors on the EI, and how this paradigm will reveal new research questions and directions when AI meets the share economy. With an extensive case analysis in the literature, we will also shed light on potential solutions for advancements of AI in future smart cities.
翻訳日:2024-04-01 03:43:10 公開日:2024-02-28
# 計算グラフとしてのファインマン図

Feynman Diagrams as Computational Graphs ( http://arxiv.org/abs/2403.18840v1 )

ライセンス: Link先を確認
Pengcheng Hou, Tao Wang, Daniel Cerkoney, Xiansheng Cai, Zhiyi Li, Youjin Deng, Lei Wang, Kun Chen, (参考訳) 本稿では,空間,時間,運動量,周波数領域の任意の組み合わせに適用可能な量子場理論(QFT)における高階ファインマン図の計算グラフ表現を提案する。 ダイソン=シュウィンガー方程式とパーケ方程式を用いることで、これらの図をテンソル演算のフラクタル構造に効果的に整理し、計算冗長性を著しく低減する。 このアプローチは、複素図式の評価を効率化するだけでなく、摂動QFT計算の強化に不可欠な場の理論的再正規化スキームの効率的な実装を促進する。 この進歩の鍵となるのはテイラーモード自動微分(Taylor-mode Automatic differentiation)の統合である。 これらの概念を運用するために、機械学習フレームワークを利用して、様々な計算プラットフォーム向けにダイアグラムを最適化するFeynmanダイアグラムコンパイラを開発した。 この手法の有効性を実証し, 半粒子有効質量を金属密度で計算する際, 前例のない精度で3次元均一電子ガス問題に適用する。 我々の研究は、QFTと機械学習の相乗効果を実証し、複雑な量子多体問題にAI技術を適用するための新たな道を確立する。

We propose a computational graph representation of high-order Feynman diagrams in Quantum Field Theory (QFT), applicable to any combination of spatial, temporal, momentum, and frequency domains. Utilizing the Dyson-Schwinger and parquet equations, our approach effectively organizes these diagrams into a fractal structure of tensor operations, significantly reducing computational redundancy. This approach not only streamlines the evaluation of complex diagrams but also facilitates an efficient implementation of the field-theoretic renormalization scheme, crucial for enhancing perturbative QFT calculations. Key to this advancement is the integration of Taylor-mode automatic differentiation, a key technique employed in machine learning packages to compute higher-order derivatives efficiently on computational graphs. To operationalize these concepts, we develop a Feynman diagram compiler that optimizes diagrams for various computational platforms, utilizing machine learning frameworks. Demonstrating this methodology's effectiveness, we apply it to the three-dimensional uniform electron gas problem, achieving unprecedented accuracy in calculating the quasiparticle effective mass at metal density. Our work demonstrates the synergy between QFT and machine learning, establishing a new avenue for applying AI techniques to complex quantum many-body problems.
翻訳日:2024-04-01 02:25:04 公開日:2024-02-28
# ストリーミング社会選択理論による公正秩序

Fair Ordering via Streaming Social Choice Theory ( http://arxiv.org/abs/2304.02730v3 )

ライセンス: Link先を確認
Geoffrey Ramseyer, Ashish Goel, (参考訳) 以前の研究は、複製された状態マシンで'`fairly'の順序付けトランザクションの問題を研究していた。 n$のレプリカはそれぞれ、おそらく異なる順序でトランザクションを受け取り、システムは観測された順序を単一の順序に集約しなければならない。 この問題は、(選好集約問題において)候補者のランクが選挙結果に集約される社会選択理論のレンズを通して、最もよく見られていると論じる。 2つの特徴がこの問題を新しくする。 まず、トランザクションの数は非有界であり、順序付けは数え切れない無限集合上で定義されなければならない。 第二に、意思決定は、部分的な情報だけで迅速に行う必要があります。 さらに、いくつかの欠陥のあるレプリカは、報告された観察を変更できるかもしれない。 先行研究は ``$\gamma$-batch-order-fairness'' プロパティを研究し、注文を連続したバッチに分割する。 レプリカの$\gamma$が$\tau$の前に$\tau^\prime$を受け取るなら、$\tau^\prime$は$\tau$よりも早いバッチには入らない。 この定義を強化して、バッチのサイズが最小限であること("\gamma$-batch-order-fairness can be vacuously satisfied by large batchs")と、障害のあるレプリカの可能性を考慮する。 この社会的選択レンズは、前よりも厳密な公正性と生活性を持つ注文プロトコルを可能にする。 ランク付きペア法について検討する。 欠落した情報がアルゴリズムを通してどのように動くかを分析することで、ストリーミングバージョンはいつトランザクションを出力できるかを知ることができる。 整合性ルールの復号化により,アルゴリズムは(同期ネットワーク上で)有界時間後にトランザクションを出力する。 以前の作業では、$\gamma$ の固定された選択と、失敗するレプリカの数に縛られる $f$ に依存していたが、我々のアルゴリズムは、すべての $\frac{1}{2}<\gamma\leq 1$ と任意の $f$ に対して我々の定義を満たす。

Prior work studies the question of ``fairly'' ordering transactions in a replicated state machine. Each of $n$ replicas receives transactions in a possibly different order, and the system must aggregate the observed orderings into a single order. We argue that this problem is best viewed through the lens of social choice theory, in which (in the preference aggregation problem) rankings on candidates are aggregated into an election result. Two features make this problem novel. First, the number of transactions is unbounded, and an ordering must be defined over a countably infinite set. And second, decisions must be made quickly, with only partial information. Additionally, some faulty replicas might alter their reported observations; their influence on the output should be bounded and well understood. Prior work studies a ``$\gamma$-batch-order-fairness'' property, which divides an ordering into contiguous batches. If a $\gamma$ fraction of replicas receive $\tau$ before $\tau^\prime$, then $\tau^\prime$ cannot be in an earlier batch than $\tau$. We strengthen this definition to require that batches have minimal size ($\gamma$-batch-order-fairness can be vacuously satisfied by large batches) while accounting for the possibility of faulty replicas. This social choice lens enables an ordering protocol with strictly stronger fairness and liveness properties than prior work. We study the Ranked Pairs method. Analysis of how missing information moves through the algorithm allows our streaming version to know when it can output a transaction. Deliberate construction of a tiebreaking rule ensures our algorithm outputs a transaction after a bounded time (in a synchronous network). Prior work relies on a fixed choice of $\gamma$ and bound on the number of faulty replicas $f$, but our algorithm satisfies our definition for every $\frac{1}{2}<\gamma\leq 1$ simultaneously and for any $f$.
翻訳日:2024-03-19 07:51:44 公開日:2024-02-28
# 地域差分プライベートコア分解法とデンストグラフのためのタイターバウンド

Tighter Bounds for Local Differentially Private Core Decomposition and Densest Subgraph ( http://arxiv.org/abs/2402.18020v1 )

ライセンス: Link先を確認
Monika Henzinger, A. R. Sricharan, Leqi Zhu, (参考訳) グラフのコア分解を計算することは、データマイニングの実践的応用によって動機付けられた微分プライベートな環境で最近研究されている基本的な問題である。 特に、Dhulipala et al [FOCS 2022]は、局所的な差分プライバシーの挑戦的で実践的に関係のある設定において、コア分解を近似するための最初のメカニズムを与えた。 彼らの研究で残された主要な問題の一つは、そのメカニズムの精度、すなわち近似比と加法誤差を改善することができるかどうかである。 偏微分プライバシの集中モデルと局所モデルにおいて、近似的および正確なコア分解機構の加算誤差に関する第1下位境界をそれぞれ示す。 また、局所モデルにおいて、ほぼ一致する加法誤差境界を持つ完全かつ近似的なコア分解の機構を与える。 我々のメカニズムは連続的な数え上げのブラックボックスの応用に基づいている。 また、局所モデルにおける近似的な高密度部分グラフ問題のメカニズムも改善した。

Computing the core decomposition of a graph is a fundamental problem that has recently been studied in the differentially private setting, motivated by practical applications in data mining. In particular, Dhulipala et al. [FOCS 2022] gave the first mechanism for approximate core decomposition in the challenging and practically relevant setting of local differential privacy. One of the main open problems left by their work is whether the accuracy, i.e., the approximation ratio and additive error, of their mechanism can be improved. We show the first lower bounds on the additive error of approximate and exact core decomposition mechanisms in the centralized and local model of differential privacy, respectively. We also give mechanisms for exact and approximate core decomposition in the local model, with almost matching additive error bounds. Our mechanisms are based on a black-box application of continual counting. They also yield improved mechanisms for the approximate densest subgraph problem in the local model.
翻訳日:2024-03-18 06:59:15 公開日:2024-02-28
# FPGA上でベンチマークしたModular Exponentiation Targeting Cryptographic Applicationsのための効率的な故障検出アーキテクチャ

Efficient Fault Detection Architectures for Modular Exponentiation Targeting Cryptographic Applications Benchmarked on FPGAs ( http://arxiv.org/abs/2402.18033v1 )

ライセンス: Link先を確認
Saeed Aghapour, Kasra Ahmadi, Mehran Mozaffari Kermani, Reza Azarderakhsh, (参考訳) 悪意のある意図であれ、自然発生であれ、欠陥やエラーであれ、あらゆるアーキテクチャの信頼性を著しく損なう可能性がある。 この課題に対して、障害検出は、セキュアな暗号システムのデプロイを保証する上で、重要な役割を担っている。 暗号システムが数学的セキュリティを誇っているとしても、その実践的実装はサイドチャネル攻撃による搾取に影響を受けやすい。 本稿では,古典暗号からポスト量子暗号にまたがる多数の暗号アプリケーションのビルディングブロックである,モジュラー指数に適した軽量な故障検出アーキテクチャを提案する。 ARM Cortex-A72プロセッサとAMD/Xilinx Zynq Ultrascale+,Artix-7 FPGAのシミュレーションと実装結果に基づいて,本手法は,非保護アーキテクチャと比較して計算オーバーヘッドが約7%,面積オーバーヘッドが1%未満であるのに対して,100%に近い誤差検出率を実現する。 我々の知る限りでは、ARMプロセッサとFPGAをベンチマークしたそのようなアプローチは提案されておらず、現在まで評価されている。

Whether stemming from malicious intent or natural occurrences, faults and errors can significantly undermine the reliability of any architecture. In response to this challenge, fault detection assumes a pivotal role in ensuring the secure deployment of cryptosystems. Even when a cryptosystem boasts mathematical security, its practical implementation may remain susceptible to exploitation through side-channel attacks. In this paper, we propose a lightweight fault detection architecture tailored for modular exponentiation, a building block of numerous cryptographic applications spanning from classical cryptography to post quantum cryptography. Based on our simulation and implementation results on ARM Cortex-A72 processor, and AMD/Xilinx Zynq Ultrascale+, and Artix-7 FPGAs, our approach achieves an error detection rate close to 100%, all while introducing a modest computational overhead of approximately 7% and area overhead of less than 1% compared to the unprotected architecture. To the best of our knowledge, such an approach benchmarked on ARM processor and FPGA has not been proposed and assessed to date.
翻訳日:2024-03-18 06:59:15 公開日:2024-02-28
# パブリックパーミッションレスブロックチェーンのパフォーマンスモデリング:サーベイ

Performance modeling of public permissionless blockchains: A survey ( http://arxiv.org/abs/2402.18049v1 )

ライセンス: Link先を確認
Molud Esmaili, Ken Christensen, (参考訳) パブリックなパーミッションレスブロックチェーンは、ピアツーピアのデジタルトランザクションを促進するが、トランザクション毎のエネルギーと時間消費を減らすためにトランザクション確認時間を最小化する、というパフォーマンス上の課題に直面している。 パフォーマンス評価と予測は、これらのブロックチェーンの評価にまつわる複雑さにもかかわらず、パフォーマンスモデリングを重要なソリューションとして、この目標を達成する上で不可欠である。 この調査では、パフォーマンスモデリングブロックチェーンシステムに関する以前の研究について、特にパブリックなパーミッションレスブロックチェーンに焦点を当てている。 最初は、これらのブロックチェーンに関する基礎的な知識と、それらの評価にとって重要なパフォーマンスパラメータを提供する。 さらに、この研究は、パブリックなパーミッションレスブロックチェーンのパフォーマンスモデリングの研究に力を入れており、主にこれらのシステムをバルクサービスキューとして検討している。 また、これらのブロックチェーンネットワーク内のワークロードとトラフィックモデリング、キャラクタリゼーション、分析に関する以前の研究についても検討している。 既存の研究を分析して、パブリックなパーミッションレスブロックチェーンのパフォーマンス向上や、この領域における新しいメカニズムの創出に関心のある研究者に、洞察とレコメンデーションを提供することを目的としている。

Public permissionless blockchains facilitate peer-to-peer digital transactions, yet face performance challenges specifically minimizing transaction confirmation time to decrease energy and time consumption per transaction. Performance evaluation and prediction are crucial in achieving this objective, with performance modeling as a key solution despite the complexities involved in assessing these blockchains. This survey examines prior research concerning the performance modeling blockchain systems, specifically focusing on public permissionless blockchains. Initially, it provides foundational knowledge about these blockchains and the crucial performance parameters for their assessment. Additionally, the study delves into research on the performance modeling of public permissionless blockchains, predominantly considering these systems as bulk service queues. It also examines prior studies on workload and traffic modeling, characterization, and analysis within these blockchain networks. By analyzing existing research, our survey aims to provide insights and recommendations for researchers keen on enhancing the performance of public permissionless blockchains or devising novel mechanisms in this domain.
翻訳日:2024-03-18 06:59:15 公開日:2024-02-28
# チャレンジ応答を用いたディープフェイク音声のAIによるタグ付け

AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response ( http://arxiv.org/abs/2402.18085v1 )

ライセンス: Link先を確認
Govind Mittal, Arthur Jakobsson, Kelly O. Marshall, Chinmay Hegde, Nasir Memon, (参考訳) Scammersは、音声リアルタイムディープフェイク(RTDF)の出現により、AI音声の閉鎖技術を社会工学的攻撃に積極的に活用している。 RTDFは電話でターゲットの声をリアルタイムでクローンできるので、対話性が高く、はるかに説得力がある。 本研究は,RTDFの脅威に対してほとんど有効ではないディープフェイク検出に関する既存の文献のギャップを確実に解決するものである。 我々は、ディープフェイク音声通話を検出するための頑健なチャレンジ応答方式を導入し、オーディオ課題の包括的分類を開拓した。 本評価では,先行する音声閉鎖システムに対して,今後20の課題を提起する。 私たちは、100人のスマートフォンとデスクトップユーザのコントリビューションによって、新しいオープンソースのチャレンジデータセットをコンパイルしました。 このデータセットの厳密なマシンと人間による評価により,深度検出率86%,AUCスコア80%を達成できた。 特に、11の課題のセットを利用すると、検出能力が大幅に向上する。 人間の直感と機械の精度の組み合わせは相補的な優位性をもたらすことが明らかとなった。 そこで我々は,人間の認識をアルゴリズムの精度で融合させ,最終的な関節の精度を82.9%に向上させる,革新的な人間-AI協調システムを開発した。 このシステムは、呼び出し検証プロセスにおけるAIによる事前スクリーニングの大きな利点を強調している。 サンプルはhttps://mittalgovind.github.io/autch-samples/で確認できる。

Scammers are aggressively leveraging AI voice-cloning technology for social engineering attacks, a situation significantly worsened by the advent of audio Real-time Deepfakes (RTDFs). RTDFs can clone a target's voice in real-time over phone calls, making these interactions highly interactive and thus far more convincing. Our research confidently addresses the gap in the existing literature on deepfake detection, which has largely been ineffective against RTDF threats. We introduce a robust challenge-response-based method to detect deepfake audio calls, pioneering a comprehensive taxonomy of audio challenges. Our evaluation pitches 20 prospective challenges against a leading voice-cloning system. We have compiled a novel open-source challenge dataset with contributions from 100 smartphone and desktop users, yielding 18,600 original and 1.6 million deepfake samples. Through rigorous machine and human evaluations of this dataset, we achieved a deepfake detection rate of 86% and an 80% AUC score, respectively. Notably, utilizing a set of 11 challenges significantly enhances detection capabilities. Our findings reveal that combining human intuition with machine precision offers complementary advantages. Consequently, we have developed an innovative human-AI collaborative system that melds human discernment with algorithmic accuracy, boosting final joint accuracy to 82.9%. This system highlights the significant advantage of AI-assisted pre-screening in call verification processes. Samples can be heard at https://mittalgovind.github.io/autch-samples/
翻訳日:2024-03-18 06:59:15 公開日:2024-02-28
# ChatSpamDetector: 効率的なフィッシングメール検出のための大規模言語モデルを活用する

ChatSpamDetector: Leveraging Large Language Models for Effective Phishing Email Detection ( http://arxiv.org/abs/2402.18093v1 )

ライセンス: Link先を確認
Takashi Koide, Naoki Fukushi, Hiroki Nakano, Daiki Chiba, (参考訳) フィッシングサイトやメールの普及は、既存のサイバーセキュリティ活動に重大な課題をもたらしている。 スパムフィルターやメールセキュリティプロトコルの進歩にもかかわらず、監視と偽陽性の問題は続いている。 ユーザーは、メールがスパムとしてフラグ付けされている理由を理解するのに苦労し、重要なコミュニケーションの欠如や、誤ってフィッシングメールを信用するリスクを負う。 本研究では,大規模な言語モデル(LLM)を用いてフィッシングメールを検出するシステムChatSpamDetectorを紹介する。 LLM解析に適したプロンプトに電子メールデータを変換することにより、電子メールがフィッシングされているか否かを高精度に判定する。 重要なことは、フィッシングの判断の詳細な理由を提供し、不審なメールの扱い方に関する決定をユーザーが下すのを助けることだ。 総合的なフィッシングメールデータセットを用いて評価を行い,複数のLLMおよびベースラインシステムと比較した。 我々は,GPT-4を用いたシステムは,99.70%の精度で優れた検出能力を有することを確認した。 LLMによる高度な文脈解釈により、様々なフィッシング戦術と偽装の識別が可能となり、電子メールベースのフィッシング脅威との戦いにおいて潜在的に強力なツールとなる。

The proliferation of phishing sites and emails poses significant challenges to existing cybersecurity efforts. Despite advances in spam filters and email security protocols, problems with oversight and false positives persist. Users often struggle to understand why emails are flagged as spam, risking the possibility of missing important communications or mistakenly trusting phishing emails. This study introduces ChatSpamDetector, a system that uses large language models (LLMs) to detect phishing emails. By converting email data into a prompt suitable for LLM analysis, the system provides a highly accurate determination of whether an email is phishing or not. Importantly, it offers detailed reasoning for its phishing determinations, assisting users in making informed decisions about how to handle suspicious emails. We conducted an evaluation using a comprehensive phishing email dataset and compared our system to several LLMs and baseline systems. We confirmed that our system using GPT-4 has superior detection capabilities with an accuracy of 99.70%. Advanced contextual interpretation by LLMs enables the identification of various phishing tactics and impersonations, making them a potentially powerful tool in the fight against email-based phishing threats.
翻訳日:2024-03-18 06:59:15 公開日:2024-02-28
# DeFiにおける暗号型オーバーコレイダライズ安定誘導体のモデル化と解析

Modeling and Analysis of Crypto-Backed Over-Collateralized Stable Derivatives in DeFi ( http://arxiv.org/abs/2402.18119v1 )

ライセンス: Link先を確認
Zhenbang Feng, Hardhik Mohanty, Bhaskar Krishnamachari, (参考訳) 分散型金融(DeFi)では、DAIのような安定型コインは、暗号通貨の変動する性質の中で安定した価値を提供するように設計されている。 本稿では,暗号支援型安定誘導体のクラスについて検討し,価格安定化のメカニズムに着目した上で,MakerDAOの有名な安定型DAIを例示する。 シンプルさのため、私たちはシングルコラテラル設定に重点を置いています。 本稿では,従来のDAIのシミュレーションモデル(DAISIM)に信念パラメータを導入し,DAIの価値と安定性に対する市場の感想を反映し,このパラメータが十分に高い値に設定された場合の期待行動とよく一致することを示す。 また、その安定性とETH価格依存性を説明するために、DAI価格の簡単な数学的モデルを提案する。 最後に、これらの安定なデリバティブに関連する潜在的なリスク要因を分析し、DeFiエコシステムのステークホルダーに貴重な洞察を提供する。

In decentralized finance (DeFi), stablecoins like DAI are designed to offer a stable value amidst the fluctuating nature of cryptocurrencies. We examine the class of crypto-backed stable derivatives, with a focus on mechanisms for price stabilization, which is exemplified by the well-known stablecoin DAI from MakerDAO. For simplicity, we focus on a single-collateral setting. We introduce a belief parameter to the simulation model of DAI in a previous work (DAISIM), reflecting market sentiments about the value and stability of DAI, and show that it better matches the expected behavior when this parameter is set to a sufficiently high value. We also propose a simple mathematical model of DAI price to explain its stability and dependency on ETH price. Finally, we analyze possible risk factors associated with these stable derivatives to provide valuable insights for stakeholders in the DeFi ecosystem.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-28
# VulMCI : より連続的な脆弱性画像生成のためのコードスプリシングに基づくPixel-rowオーバーサンプリング

VulMCI : Code Splicing-based Pixel-row Oversampling for More Continuous Vulnerability Image Generation ( http://arxiv.org/abs/2402.18189v1 )

ライセンス: Link先を確認
Tao Peng, Ling Gui, Yi Sun, (参考訳) 近年、ディープラーニング技術の急速な発展は、脆弱性検出の分野に新たな展望をもたらしている。 多くの脆弱性検出方法は、ソースコードを画像に変換することで検出するが、生成された画像の品質を見落としてしまうことが多い。 脆弱性画像には明瞭で連続的な輪郭がないため、オブジェクト検出で使用される画像とは異なり、畳み込みとプーリングプロセスの間、畳み込みニューラルネットワーク(CNN)は意味情報を失う傾向がある。 そこで本研究では,コード画像のカラー化における不連続性の問題に対処するため,コード行の連結に基づく画素行オーバーサンプリング手法を提案し,脆弱性検出システムVulMCIを提案し,SARDおよびNVDデータセット上でテストを実行する。 実験の結果、VulMCIは7つの最先端の脆弱性検知器(Checkmarx、FlawFinder、RATS、VulDeePecker、SySeVR、VulCNN、Devign)を上回っている。 他の画像ベースの手法と比較して、VulMCIはTrue Positive Rate (TPR)の2.877 %、True Negative Rate (TNR)の5.446 %、精度(ACC)の5.91 %といった様々な指標の改善を示している。 NVD実世界のデータセットでは、VulMCIは平均精度5.162\%に達し、実際の脆弱性検出アプリケーションでその価値を確認する。

In recent years, the rapid development of deep learning technology has brought new prospects to the field of vulnerability detection. Many vulnerability detection methods involve converting source code into images for detection, yet they often overlook the quality of the generated images. Due to the fact that vulnerability images lack clear and continuous contours, unlike images used in object detection, Convolutional Neural Networks (CNNs) tend to lose semantic information during the convolution and pooling processes. Therefore, this paper proposes a pixel row oversampling method based on code line concatenation to generate more continuous code features, addressing the issue of discontinuity in code image coloration.Building upon these contributions, we propose the vulnerability detection system VulMCI and conduct tests on the SARD and NVD datasets. Experimental results demonstrate that VulMCI outperforms seven state-of-the-art vulnerability detectors (namely Checkmarx, FlawFinder, RATS, VulDeePecker, SySeVR, VulCNN, and Devign). Compared to other image-based methods, VulMCI shows improvements in various metrics, including a 2.877\% increase in True Positive Rate (TPR), a 5.446\% increase in True Negative Rate (TNR), and a 5.91\% increase in Accuracy (ACC). On the NVD real-world dataset, VulMCI achieves an average accuracy of 5.162\%, confirming its value in practical vulnerability detection applications.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-28
# ハイパートラヒックウェブサイトホームページにおけるブロークリンクの有病率の定量化とモデル化

Quantification and Modeling of Broken Links Prevalence in Hyper Traffic Websites Homepages ( http://arxiv.org/abs/2402.18301v1 )

ライセンス: Link先を確認
Ronan Mouchoux, Laurent Moulin, Nicolas Striebig, (参考訳) ウェブサイトの外部リソースの破壊リンクは、サイバーセキュリティとウェブサイトの信頼性に深刻な脅威をもたらす。 ハイジャックされたり、ユーザーのトラフィックを盗んだり、悪意のあるソフトウェアを注入したりできる。 本稿では,現在進行中の研究成果について述べる。 我々は、世界で最も訪問者の多いウェブサイトのホームページにおける外部リソースの障害リンクの頻度に注目した。 この分析は、マジェスティック・ミリオン(Mageestic Million)ランキングから抽出された88万のホームページで実施された。 35,2%は少なくとも1つのリンクが壊れている。 また、これらのリンクが壊れた一般的な原因を特定し、そのようなエラーを防止するためにテストフェーズの不適切な実装を強調します。 外部リンクの分布に関する形式モデルを提供する。 次の研究ステップでは、購入可能な期限切れドメインの継承トラフィックを分析して、壊れたリンクのプライバシーへの影響の可能性を探っている。

Broken links in websites external resources pose a serious threat to cybersecurity and the credibility of websites. They can be hijacked to eavesdrop user traffic or to inject malicious software. In this paper, we present the first result of an ongoing research. We focus on the prevalence of broken links in external resources on home pages of the most visited websites in the world. The analysis was conducted on the top 88 000 homepages extracted from the Majestic Million rankings. 35,2% of them have at least one broken link. We also identify the common causes of these broken links and highlight improper implementation of testing phases to prevent such errors. We provide a formal model for the distribution of external links. At the next research step, we are exploring the potential impact on privacy of broken links by analyzing inherited traffic of purchasable expired domains.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-28
# トーケン型車両セキュリティシステム(TVSS) : スケーラブルでセキュアで低レイテンシな車両用公開鍵基盤

Token-based Vehicular Security System (TVSS): Scalable, Secure, Low-latency Public Key Infrastructure for Connected Vehicles ( http://arxiv.org/abs/2402.18365v1 )

ライセンス: Link先を確認
Abdulrahman Bin Rabiah, Anas Alsoliman, Yugarshi Shashwat, Silas Richelson, Nael Abu-Ghazaleh, (参考訳) 接続された自動運転車は、近い将来、交通システムの安全性と効率を大幅に改善するとともに、汚染を減らす。 これらのシステムは、車両とインフラ間の通信を利用して、多数の安全と効率の運転補助や、完全な自律的なアプリケーションまで提供する。 攻撃者は、通信メッセージを改ざんすることで、動的なシナリオで操作およびスケール可能なセキュリティメカニズムをサポートすることが重要になるなど、様々な方法でこれらのシステムを妥協することができる。 この目的のために,我々は,地域における先行作業(SCMS,米国VPKI交通基準局を含む)を大幅に改善する新しいVPKIシステムであるTVSSを紹介する。 TVSSは、ネットワークの端にある道路インフラの一部である道路側ユニット(RSU)の迅速な検証を可能にするために、忘れられないトークンのアイデアを活用している。 このエッジベースのソリューションは、移動車両とインフラストラクチャ間の潜在的に短い接触時間の間、バックエンドサーバの必要性を回避して、アジャイル認証を可能にする。 1) 大規模認証システムにおけるリコール問題を大幅に単純化し,(2) より高速なリフレッシュ: 車両はシステムとより頻繁に対話し,認証情報を更新し,システムのプライバシを向上させる。 システムの構築を提供し、そのセキュリティを正式に証明します。 車載ユニット(OBU)とRSUからなるテストベッドのフィールド実験では,SCMSに比べてリフレッシュ認証のレイテンシが大幅に低下し,高速移動時の接続窓の小さいシステムでも動作可能となった。 特に,高速道路を走行中に静止RSUを用いて,提案手法のボトルネック操作を行うことができる。

Connected and Autonomous vehicles stand to drastically improve the safety and efficiency of the transportation system in the near future while also reducing pollution. These systems leverage communication to coordinate among vehicles and infrastructure in service of a number of safety and efficiency driver assist and even fully autonomous applications. Attackers can compromise these systems in a number of ways including by falsifying communication messages, making it critical to support security mechanisms that can operate and scale in dynamic scenarios. Towards this end, we present TVSS, a new VPKI system which improves drastically over prior work in the area (including over SCMS; the US department of transportation standard for VPKI). TVSS leverages the idea of unforgeable tokens to enable rapid verification at the road side units (RSUs), which are part of the road infrastructure at the edge of the network. This edge based solution enables agile authentication by avoiding the need for back-end servers during the potentially short contact time between a moving vehicle and the infrastructure. It also results in several security advantages: (1) Scalable Revocation: it greatly simplifies the revocation problem, a difficult problem in large scale certificate systems; and (2) Faster Refresh: Vehicles interact more frequently with the system to refresh their credentials, improving the privacy of the system. We provide a construction of the system and formally prove its security. Field experiments on a test-bed we develop consisting of on-board units (OBUs) and RSUs shows substantial reduction in the latency of refreshing credentials compared to SCMS, allowing the system to work even with smaller window of connectivity when vehicles are moving at higher speeds. Notably, we are able to execute the bottleneck operation of our scheme with a stationary RSU while traveling at highway speeds .
翻訳日:2024-03-18 06:49:31 公開日:2024-02-28
# TrustRate: ハイジャックな匿名レビューのための分散プラットフォーム

TrustRate: A Decentralized Platform for Hijack-Resistant Anonymous Reviews ( http://arxiv.org/abs/2402.18386v1 )

ライセンス: Link先を確認
Rohit Dwivedula, Sriram Sridhar, Sambhav Satija, Muthian Sivathanu, Nishanth Chandran, Divya Gupta, Satya Lokam, (参考訳) ユーザによるレビューや評価は、今日では広く使われているいくつかの製品(製品レビュー、オンラインコンテンツのレーティングなど)において中心的な要素となっているが、今日のレビューを管理するプラットフォームは、ボットによる偽レビューや、動機付けられた有給労働者による偽レビューによって、様々なタイプの改ざんやハイジャックに対してアドホックで脆弱である。 このようなレビュープラットフォームに対して、'hijack-resistance'と呼ばれる新しいメトリクスを定義し、続いて、真正、匿名、改ざん防止のレビューのための、エンドツーエンドの分散されたハイジャック耐性プラットフォームであるTrustRateを紹介します。 数千のノード規模のプロトタイプの実装と評価により、我々は、レビューを管理する単一の組織を信頼することなく、エンドユーザーによる信頼されたレビューに基づく製品開発のための新しいパラダイムに向けて、プラットフォームの有効性と性能を実証する。

Reviews and ratings by users form a central component in several widely used products today (e.g., product reviews, ratings of online content, etc.), but today's platforms for managing such reviews are ad-hoc and vulnerable to various forms of tampering and hijack by fake reviews either by bots or motivated paid workers. We define a new metric called 'hijack-resistance' for such review platforms, and then present TrustRate, an end-to-end decentralized, hijack-resistant platform for authentic, anonymous, tamper-proof reviews. With a prototype implementation and evaluation at the scale of thousands of nodes, we demonstrate the efficacy and performance of our platform, towards a new paradigm for building products based on trusted reviews by end users without having to trust a single organization that manages the reviews.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-28
# Smishing Dataset I: Phishing SMS Dataset from Smishtank.com (英語)

Smishing Dataset I: Phishing SMS Dataset from Smishtank.com ( http://arxiv.org/abs/2402.18430v1 )

ライセンス: Link先を確認
Daniel Timko, Muhammad Lutfor Rahman, (参考訳) スマイシング(SMSフィッシング)攻撃は、最も一般的なソーシャルエンジニアリング攻撃の1つになっているが、関連するスマイシングデータセットがない。 スミッシング防止の領域における最大の課題の1つは、新しいスミッシングデータセットの可用性である。 さらに、時が経つにつれて、スマイシングのキャンペーンが停止され、攻撃に関する重要な情報が失われる。 スマイッシング攻撃の性質の変化に伴い、研究者と技術者の両方が効果的な防御を構築するために、新しいスマイッシング事例の一貫性のある流れが必要である。 本稿では,smishtank.comのコミュニティソースによるスマイッシングデータセットについて述べる。 提出時点でのスマイシングサンプルの分解と分析を通じて、スマイシング攻撃と戦うための豊富な情報を提供する。 本研究の貢献により,このサイトを通じて提出された1090個のスマイッシングサンプルのコーパスを提供する。 各メッセージには、送信者、メッセージ本体、およびメッセージに参照されるすべてのブランドに関する情報が含まれている。 さらに、URLが見つかると、ドメイン、VirusTotalの結果、URLのキャラクタリゼーションに関する追加情報を提供します。 新たなスマイシングデータのオープンアクセスを通じて、この進化する脅威に対する堅牢な防御を構築するために、学界や産業に権限を与えます。

While smishing (SMS Phishing) attacks have risen to become one of the most common types of social engineering attacks, there is a lack of relevant smishing datasets. One of the biggest challenges in the domain of smishing prevention is the availability of fresh smishing datasets. Additionally, as time persists, smishing campaigns are shut down and the crucial information related to the attack are lost. With the changing nature of smishing attacks, a consistent flow of new smishing examples is needed by both researchers and engineers to create effective defenses. In this paper, we present the community-sourced smishing datasets from the smishtank.com. It provides a wealth of information relevant to combating smishing attacks through the breakdown and analysis of smishing samples at the point of submission. In the contribution of our work, we provide a corpus of 1090 smishing samples that have been publicly submitted through the site. Each message includes information relating to the sender, message body, and any brands referenced in the message. Additionally, when a URL is found, we provide additional information on the domain, VirusTotal results, and a characterization of the URL. Through the open access of fresh smishing data, we empower academia and industries to create robust defenses against this evolving threat.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-28
# 適応型レジリエンスを用いた規制ダムのデニアル・オブ・サービス・アタック対策モデル予測制御

Model Predictive Control with adaptive resilience for Denial-of-Service Attacks mitigation on a Regulated Dam ( http://arxiv.org/abs/2402.18516v1 )

ライセンス: Link先を確認
Raffaele Giuseppe Cestari, Stefano Longari, Stefano Zanero, Simone Formentin, (参考訳) 近年,SCADA(Supervisory Control and Data Acquisition)システムがサイバー攻撃の標的となっている。 ウェブベースのアプリケーションは、外部との接続に戦略的インフラを公開するため、SCADAはもはや孤立していない。 サイバー・ウォーフェアの文脈では、適応型レジリエンスを備えたモデル予測制御(MPC)アーキテクチャを提案し、通常の動作条件での制御性能を保証し、必要に応じてDoS攻撃に対するレジリエンスを推進できる。 攻撃者のゴールはシステム損傷を最大化することなので、敵の最適制御問題を解くと仮定する。 次に、適応レジリエンス係数をホークス過程の強度関数の関数として設計し、次の攻撃の戻り時刻を推定するために、移動ウィンドウ上で訓練されたランダムな事象の発生を推定する点過程モデルとする。 本研究では,コモ湖のオルギネートダムにおいて,実データを用いた実システム上での2つの攻撃シナリオにおいて,MPC戦略の有効性を実証する。

In recent years, SCADA (Supervisory Control and Data Acquisition) systems have increasingly become the target of cyber attacks. SCADAs are no longer isolated, as web-based applications expose strategic infrastructures to the outside world connection. In a cyber-warfare context, we propose a Model Predictive Control (MPC) architecture with adaptive resilience, capable of guaranteeing control performance in normal operating conditions and driving towards resilience against DoS (controller-actuator) attacks when needed. Since the attackers' goal is typically to maximize the system damage, we assume they solve an adversarial optimal control problem. An adaptive resilience factor is then designed as a function of the intensity function of a Hawkes process, a point process model estimating the occurrence of random events in time, trained on a moving window to estimate the return time of the next attack. We demonstrate the resulting MPC strategy's effectiveness in 2 attack scenarios on a real system with actual data, the regulated Olginate dam of Lake Como.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-28
# 空間変動を考慮した読み取り外乱防御:実DRAMチップの実験的解析と今後の課題

Spatial Variation-Aware Read Disturbance Defenses: Experimental Analysis of Real DRAM Chips and Implications on Future Solutions ( http://arxiv.org/abs/2402.18652v1 )

ライセンス: Link先を確認
Abdullah Giray Yağlıkçı, Yahya Can Tuğrul, Geraldo F. Oliveira, İsmail Emir Yüksel, Ataberk Olgun, Haocong Luo, Onur Mutlu, (参考訳) 現代のDRAMチップにおける読み取り障害は広範な現象であり、堅牢なシステムを構築するための基本的なビルディングブロックであるメモリアイソレーションの破壊に確実に使用される。 RowHammerとRowPressはDRAMにおける読み取り障害の2つの例である。 残念ながら、ノードサイズを縮小する技術は、世代を重ねてDRAMチップの読み出し障害を悪化させる。 その結果、既存の防御機構は、性能とエネルギーのオーバーヘッド、限られた有効性、あるいは極めて高いハードウェアの複雑さに悩まされている。 本稿では、実際のDRAMチップにおいて、異なるメモリ位置における読み出し障害の空間的変動を利用して、これらの欠点に対処する。 そうするために、私たちは 1)読み出し障害と読み出し障害の空間的変動に関する第1回厳密な実DRAMチップ特性の検討 Sv\"ardは、行レベルの読み取り障害プロファイルに基づいて、既存のソリューションの攻撃性を動的に適応する新しいメカニズムである。 10チップ設計を表す144個の実DDR4 DRAMチップを実験的に評価したところ、メモリの異なる場所で読み出し障害の脆弱性が大きく変動していることが判明した。 1) 最大2倍まで、ビットフリップの数が発生しうる。 2) ビットフリップは、読み出し障害の最小限の脆弱性を持つメモリロケーションと比較して、桁違いに少ないアクセスで発生する可能性がある。 Sv\"ardはこの変化を利用して、5つの最先端の読み取り障害ソリューションのオーバーヘッドを減らし、システム性能を大幅に向上させる。

Read disturbance in modern DRAM chips is a widespread phenomenon and is reliably used for breaking memory isolation, a fundamental building block for building robust systems. RowHammer and RowPress are two examples of read disturbance in DRAM where repeatedly accessing (hammering) or keeping active (pressing) a memory location induces bitflips in other memory locations. Unfortunately, shrinking technology node size exacerbates read disturbance in DRAM chips over generations. As a result, existing defense mechanisms suffer from significant performance and energy overheads, limited effectiveness, or prohibitively high hardware complexity. In this paper, we tackle these shortcomings by leveraging the spatial variation in read disturbance across different memory locations in real DRAM chips. To do so, we 1) present the first rigorous real DRAM chip characterization study of spatial variation of read disturbance and 2) propose Sv\"ard, a new mechanism that dynamically adapts the aggressiveness of existing solutions based on the row-level read disturbance profile. Our experimental characterization on 144 real DDR4 DRAM chips representing 10 chip designs demonstrates a large variation in read disturbance vulnerability across different memory locations: in the part of memory with the worst read disturbance vulnerability, 1) up to 2x the number of bitflips can occur and 2) bitflips can occur at an order of magnitude fewer accesses, compared to the memory locations with the least vulnerability to read disturbance. Sv\"ard leverages this variation to reduce the overheads of five state-of-the-art read disturbance solutions, and thus significantly increases system performance.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-28
# 匿名トランザクションのグラフ解析について

On Defeating Graph Analysis of Anonymous Transactions ( http://arxiv.org/abs/2402.18755v1 )

ライセンス: Link先を確認
Christoph Egger, Russell W. F. Lai, Viktoria Ronge, Ivy K. Y. Woo, Hoover H. F. Yin, (参考訳) リング署名ベースの匿名暗号通貨では、トランザクションのシグナは、リングと呼ばれる潜在的なシグナのセットの中に隠され、そのサイズは全ユーザの数よりもはるかに小さい。 トランザクションの集合によって指定されたリング-メンバーシップ関係は、2部トランザクショングラフを誘導し、その分布は暗号通貨の裏にあるリングサンプリングによって誘導される。 効率的なグラフ解析は、シグナを非匿名化するためにトランザクショングラフ上で行うことができるため、リングサンプリングのグラフ解析に対する耐性を理解することが不可欠である。 特に興味深いのは、分割リングサンプリングのクラスである。 以前の研究では、ほぼ最適な局所匿名性を提供することを示したが、グローバルなグラフベースの攻撃に対する抵抗は明確ではなかった。 本研究では,リングサンプリング器の分割によるトランザクショングラフの解析を行う。 具体的には、(部分的に解析的にも部分的にも経験的にも)、ある驚くべきことに、リングサイズをユーザ数で少なくとも対数的に設定することで、グラフ解析の敵は、デノニマス化においてランダムな推測を行うものよりも2の定数係数まで良くないことを示す。

In a ring-signature-based anonymous cryptocurrency, signers of a transaction are hidden among a set of potential signers, called a ring, whose size is much smaller than the number of all users. The ring-membership relations specified by the sets of transactions thus induce bipartite transaction graphs, whose distribution is in turn induced by the ring sampler underlying the cryptocurrency. Since efficient graph analysis could be performed on transaction graphs to potentially deanonymise signers, it is crucial to understand the resistance of (the transaction graphs induced by) a ring sampler against graph analysis. Of particular interest is the class of partitioning ring samplers. Although previous works showed that they provide almost optimal local anonymity, their resistance against global, e.g. graph-based, attacks were unclear. In this work, we analyse transaction graphs induced by partitioning ring samplers. Specifically, we show (partly analytically and partly empirically) that, somewhat surprisingly, by setting the ring size to be at least logarithmic in the number of users, a graph-analysing adversary is no better than the one that performs random guessing in deanonymisation up to constant factor of 2.
翻訳日:2024-03-18 06:49:31 公開日:2024-02-28
# テキスト・ツー・イメージと大規模言語モデル:個人化されたeコマースバナーを生成するための新しいアプローチ

Chaining text-to-image and large language model: A novel approach for generating personalized e-commerce banners ( http://arxiv.org/abs/2403.05578v1 )

ライセンス: Link先を確認
Shanu Vashishtha, Abhinav Prakash, Lalitesh Morishetti, Kaushiki Nag, Yokila Arora, Sushant Kumar, Kannan Achan, (参考訳) 安定した拡散のようなテキスト・ツー・イメージのモデルは、芸術を生み出す多くの機会を開放した。 近年の文献は、多くのクリエイティブアーティストの作品を向上するためのテキスト・ツー・イメージ・モデルの使用について調査している。 多くのeコマースプラットフォームは手作業でバナーを生成する。 本研究では,テキスト・ツー・イメージ・モデルを用いて,対話に基づくオンライン買い物客向け動的コンテンツを用いたパーソナライズされたWebバナーを作成できることを示す。 このアプローチの新規性は、ユーザーのインタラクションデータを人間の介入なしに意味のあるプロンプトに変換することである。 この目的のために,大型言語モデル (LLM) を用いて項目メタ情報から属性のタプルを体系的に抽出する。 その後、属性はプロンプトエンジニアリングを介してテキスト・ツー・イメージモデルに渡され、バナーの画像を生成する。 提案手法は,ユーザに対して高品質なパーソナライズバナーを作成できることを示す。

Text-to-image models such as stable diffusion have opened a plethora of opportunities for generating art. Recent literature has surveyed the use of text-to-image models for enhancing the work of many creative artists. Many e-commerce platforms employ a manual process to generate the banners, which is time-consuming and has limitations of scalability. In this work, we demonstrate the use of text-to-image models for generating personalized web banners with dynamic content for online shoppers based on their interactions. The novelty in this approach lies in converting users' interaction data to meaningful prompts without human intervention. To this end, we utilize a large language model (LLM) to systematically extract a tuple of attributes from item meta-information. The attributes are then passed to a text-to-image model via prompt engineering to generate images for the banner. Our results show that the proposed approach can create high-quality personalized banners for users.
翻訳日:2024-03-18 06:10:13 公開日:2024-02-28
# 説明可能なAI研究における文化的バイアス:システム分析

Cultural Bias in Explainable AI Research: A Systematic Analysis ( http://arxiv.org/abs/2403.05579v1 )

ライセンス: Link先を確認
Uwe Peters, Mary Carman, (参考訳) 人間と人工知能(AI)システム間のシナジスティックな相互作用には、AIの出力を人々に説明する必要があることが多い。 説明可能なAI(XAI)システムは、人間のユーザー研究で一般的にテストされている。 しかし、XAI研究者が人間の説明的ニーズの潜在的な文化的相違を考察するかどうかは未解明のままである。 我々は、西洋、一般的に個人主義諸国の多くの人々と非西洋、しばしば集団主義諸国の人々の間に、人間の説明に有意な違いがあるという心理学的な研究を強調した。 我々は、現在、XAI研究はこれらのバリエーションを見落としており、多くのポピュラーなXAIデザインは、西洋の解説的ニーズが文化的に共有されていることを暗黙的に、問題的に仮定していると論じている。 さらに,200以上のXAIユーザスタディを体系的に検討し,多くの研究が関連する文化的変動を考慮せず,西洋の人口のみをサンプルとした結果,人間とXAIの相互作用に関する結論をより一般的に導いた。 また、XAI研究の30以上の文献レビューも分析した。 ほとんどのレビューでは、説明的ニーズの文化的相違やXAIユーザ調査結果の広範囲にわたる異文化間外挿のフラグについて言及していない。 この分析は、XAI研究における西洋の人口に対する文化的偏見の証拠であり、今後の作業で可能かつ対応すべき広く利用されているXAIシステムに対して、文化的に多様なユーザがどのように対応できるかに関する重要な知識ギャップを浮き彫りにしている。

For synergistic interactions between humans and artificial intelligence (AI) systems, AI outputs often need to be explainable to people. Explainable AI (XAI) systems are commonly tested in human user studies. However, whether XAI researchers consider potential cultural differences in human explanatory needs remains unexplored. We highlight psychological research that found significant differences in human explanations between many people from Western, commonly individualist countries and people from non-Western, often collectivist countries. We argue that XAI research currently overlooks these variations and that many popular XAI designs implicitly and problematically assume that Western explanatory needs are shared cross-culturally. Additionally, we systematically reviewed over 200 XAI user studies and found that most studies did not consider relevant cultural variations, sampled only Western populations, but drew conclusions about human-XAI interactions more generally. We also analyzed over 30 literature reviews of XAI studies. Most reviews did not mention cultural differences in explanatory needs or flag overly broad cross-cultural extrapolations of XAI user study results. Combined, our analyses provide evidence of a cultural bias toward Western populations in XAI research, highlighting an important knowledge gap regarding how culturally diverse users may respond to widely used XAI systems that future work can and should address.
翻訳日:2024-03-18 06:10:13 公開日:2024-02-28
# 極限サイクル発振器のための位相オートエンコーダ

Phase autoencoder for limit-cycle oscillators ( http://arxiv.org/abs/2403.06992v1 )

ライセンス: Link先を確認
Koichiro Yawata, Kai Fukami, Kunihiko Taira, Hiroya Nakao, (参考訳) 本稿では,その同期力学を特徴付ける基本量であるリミットサイクル発振器の漸近位相を符号化する位相オートエンコーダを提案する。 このオートエンコーダは、その潜伏変数が発振器の漸近位相を直接表現するように訓練される。 訓練されたオートエンコーダは、発振器の数学的モデルに頼ることなく、2つの機能を実行することができる。第1に、発振器の漸近位相と位相感度関数を評価することができ、第2に、位相値から原空間の極限周期上の発振器状態を再構成することができる。 制限サイクル発振器のいくつかの例を用いて、訓練されたオートエンコーダによる時系列データのみから漸近位相と位相感度関数を推定できることを実証した。 また、訓練されたオートエンコーダの応用として、2つの発振器をグローバルに同期する簡単な方法を提案する。

We present a phase autoencoder that encodes the asymptotic phase of a limit-cycle oscillator, a fundamental quantity characterizing its synchronization dynamics. This autoencoder is trained in such a way that its latent variables directly represent the asymptotic phase of the oscillator. The trained autoencoder can perform two functions without relying on the mathematical model of the oscillator: first, it can evaluate the asymptotic phase and phase sensitivity function of the oscillator; second, it can reconstruct the oscillator state on the limit cycle in the original space from the phase value as an input. Using several examples of limit-cycle oscillators, we demonstrate that the asymptotic phase and phase sensitivity function can be estimated only from time-series data by the trained autoencoder. We also present a simple method for globally synchronizing two oscillators as an application of the trained autoencoder.
翻訳日:2024-03-18 06:10:13 公開日:2024-02-28
# LSTMに基づく自動走行車線変更安全予測モデル

Automatic driving lane change safety prediction model based on LSTM ( http://arxiv.org/abs/2403.06993v1 )

ライセンス: Link先を確認
Wenjian Sun, Linying Pan, Jingyu Xu, Weixiang Wan, Yong Wang, (参考訳) 自動運転技術は交通安全を改善し、交通事故を減らすことができる。 さらに、交通の流れを改善し、混雑を減らし、エネルギーを節約し、旅行効率を高める。 比較的成熟した自動運転技術では、自動運転機能は、知覚、意思決定、計画と制御、合理的な分業によってシステムの安定性が向上する、いくつかのモジュールに分けられる。 したがって、自動運転車は、運転安全を改善するための合理的な意思決定と安全対策を行うために、周囲の車両の軌道を予測する能力を持つ必要がある。 深層学習手法を用いて,短期記憶(LSTM)ネットワークに基づく安全性に敏感な深層学習モデルを提案する。 このモデルは、現在の自動走行軌道計画の欠点を軽減することができ、出力軌道は高い精度を保証するだけでなく、安全性も向上する。 セル状態シミュレーションアルゴリズムは、このモデルによって生成された軌道の追跡性をシミュレートする。 その結果、従来のモデルベース手法と比較して、LSTMネットワークに基づく軌道予測法は、長い時間領域における軌道予測において明らかな利点があることが示された。 対話的情報を考慮した意図認識モジュールは, より高い予測精度と精度を有し, 提案アルゴリズムは, 安全な予測と効率的な車線変更の前提に基づいて, 軌道が非常に滑らかであることを示す。 自動運転車は車線変更を効率よく安全に完了させることができる。

Autonomous driving technology can improve traffic safety and reduce traffic accidents. In addition, it improves traffic flow, reduces congestion, saves energy and increases travel efficiency. In the relatively mature automatic driving technology, the automatic driving function is divided into several modules: perception, decision-making, planning and control, and a reasonable division of labor can improve the stability of the system. Therefore, autonomous vehicles need to have the ability to predict the trajectory of surrounding vehicles in order to make reasonable decision planning and safety measures to improve driving safety. By using deep learning method, a safety-sensitive deep learning model based on short term memory (LSTM) network is proposed. This model can alleviate the shortcomings of current automatic driving trajectory planning, and the output trajectory not only ensures high accuracy but also improves safety. The cell state simulation algorithm simulates the trackability of the trajectory generated by this model. The research results show that compared with the traditional model-based method, the trajectory prediction method based on LSTM network has obvious advantages in predicting the trajectory in the long time domain. The intention recognition module considering interactive information has higher prediction and accuracy, and the algorithm results show that the trajectory is very smooth based on the premise of safe prediction and efficient lane change. And autonomous vehicles can efficiently and safely complete lane changes.
翻訳日:2024-03-18 06:10:13 公開日:2024-02-28
# ProtLLM:タンパク・アズ・ワード事前試験によるインターリーブ型タンパク・ランゲージLDM

ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training ( http://arxiv.org/abs/2403.07920v1 )

ライセンス: Link先を確認
Le Zhuo, Zewen Chi, Minghao Xu, Heyan Huang, Heqi Zheng, Conghui He, Xian-Ling Mao, Wentao Zhang, (参考訳) ProtLLMは,タンパク質中心タスクとタンパク質言語タスクの両方を対象として,多機能な多言語多言語モデル(LLM)を提案する。 ProtLLMは独自の動的タンパク質実装機構を備えており、自然言語のテキストに任意の数のタンパク質が散在する複雑な入力を処理できる。 さらに,ProtLLMを学習するための単語間タンパク質モデリング手法を提案する。 専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。 さらに, 大規模インターリーブ型タンパク質テキストデータセットであるInterPTを構築し, 事前学習を行った。 このデータセットは、(1)タンパク質アノテーションのような構造化データソースと(2)生物学的研究論文のような構造化されていないデータソースの両方を包括的に包括的に包括し、タンパク質を理解するための重要な知識を持つProtLLMを提供する。 本稿では,古典的なタンパク質中心タスクにおけるProtLLMを評価し,その新規なタンパク質言語応用を探求する。 実験により,ProtLLMはタンパク質中心タスクにおけるタンパク質特異的ベースラインに対して優れた性能を発揮するだけでなく,タンパク質言語タスクにおけるゼロショットおよびインコンテキスト学習能力も引き起こすことが示された。

We propose ProtLLM, a versatile cross-modal large language model (LLM) for both protein-centric and protein-language tasks. ProtLLM features a unique dynamic protein mounting mechanism, enabling it to handle complex inputs where the natural language text is interspersed with an arbitrary number of proteins. Besides, we propose the protein-as-word language modeling approach to train ProtLLM. By developing a specialized protein vocabulary, we equip the model with the capability to predict not just natural language but also proteins from a vast pool of candidates. Additionally, we construct a large-scale interleaved protein-text dataset, named InterPT, for pre-training. This dataset comprehensively encompasses both (1) structured data sources like protein annotations and (2) unstructured data sources like biological research papers, thereby endowing ProtLLM with crucial knowledge for understanding proteins. We evaluate ProtLLM on classic supervised protein-centric tasks and explore its novel protein-language applications. Experimental results demonstrate that ProtLLM not only achieves superior performance against protein-specialized baselines on protein-centric tasks but also induces zero-shot and in-context learning capabilities on protein-language tasks.
翻訳日:2024-03-18 05:50:41 公開日:2024-02-28
# Merino: IoTデバイス上の生成言語モデルのためのエントロピー駆動設計

Merino: Entropy-driven Design for Generative Language Models on IoT Devices ( http://arxiv.org/abs/2403.07921v1 )

ライセンス: Link先を確認
Youpeng Zhao, Ming Lin, Huadong Tang, Qiang Wu, Jun Wang, (参考訳) ジェネレーティブ・大型言語モデル(LLMs)は、現代人工知能(AI)における革命的な進歩である。 しかし,インターネット・オブ・シング(IoT)デバイスなどのリソース制約のあるハードウェアにLSMを直接デプロイすることは,計算コストが高いため困難である。 本稿では,モバイルフレンドリーな生成言語モデルを設計するための新しい情報エントロピーフレームワークを提案する。 我々の設計パラダイムは、与えられた計算予算内でトランスフォーマーデコーダのエントロピーを最大化することである。 設計手順全体は、数理プログラミング(MP)問題を解くことを含み、数分でCPU上で実行でき、ほとんどコストがかからない。 我々は,9つのNLP下流タスクにまたがるMeRinoと呼ばれる設計モデルを評価し,モバイル環境下での最先端の自己回帰変換モデルとの競合性能を示した。 特に、MeRino は 350M のパラメータ OPT と同じような、あるいはより良いゼロ性能を達成し、NVIDIA Jetson Nano では 5.5 倍のモデルサイズで 4.9 倍高速である。 コードはまもなく利用可能になる。

Generative Large Language Models (LLMs) stand as a revolutionary advancement in the modern era of artificial intelligence (AI). However, directly deploying LLMs in resource-constrained hardware, such as Internet-of-Things (IoT) devices, is difficult due to their high computational cost. In this paper, we propose a novel information-entropy framework for designing mobile-friendly generative language models. Our key design paradigm is to maximize the entropy of transformer decoders within the given computational budgets. The whole design procedure involves solving a mathematical programming (MP) problem, which can be done on the CPU within minutes, making it nearly zero-cost. We evaluate our designed models, termed MeRino, across nine NLP downstream tasks, showing their competitive performance against the state-of-the-art autoregressive transformer models under the mobile setting. Notably, MeRino achieves similar or better zero performance compared to the 350M parameter OPT while being 4.9x faster on NVIDIA Jetson Nano with 5.5x reduction in model size. Code will be made available soon.
翻訳日:2024-03-18 05:50:41 公開日:2024-02-28
# IoT環境におけるリアルタイムモニタリングと制御最適化のための深層強化学習とエッジコンピューティングの融合

The Fusion of Deep Reinforcement Learning and Edge Computing for Real-time Monitoring and Control Optimization in IoT Environments ( http://arxiv.org/abs/2403.07923v1 )

ライセンス: Link先を確認
Jingyu Xu, Weixiang Wan, Linying Pan, Wenjian Sun, Yuxiang Liu, (参考訳) 産業用モノのインターネット(IoT)環境におけるリアルタイム性能と制御品質の需要に対応するため,深層強化学習とエッジコンピューティングに基づく最適化制御システムを提案する。 このシステムはクラウドとエッジのコラボレーションを活用し、エッジに軽量なポリシーネットワークをデプロイし、システムの状態を予測し、高い頻度で制御を出力し、産業目的の監視と最適化を可能にする。 さらに、動的リソース割り当て機構は、エッジコンピューティングリソースの合理的なスケジューリングを確実にし、グローバルな最適化を実現するように設計されている。 その結果、このアプローチは、クラウドエッジ通信のレイテンシを低減し、異常な状況に対する応答を加速し、システム障害率を低減し、平均的な機器運用時間を延長し、手作業によるメンテナンスと置換のコストを削減できることを示した。 これにより、リアルタイムおよび安定した制御が保証される。

In response to the demand for real-time performance and control quality in industrial Internet of Things (IoT) environments, this paper proposes an optimization control system based on deep reinforcement learning and edge computing. The system leverages cloud-edge collaboration, deploys lightweight policy networks at the edge, predicts system states, and outputs controls at a high frequency, enabling monitoring and optimization of industrial objectives. Additionally, a dynamic resource allocation mechanism is designed to ensure rational scheduling of edge computing resources, achieving global optimization. Results demonstrate that this approach reduces cloud-edge communication latency, accelerates response to abnormal situations, reduces system failure rates, extends average equipment operating time, and saves costs for manual maintenance and replacement. This ensures real-time and stable control.
翻訳日:2024-03-18 05:50:41 公開日:2024-02-28
# LoRA-SP:大規模言語モデルの資源効率の良い微調整のための線形部分パラメータ適応

LoRA-SP: Streamlined Partial Parameter Adaptation for Resource-Efficient Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2403.08822v1 )

ライセンス: Link先を確認
Yichao Wu, Yafei Xiang, Shuning Huo, Yulu Gong, Penghao Liang, (参考訳) そこで我々は,Low-Rank Adaptation(LoRA)フレーム内でのランダム化半選択パラメータ凍結を利用した新しいアプローチであるLoRA-SP(Streamlined partial Parameter Adaptation)を提案する。 本手法は,タスク固有の最適化のための学習済み知識保持と適応性を効率的にバランスさせる。 ランダム化機構により、LoRA-SPはどのパラメータを更新または凍結するかを決定し、モデル性能を損なうことなく計算とメモリの要求を大幅に削減する。 我々は,従来の全パラメータ細調整や他のパラメータ効率の手法と比較して,リソース消費を大幅に削減して,競争性能を実現する能力を示した。 LoRA-SPの革新的なアプローチは、リソース制限された設定における高度なNLPモデルの展開を促進するだけでなく、新しい研究手法を効果的かつ効率的なモデル適応戦略に開放する。

In addressing the computational and memory demands of fine-tuning Large Language Models(LLMs), we propose LoRA-SP(Streamlined Partial Parameter Adaptation), a novel approach utilizing randomized half-selective parameter freezing within the Low-Rank Adaptation(LoRA)framework. This method efficiently balances pre-trained knowledge retention and adaptability for task-specific optimizations. Through a randomized mechanism, LoRA-SP determines which parameters to update or freeze, significantly reducing computational and memory requirements without compromising model performance. We evaluated LoRA-SP across several benchmark NLP tasks, demonstrating its ability to achieve competitive performance with substantially lower resource consumption compared to traditional full-parameter fine-tuning and other parameter-efficient techniques. LoRA-SP innovative approach not only facilitates the deployment of advanced NLP models in resource-limited settings but also opens new research avenues into effective and efficient model adaptation strategies.
翻訳日:2024-03-18 05:40:54 公開日:2024-02-28
# スピン・ワンハーフの双四元数表現と相対論的1電子原子への応用

Biquaternion representation of the spin one half and its application on the relativistic one electron atom ( http://arxiv.org/abs/2403.02344v1 )

ライセンス: Link先を確認
Alejandro Arias Jim\'enez(参考訳) この研究では、パウリ行列を得るために、2x2行列への変換を用いて複素四元数を持つ1/2$スピン粒子を表す。 この表現により、複素四元数空間における状態、回転作用素および全角運動量関数を決定する。 この表現を用いて、相対論的水素原子の解を働く。

In this work we represent the $1/2$ Spin particles with complex quaternions using a transformation to 2x2 matrices in order to obtain the Pauli matrices. With this representation we determine the states, rotation operators and the total angular momentum function in the complex quaternion space. Using this representation we work the solution for the relativistic hydrogen atom.
翻訳日:2024-03-06 17:27:44 公開日:2024-02-28
# ポジションペーパー:エージェントAIがホロスティックインテリジェンスを目指す

Position Paper: Agent AI Towards a Holistic Intelligence ( http://arxiv.org/abs/2403.00833v1 )

ライセンス: Link先を確認
Qiuyuan Huang, Naoki Wake, Bidipta Sarkar, Zane Durante, Ran Gong, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Noboru Kuno, Ade Famoti, Ashley Llorens, John Langford, Hoi Vo, Li Fei-Fei, Katsu Ikeuchi, Jianfeng Gao(参考訳) 最近の大規模基礎モデルの進歩は、オープンワールド環境における感覚情報の理解を著しく高めている。 基礎モデルの力を活用するためには、AI研究が過剰な還元主義から脱却し、凝集体として機能するシステムに重点を置くことが不可欠である。 具体的には,エージェントアクションに大規模な基盤モデルを統合する,エージェントAIの開発に重点を置いている。 Agent AIの出現する分野は、ロボティクス、ゲーム、ヘルスケアシステムなど、既存のエンボディおよびエージェントベースのマルチモーダルインタラクションの幅広い範囲にまたがっている。 本稿では,エージェントファウンデーションモデルという,具体化された知的行動を実現するための新しい大規模行動モデルを提案する。 このアイデアに基づいて、エージェントAIがさまざまなドメインやタスクにまたがる優れた能力を示す方法について議論し、学習と認知の理解に挑戦する。 さらに,学際的な視点からエージェントaiの可能性について議論し,科学談話におけるai認知と意識を強調する。 我々はこれらの議論が今後の研究方向性の基礎となり、より広範な社会的関与を促進すると信じている。

Recent advancements in large foundation models have remarkably enhanced our understanding of sensory information in open-world environments. In leveraging the power of foundation models, it is crucial for AI research to pivot away from excessive reductionism and toward an emphasis on systems that function as cohesive wholes. Specifically, we emphasize developing Agent AI -- an embodied system that integrates large foundation models into agent actions. The emerging field of Agent AI spans a wide range of existing embodied and agent-based multimodal interactions, including robotics, gaming, and healthcare systems, etc. In this paper, we propose a novel large action model to achieve embodied intelligent behavior, the Agent Foundation Model. On top of this idea, we discuss how agent AI exhibits remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. Furthermore, we discuss the potential of Agent AI from an interdisciplinary perspective, underscoring AI cognition and consciousness within scientific discourse. We believe that those discussions serve as a basis for future research directions and encourage broader societal engagement.
翻訳日:2024-03-06 01:06:08 公開日:2024-02-28
# 暗号技術が世界経済に与える影響

Crypto Technology -- Impact on Global Economy ( http://arxiv.org/abs/2403.00018v1 )

ライセンス: Link先を確認
Arunkumar Velayudhan Pillai(参考訳) 過去10年間、暗号通貨の進化は、暗号通貨取引の実施方法を監視する権限の分散と欠如から生じる、提供された機会と自由の感覚を通じて、人々の関心を捉えてきた。 暗号空間のイノベーションは、インターネットが人間の生活に与える影響と比較されることが多い。 web 3.0という新しい用語は、ブロックチェーン技術に起因する新しいコンピューティングの革新を全て意味している。 ブロックチェーンは過去10年で最も重要な発明の1つであり、暗号通貨や金融ユースケースは過去10年間で最も進歩したドメインの1つだ。 web 3 技術、それが暗号経済とどのように結びついているか、今後数十年にわたってこの分野で何を期待するかを研究することは、非常に重要である。

The last decade has been marked by the evolution of cryptocurrencies, which have captured the interest of the public through the offered opportunities and the feeling of freedom, resulting from decentralization and lack of authority to oversee how cryptocurrency transactions are conducted. The innovation in crypto space is often compared to the impact internet had on human life. There is a new term called Web 3.0 for denoting all new computing innovations arising due to the blockchain technologies. Blockchain has emerged as one of the most important inventions of the last decade with crypto currencies or financial use case as one of the domains which progressed most in the last 10 years. It is very important to research about Web 3 technologies, how it is connected to crypto economy and what to expect in this field for the next several decades.
翻訳日:2024-03-06 01:05:50 公開日:2024-02-28
# モントリオールのキャパシタン化車両ルーティング問題の基礎モデル

Learning to Deliver: a Foundation Model for the Montreal Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2403.00026v1 )

ライセンス: Link先を確認
Samuel J. K. Chin, Matthias Winkenbach, Akash Srivastava(参考訳) 本稿では,多くの実世界の応用を特徴付けるCVRP(Capacitated Vehicle Routing Problem)の変種に対して,高品質な解を近似する新しいDeep Learning (DL)モデルである,Montreal Capacitated Vehicle Routing Problem (FM-MCVRP)の基礎モデルを提案する。 モントリオール・キャパシタッド・ビークル・ルーティング問題(MCVRP、Montreal Capacitated Vehicle Routing Problem)は、Bengio et al. (2021)によって初めて公式に記述され、都市と類似した固定有限グラフ上で定義される。 それぞれのMCVRPインスタンスは、基本的には固定グラフ内のノードのランダムにサンプリングされたサブセットを接続するサブグラフであり、その日、現実世界の配送問題における潜在的なアドレスのセットを表す。 本研究は,MCVRPを自然言語処理(NLP)の類似タスクとするために,この問題構造を利用する。 具体的には,Large Language Model (LLM) フレームワークに組み込まれた Transformer アーキテクチャを利用して,アルゴリズムによって得られた計算コストの低い準最適 MCVRP ソリューションに基づいてモデルを教師付きでトレーニングする。 総合的な計算実験により,FM-MCVRP はトレーニングデータよりも優れた MCVRP ソリューションを生成し,トレーニング中に見られない大規模問題に一般化することを示した。 FM-MCVRPは、最先端のヒューリスティックによる最適に近い解と比較しても、劣ったデータで訓練されているにもかかわらず、競争結果が得られる。 例えば、400顧客問題の場合、fm-mcvrpソリューションは平均してベンチマークの2%以下である。 文献の先行研究と異なり,FM-MCVRPは一貫したモデルであり,問題インスタンスサイズや車両の容量などのパラメータ値の連続的かつ確実な性能を示す。

In this paper, we present the Foundation Model for the Montreal Capacitated Vehicle Routing Problem (FM-MCVRP), a novel Deep Learning (DL) model that approximates high-quality solutions to a variant of the Capacitated Vehicle Routing Problem (CVRP) that characterizes many real-world applications. The so-called Montreal Capacitated Vehicle Routing Problem (MCVRP), first formally described by Bengio et al. (2021), is defined on a fixed and finite graph, which is analogous to a city. Each MCVRP instance is essentially the sub-graph connecting a randomly sampled subset of the nodes in the fixed graph, which represent a set of potential addresses in a real-world delivery problem on a given day. Our work exploits this problem structure to frame the MCVRP as an analogous Natural Language Processing (NLP) task. Specifically, we leverage a Transformer architecture embedded in a Large Language Model (LLM) framework to train our model in a supervised manner on computationally inexpensive, sub-optimal MCVRP solutions obtained algorithmically. Through comprehensive computational experiments, we show that FM-MCVRP produces better MCVRP solutions than the training data and generalizes to larger sized problem instances not seen during training. Even when compared to near-optimal solutions from state-of-the-art heuristics, FM-MCVRP yields competitive results despite being trained on inferior data. For instance, for 400-customer problems, FM-MCVRP solutions on average fall within 2% of the benchmark. Our results further demonstrate that unlike prior works in the literature, FM-MCVRP is a unified model, which performs consistently and reliably on a range of problem instance sizes and parameter values such as the vehicle capacity.
翻訳日:2024-03-05 23:19:36 公開日:2024-02-28
# 生成AIの課題と機会について

On the Challenges and Opportunities in Generative AI ( http://arxiv.org/abs/2403.00025v1 )

ライセンス: Link先を確認
Laura Manduchi, Kushagra Pandey, Robert Bamler, Ryan Cotterell, Sina D\"aubener, Sophie Fellenz, Asja Fischer, Thomas G\"artner, Matthias Kirchler, Marius Kloft, Yingzhen Li, Christoph Lippert, Gerard de Melo, Eric Nalisnick, Bj\"orn Ommer, Rajesh Ranganath, Maja Rudolph, Karen Ullrich, Guy Van den Broeck, Julia E Vogt, Yixin Wang, Florian Wenzel, Frank Wood, Stephan Mandt, Vincent Fortuin(参考訳) 深層生成モデリングの分野は、長年にわたって急速に、一貫して成長してきた。 大量のトレーニングデータとスケーラブルな教師なし学習パラダイムの進歩が組み合わさったことで、近年の大規模生成モデルでは、高解像度画像やテキストの合成や、ビデオや分子などの構造化データに多大な期待が持たれている。 しかし、現在の大規模生成型AIモデルは、ドメイン間の普及を妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。 本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。 これらの課題を特定することで、有能な研究方向を探索する上で、研究者に貴重な洞察を提供し、より堅牢でアクセスしやすい生成AIソリューションの開発を促進することを目指している。

The field of deep generative modeling has grown rapidly and consistently over the years. With the availability of massive amounts of training data coupled with advances in scalable unsupervised learning paradigms, recent large-scale generative models show tremendous promise in synthesizing high-resolution images and text, as well as structured data such as videos and molecules. However, we argue that current large-scale generative AI models do not sufficiently address several fundamental issues that hinder their widespread adoption across domains. In this work, we aim to identify key unresolved challenges in modern generative AI paradigms that should be tackled to further enhance their capabilities, versatility, and reliability. By identifying these challenges, we aim to provide researchers with valuable insights for exploring fruitful research directions, thereby fostering the development of more robust and accessible generative AI solutions.
翻訳日:2024-03-05 23:19:03 公開日:2024-02-28
# flowcyt: flow cytometry benchmarkingにおける多クラス分類のためのディープラーニングアプローチの比較研究

FlowCyt: A Comparative Study of Deep Learning Approaches for Multi-Class Classification in Flow Cytometry Benchmarking ( http://arxiv.org/abs/2403.00024v1 )

ライセンス: Link先を確認
Lorenzo Bini, Fatemeh Nassajian Mojarrad, Margarita Liarou, Thomas Matthes, St\'ephane Marchand-Maillet(参考訳) 本稿では,フローサイトメトリーデータにおけるマルチクラス単一セル分類のための最初の総合ベンチマークであるflowcytを提案する。 データセットは、30例の骨髄サンプルからなり、各細胞には12のマーカーが特徴である。 基底真理ラベルは、Tリンパ球、Bリンパ球、単球、肥満細胞、造血幹細胞(HSPC)の5種類の血液学的細胞を同定する。 実験では、患者1人当たり100万個までの細胞で教師付きインダクティブラーニングと半教師付きトランスダクティブラーニングを利用する。 ベースラインメソッドには、ガウス混合モデル、XGBoost、ランダムフォレスト、ディープニューラルネットワーク、グラフニューラルネットワーク(GNN)などがある。 GNNは、グラフ符号化データにおける空間関係を利用して、優れた性能を示す。 このベンチマークは、血液細胞表現型に関する洞察を得るために、臨床関連分類タスクの標準化された評価と探索分析を可能にする。 これは、リッチな注釈付きヘテロジニアスデータセットを備えた最初の公開フローサイトメトリーベンチマークである。 単細胞解析のための新しい方法論の開発と厳密な評価を強化する。

This paper presents FlowCyt, the first comprehensive benchmark for multi-class single-cell classification in flow cytometry data. The dataset comprises bone marrow samples from 30 patients, with each cell characterized by twelve markers. Ground truth labels identify five hematological cell types: T lymphocytes, B lymphocytes, Monocytes, Mast cells, and Hematopoietic Stem/Progenitor Cells (HSPCs). Experiments utilize supervised inductive learning and semi-supervised transductive learning on up to 1 million cells per patient. Baseline methods include Gaussian Mixture Models, XGBoost, Random Forests, Deep Neural Networks, and Graph Neural Networks (GNNs). GNNs demonstrate superior performance by exploiting spatial relationships in graph-encoded data. The benchmark allows standardized evaluation of clinically relevant classification tasks, along with exploratory analyses to gain insights into hematological cell phenotypes. This represents the first public flow cytometry benchmark with a richly annotated, heterogeneous dataset. It will empower the development and rigorous assessment of novel methodologies for single-cell analysis.
翻訳日:2024-03-05 23:18:49 公開日:2024-02-28
# 属性ベースのディファレンシャルプライバシを備えた監査可能な準同型ベースの分散協調ai

Auditable Homomorphic-based Decentralized Collaborative AI with Attribute-based Differential Privacy ( http://arxiv.org/abs/2403.00023v1 )

ライセンス: Link先を確認
Lo-Yao Yeh, Sheng-Po Tseng, Chia-Hsun Lu, Chih-Ya Shen(参考訳) 近年,フェデレートラーニング(FL)の概念は,プライバシ保護を伴う分散人工知能(AI)の新たなパラダイムへとつながっている。 しかし、現在のFLシステムは、信頼できる第三者の要求により、データプライバシーの問題に悩まされている。 しかし、データを保護するためにディファレンシャルプライバシを導入する先行研究もあるが、モデル性能を著しく低下させる可能性がある。 これらの問題に対処するため,Auditable Homomorphic-based Decentralized Collaborative AI (AerisAI)という,新たな分散協調型AIフレームワークを提案する。 提案したAerisAIは、暗号化されたパラメータを直接ブロックチェーンベースのスマートコントラクトに集約して、信頼できるサードパーティの必要性を排除する。 また,モデル性能に対する差分プライバシーの影響をなくすための新しい概念を提案する。 さらに,提案手法では,cpabe (ciphertext-policy attribute-based encryption) に基づくブロードキャストアウェアグループ鍵管理も提供し,異なるサービスレベル合意に基づくきめ細かいアクセス制御を実現する。 提案するAerisAIの形式的理論的解析と,他のベースラインとの比較を行う。 また,提案手法を評価するために,実データセットに関する広範な実験を行う。 実験の結果,提案したAerisAIは,他の最先端のベースラインよりも優れていた。

In recent years, the notion of federated learning (FL) has led to the new paradigm of distributed artificial intelligence (AI) with privacy preservation. However, most current FL systems suffer from data privacy issues due to the requirement of a trusted third party. Although some previous works introduce differential privacy to protect the data, however, it may also significantly deteriorate the model performance. To address these issues, we propose a novel decentralized collaborative AI framework, named Auditable Homomorphic-based Decentralised Collaborative AI (AerisAI), to improve security with homomorphic encryption and fine-grained differential privacy. Our proposed AerisAI directly aggregates the encrypted parameters with a blockchain-based smart contract to get rid of the need of a trusted third party. We also propose a brand-new concept for eliminating the negative impacts of differential privacy for model performance. Moreover, the proposed AerisAI also provides the broadcast-aware group key management based on ciphertext-policy attribute-based encryption (CPABE) to achieve fine-grained access control based on different service-level agreements. We provide a formal theoretical analysis of the proposed AerisAI as well as the functionality comparison with the other baselines. We also conduct extensive experiments on real datasets to evaluate the proposed approach. The experimental results indicate that our proposed AerisAI significantly outperforms the other state-of-the-art baselines.
翻訳日:2024-03-05 23:18:33 公開日:2024-02-28
# 統計学における変圧器に基づくパラメータ推定

Transformer-based Parameter Estimation in Statistics ( http://arxiv.org/abs/2403.00019v1 )

ライセンス: Link先を確認
Xiaoxin Yin and David S. Yin(参考訳) パラメータ推定は統計学において最も重要なタスクの1つであり、観測サンプルの背後にある分布を理解するのに役立つ。 伝統的にパラメータ推定は閉形式解(例えばガウス分布の最大推定)または閉形式解が存在しなければニュートン・ラフソン法のような反復的な数値法(例えばベータ分布)によって行われる。 本稿では,パラメータ推定のためのトランスベース手法を提案する。 既存の解と比較して、我々の手法は閉形式解や数学的導出を必要としない。 数値的な方法によって必要となる確率密度関数を知る必要もない。 トランスモデルがトレーニングされた後、観測サンプルに基づいて基礎となる分布のパラメータを見積もるためには、単一の推論のみが必要である。 実験的検討では, 正規分布, 指数分布, ベータ分布などの一般的な分布について, 最大推定値と比較した。 その結果,本手法は平均2乗誤差で測定した手法と同様の精度あるいは精度が得られた。

Parameter estimation is one of the most important tasks in statistics, and is key to helping people understand the distribution behind a sample of observations. Traditionally parameter estimation is done either by closed-form solutions (e.g., maximum likelihood estimation for Gaussian distribution), or by iterative numerical methods such as Newton-Raphson method when closed-form solution does not exist (e.g., for Beta distribution). In this paper we propose a transformer-based approach to parameter estimation. Compared with existing solutions, our approach does not require a closed-form solution or any mathematical derivations. It does not even require knowing the probability density function, which is needed by numerical methods. After the transformer model is trained, only a single inference is needed to estimate the parameters of the underlying distribution based on a sample of observations. In the empirical study we compared our approach with maximum likelihood estimation on commonly used distributions such as normal distribution, exponential distribution and beta distribution. It is shown that our approach achieves similar or better accuracy as measured by mean-square-errors.
翻訳日:2024-03-05 23:18:10 公開日:2024-02-28
# 多目的特徴協会の解釈に向けて

Towards Interpreting Multi-Objective Feature Associations ( http://arxiv.org/abs/2403.00017v1 )

ライセンス: Link先を確認
Nisha Pillai, Ganga Gireesan, Michael J. Rothrock Jr., Bindu Nanduri, Zhiqian Chen, Mahalingam Ramkumar(参考訳) 複数の機能がどのように関連付けられ、特定の目的に寄与するかを理解することは、各機能が特定の結果にどのように寄与するかを理解するのと同じくらい重要である。 予測における単一特徴の解釈可能性については,複数の方法で扱うことができるが,多目的予測では特徴値の組み合わせの解釈可能性を得るのが困難である。 そこで本研究では,マルチラベルを用いた客観的特徴対話設計法を提案し,農業環境における特徴の最適組み合わせを求める。 この設計の新たな側面の1つは、多目的設定における組合せ最適化を保証するために、特徴説明とグローバル感度分析を統合する手法の同定である。 予備実験では,多剤耐性下での養殖前農法と,食品由来の病原菌に対する養殖後農法という2つの農業データセットを用いて,特徴値の近似組み合わせが望ましい結果を得ることができた。 組み合わせ最適化手法では,3つの病原体を同時に考慮し,異なる種類の病原体の成長を好む条件間の相互作用を考慮した。 これらの結果は、説明に基づくアプローチは、ベースラインよりも少ないイテレーションで病原体の存在を減少させる特徴の組み合わせを識別できることを示している。

Understanding how multiple features are associated and contribute to a specific objective is as important as understanding how each feature contributes to a particular outcome. Interpretability of a single feature in a prediction may be handled in multiple ways; however, in a multi-objective prediction, it is difficult to obtain interpretability of a combination of feature values. To address this issue, we propose an objective specific feature interaction design using multi-labels to find the optimal combination of features in agricultural settings. One of the novel aspects of this design is the identification of a method that integrates feature explanations with global sensitivity analysis in order to ensure combinatorial optimization in multi-objective settings. We have demonstrated in our preliminary experiments that an approximate combination of feature values can be found to achieve the desired outcome using two agricultural datasets: one with pre-harvest poultry farm practices for multi-drug resistance presence, and one with post-harvest poultry farm practices for food-borne pathogens. In our combinatorial optimization approach, all three pathogens are taken into consideration simultaneously to account for the interaction between conditions that favor different types of pathogen growth. These results indicate that explanation-based approaches are capable of identifying combinations of features that reduce pathogen presence in fewer iterations than a baseline.
翻訳日:2024-03-05 23:17:51 公開日:2024-02-28
# オブジェクト指向組合せ最適化のための深部感度解析

Deep Sensitivity Analysis for Objective-Oriented Combinatorial Optimization ( http://arxiv.org/abs/2403.00016v1 )

ライセンス: Link先を確認
Ganga Gireesan, Nisha Pillai, Michael J Rothrock, Bindu Nanduri, Zhiqian Chen, Mahalingam Ramkumar(参考訳) 病原性制御は現代の養鶏における重要な側面であり、公衆衛生と生産性の両方に重要な利益をもたらす。 鶏群れの病原体レベルを下げるための効果的な養鶏管理は、食物由来の病気のリスクを下げることで食品の安全性を促進する。 また、急速に増殖し、繁殖、卵生産、健康に影響を及ぼす伝染病を防ぎ、動物の健康と福祉を支援している。 本研究は,複数の病原体の存在を最小限に抑える最適な管理手法の探索を組合せ最適化問題として定めている。 具体的には,病原体レベルを最適に低減する構成を特定するために効率的に探索できるソリューション空間として,管理設定の様々な組み合わせをモデル化する。 この設計は、機能説明とグローバル感度分析を組み合わせて、多目的設定における組合せ最適化を保証するニューラルネットワークフィードバックに基づく手法を取り入れている。 私たちの予備実験は、2つの実世界の農業データセットに適用すると有望な結果が得られる。 さらなる検証が必要であるが、これらの初期の実験結果は、様々な現実世界の制約の下で病原体制御を適応的に最適化するターゲットとなる特徴相互作用を導出するためのモデルの可能性を示している。

Pathogen control is a critical aspect of modern poultry farming, providing important benefits for both public health and productivity. Effective poultry management measures to reduce pathogen levels in poultry flocks promote food safety by lowering risks of food-borne illnesses. They also support animal health and welfare by preventing infectious diseases that can rapidly spread and impact flock growth, egg production, and overall health. This study frames the search for optimal management practices that minimize the presence of multiple pathogens as a combinatorial optimization problem. Specifically, we model the various possible combinations of management settings as a solution space that can be efficiently explored to identify configurations that optimally reduce pathogen levels. This design incorporates a neural network feedback-based method that combines feature explanations with global sensitivity analysis to ensure combinatorial optimization in multiobjective settings. Our preliminary experiments have promising results when applied to two real-world agricultural datasets. While further validation is still needed, these early experimental findings demonstrate the potential of the model to derive targeted feature interactions that adaptively optimize pathogen control under varying real-world constraints.
翻訳日:2024-03-05 23:17:29 公開日:2024-02-28
# CLLMs: 一貫性のある大規模言語モデル

CLLMs: Consistency Large Language Models ( http://arxiv.org/abs/2403.00835v1 )

ライセンス: Link先を確認
Siqi Kou, Lanxiang Hu, Zhezhi He, Zhijie Deng, Hao Zhang(参考訳) ヤコビ復号法のような並列復号法は、LCM復号プロセスのシーケンシャルな性質を破り、並列化可能な計算に変換するため、より効率的なLCM推論を約束する。 しかし実際には、従来のオートレグレッシブ(ar)デコードに比べて、ほとんどスピードアップしない。なぜなら、ジャコビデコードでは、1つの固定ポイントイテレーションステップで複数のトークンを正確に予測することがほとんどないからだ。 そこで我々は,ヤコビ軌道上の任意の状態から不動点への高速収束を実現するための新しい手法を開発した。 これは、任意の状態が入力として与えられた固定点を一貫して予測するために、目標LSMを精製することで達成される。 拡張実験により,提案手法の有効性を実証し,22.4$\times$を3.4$\times$に改善し,ドメイン固有のベンチマークとオープンドメインベンチマークの両方で生成品質を保った。

Parallel decoding methods such as Jacobi decoding show promise for more efficient LLM inference as it breaks the sequential nature of the LLM decoding process and transforms it into parallelizable computation. However, in practice, it achieves little speedup compared to traditional autoregressive (AR) decoding, primarily because Jacobi decoding seldom accurately predicts more than one token in a single fixed-point iteration step. To address this, we develop a new approach aimed at realizing fast convergence from any state to the fixed point on a Jacobi trajectory. This is accomplished by refining the target LLM to consistently predict the fixed point given any state as input. Extensive experiments demonstrate the effectiveness of our method, showing 2.4$\times$ to 3.4$\times$ improvements in generation speed while preserving generation quality across both domain-specific and open-domain benchmarks.
翻訳日:2024-03-05 23:08:56 公開日:2024-02-28
# パス推論による説明可能なセッションベースレコメンデーション

Explainable Session-based Recommendation via Path Reasoning ( http://arxiv.org/abs/2403.00832v1 )

ライセンス: Link先を確認
Yang Cao, Shuo Shang, Jun Wang, and Wei Zhang(参考訳) 本稿では,セッションベースレコメンデーション(SR)のパス推論による説明可能性について検討する。 現在のSRモデルは正確さを強調するが説明性に欠けるが、伝統的な経路推論はセッション履歴に存在するシーケンシャルなパターンを無視して知識グラフ探索を優先する。 そこで我々は,既存のSRモデルのパス推論(PR4SR)による説明性を向上する,SRの階層的強化学習フレームワークを提案する。 セッションに対する項目の重要度の違いを考慮して,セッション内の項目を経路推論の出発点として選択するセッションレベルエージェントと,パス推論を行うパスレベルエージェントを設計した。 特に,srにおける逐次パターンのスキップ動作に対応するマルチターゲット報酬機構を設計し,知識グラフの探索効率を高めるためにパスミッドポイント報酬を導入する。 知識グラフの完全性を改善し,説明の経路を多様化するために,画像から抽出した特徴情報を知識グラフに組み込んだ。 PR4SRを5つの最先端SRモデル(GRU4REC, NARM, GCSAN, SR-GNN, SASRec)でインスタンス化し、他の説明可能なSRフレームワークと比較し、これらのアプローチを4つのデータセット上で広範囲に実験することにより、PR4SRの推奨および説明タスクに対する有効性を実証する。

This paper explores providing explainability for session-based recommendation (SR) by path reasoning. Current SR models emphasize accuracy but lack explainability, while traditional path reasoning prioritizes knowledge graph exploration, ignoring sequential patterns present in the session history. Therefore, we propose a generalized hierarchical reinforcement learning framework for SR, which improves the explainability of existing SR models via Path Reasoning, namely PR4SR. Considering the different importance of items to the session, we design the session-level agent to select the items in the session as the starting point for path reasoning and the path-level agent to perform path reasoning. In particular, we design a multi-target reward mechanism to adapt to the skip behaviors of sequential patterns in SR, and introduce path midpoint reward to enhance the exploration efficiency in knowledge graphs. To improve the completeness of the knowledge graph and to diversify the paths of explanation, we incorporate extracted feature information from images into the knowledge graph. We instantiate PR4SR in five state-of-the-art SR models (i.e., GRU4REC, NARM, GCSAN, SR-GNN, SASRec) and compare it with other explainable SR frameworks, to demonstrate the effectiveness of PR4SR for recommendation and explanation tasks through extensive experiments with these approaches on four datasets.
翻訳日:2024-03-05 23:08:36 公開日:2024-02-28
# MedAide: エッジデバイス上でのオンデマンド医療支援に大規模言語モデルを活用する

MedAide: Leveraging Large Language Models for On-Premise Medical Assistance on Edge Devices ( http://arxiv.org/abs/2403.00830v1 )

ライセンス: Link先を確認
Abdul Basit, Khizar Hussain, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) 大規模言語モデル(LLM)は、その顕著な自然言語処理(NLP)能力によって、様々な領域に革命をもたらしている。 しかし,資源制約のあるエッジコンピューティングや組み込みシステムにLLMをデプロイすることは,大きな課題となる。 もう一つの課題は、医療施設やインフラが限られている遠隔地に医療援助を提供することである。 この問題を解決するために、オンプレミスのヘルスケアチャットボットであるMedAideを紹介します。 LangChainと統合された小さなLLMを活用し、効率的なエッジベースの医療診断とサポートを提供する。 MedAideは、最小限のメモリフットプリントとレイテンシーを、サーバーインフラストラクチャなしで組み込みエッジデバイス上でモデル最適化する。 トレーニングプロセスはローランク適応(LoRA)を用いて最適化される。 さらに、モデルは多様な医療データセットに基づいて訓練され、人間からのフィードバック(RLHF)からの強化学習を用いてドメイン固有の能力を向上させる。 このシステムは、様々な消費者向けGPUとNvidia Jetson開発ボードで実装されている。 MedAideは医療相談で77%の精度を達成し、USMLEベンチマークで56点を記録し、エッジベースのデプロイメントによるプライバシー上の懸念を軽減するエネルギー効率の高い医療支援プラットフォームを可能にし、コミュニティを力づける。

Large language models (LLMs) are revolutionizing various domains with their remarkable natural language processing (NLP) abilities. However, deploying LLMs in resource-constrained edge computing and embedded systems presents significant challenges. Another challenge lies in delivering medical assistance in remote areas with limited healthcare facilities and infrastructure. To address this, we introduce MedAide, an on-premise healthcare chatbot. It leverages tiny-LLMs integrated with LangChain, providing efficient edge-based preliminary medical diagnostics and support. MedAide employs model optimizations for minimal memory footprint and latency on embedded edge devices without server infrastructure. The training process is optimized using low-rank adaptation (LoRA). Additionally, the model is trained on diverse medical datasets, employing reinforcement learning from human feedback (RLHF) to enhance its domain-specific capabilities. The system is implemented on various consumer GPUs and Nvidia Jetson development board. MedAide achieves 77\% accuracy in medical consultations and scores 56 in USMLE benchmark, enabling an energy-efficient healthcare assistance platform that alleviates privacy concerns due to edge-based deployment, thereby empowering the community.
翻訳日:2024-03-05 23:08:08 公開日:2024-02-28
# troublellm: red teamのエキスパートと一致

TroubleLLM: Align to Red Team Expert ( http://arxiv.org/abs/2403.00829v1 )

ライセンス: Link先を確認
Zhuoer Xu, Jianping Zhang, Shiwen Cui, Changhua Meng, Weiqiang Wang(参考訳) 大規模言語モデル(llm)は、様々な自然言語タスクの最先端ソリューションとなり、現実世界のアプリケーションに統合される。 しかし、LSMは、社会的偏見や有害なコンテンツのような望ましくない安全性の問題を生じさせる可能性がある。 配備前に安全性の問題を評価することが不可欠である。 しかし、既存の方法によって生成されるテストプロンプトの品質と多様性は、まだ十分ではない。 これらの手法は労働集約的であり、大きな予算コストを必要とするだけでなく、LLMアプリケーションの特定のテスト領域に対してテストプロンプト生成の制御性が欠如している。 LLM テストのための LLM のアイデアにより,LLM の安全性に関する制御可能なテストプロンプトを生成する最初の LLM である TroubleLLM を提案する。 広範囲な実験と人的評価は、世代品質と世代制御性におけるトラブルの優越性を示している。

Large Language Models (LLMs) become the start-of-the-art solutions for a variety of natural language tasks and are integrated into real-world applications. However, LLMs can be potentially harmful in manifesting undesirable safety issues like social biases and toxic content. It is imperative to assess its safety issues before deployment. However, the quality and diversity of test prompts generated by existing methods are still far from satisfactory. Not only are these methods labor-intensive and require large budget costs, but the controllability of test prompt generation is lacking for the specific testing domain of LLM applications. With the idea of LLM for LLM testing, we propose the first LLM, called TroubleLLM, to generate controllable test prompts on LLM safety issues. Extensive experiments and human evaluation illustrate the superiority of TroubleLLM on generation quality and generation controllability.
翻訳日:2024-03-05 23:07:50 公開日:2024-02-28
# Time to Cite: Dynamic Impact Single-Event Embedding Model を用いた循環ネットワークのモデリング

Time to Cite: Modeling Citation Networks using the Dynamic Impact Single-Event Embedding Model ( http://arxiv.org/abs/2403.00032v1 )

ライセンス: Link先を確認
Nikolaos Nakis, Abdulkadir Celikkanat, Louis Boucherie, Sune Lehmann, Morten M{\o}rup(参考訳) 科学科学(SciSci)という科学研究の構造と力学を理解することは、研究者が先進科学とどのように相互作用するか、規律がどのように関連し進化しているか、研究への影響を定量化し、予測する方法など、差し迫った問題に対処するために重要な研究領域となっている。 SciSciの研究の中心は、引用ネットワークの分析である。 ここでは、2つの顕著なモデリング手法が採用されている: 1つはパラメトリック分布を用いて論文の引用影響ダイナミクスを評価すること、もう1つは、論文間の静的関係を引用の観点から特徴づけるのに最適な潜在空間に引用ネットワークを埋め込むことである。 興味深いことに、励起ネットワークはシングルイベント動的ネットワークの顕著な例であり、すなわち、各ダイアドが単一のイベント(すなわち、励起時点のポイント)しか持たないネットワークである。 本稿では,このような単一イベントネットワークのキャラクタリゼーションのための新しい可能性関数を提案する。 この可能性を利用して、Dynamic Impact Single-Event Embedding Model (DISEE)を提案する。 textsc{\modelabbrev}モデルは、ランダムな効果が引用の不均一性を考慮し、時間変化の衝撃は動的影響の評価のために既存のパラメトリック表現を用いて特徴づける潜在距離モデルを用いて科学的相互作用を特徴付ける。 提案手法は,従来の動的影響評価を用いた静的潜在距離ネットワーク埋め込み手法と,diseeがうまく調和していることを示す。

Understanding the structure and dynamics of scientific research, i.e., the science of science (SciSci), has become an important area of research in order to address imminent questions including how scholars interact to advance science, how disciplines are related and evolve, and how research impact can be quantified and predicted. Central to the study of SciSci has been the analysis of citation networks. Here, two prominent modeling methodologies have been employed: one is to assess the citation impact dynamics of papers using parametric distributions, and the other is to embed the citation networks in a latent space optimal for characterizing the static relations between papers in terms of their citations. Interestingly, citation networks are a prominent example of single-event dynamic networks, i.e., networks for which each dyad only has a single event (i.e., the point in time of citation). We presently propose a novel likelihood function for the characterization of such single-event networks. Using this likelihood, we propose the Dynamic Impact Single-Event Embedding model (DISEE). The \textsc{\modelabbrev} model characterizes the scientific interactions in terms of a latent distance model in which random effects account for citation heterogeneity while the time-varying impact is characterized using existing parametric representations for assessment of dynamic impact. We highlight the proposed approach on several real citation networks finding that the DISEE well reconciles static latent distance network embedding approaches with classical dynamic impact assessments.
翻訳日:2024-03-05 23:06:21 公開日:2024-02-28
# GraphPub: 高可用性を備えた差分プライバシーグラフの生成

GraphPub: Generation of Differential Privacy Graph with High Availability ( http://arxiv.org/abs/2403.00030v1 )

ライセンス: Link先を確認
Wanghan Xu, Bin Shi, Ao Liu, Jiqiang Zhang, Bo Dong(参考訳) 近年,グラフニューラルネットワーク(GNN)の急速な発展に伴い,GNNタスク用のグラフデータセットがますます多く発表されている。 しかし、上流のデータ所有者がグラフデータを公開する場合、多くのプライバシー上の懸念がある。 差分プライバシー(DP)は、プライバシを保護する一般的な方法であるが、グラフデータの複雑なトポロジ構造のため、グラフにDPを適用すると、GNNモデルのメッセージパッシングや集約に影響を与え、モデルの精度が低下する。 本稿では、グラフトポロジを保護しつつ、データの可用性が基本的に変化しないことを保証する新しいグラフエッジ保護フレームワーク、グラフパブリッシャ(GraphPub)を提案する。 リバース・ラーニングとエンコーダ・デコーダ・メカニズムによって、ノードの特徴の集約に大きな悪影響を及ぼさない偽のエッジを探索し、それらを使用して実際のエッジを置き換える。 修正されたグラフは公開され、実際のデータと偽データの区別が難しい。 十分な実験により、我々のフレームワークは、非常に低いプライバシー予算で、元のグラフに近いモデル精度を実現する。

In recent years, with the rapid development of graph neural networks (GNN), more and more graph datasets have been published for GNN tasks. However, when an upstream data owner publishes graph data, there are often many privacy concerns, because many real-world graph data contain sensitive information like person's friend list. Differential privacy (DP) is a common method to protect privacy, but due to the complex topological structure of graph data, applying DP on graphs often affects the message passing and aggregation of GNN models, leading to a decrease in model accuracy. In this paper, we propose a novel graph edge protection framework, graph publisher (GraphPub), which can protect graph topology while ensuring that the availability of data is basically unchanged. Through reverse learning and the encoder-decoder mechanism, we search for some false edges that do not have a large negative impact on the aggregation of node features, and use them to replace some real edges. The modified graph will be published, which is difficult to distinguish between real and false data. Sufficient experiments prove that our framework achieves model accuracy close to the original graph with an extremely low privacy budget.
翻訳日:2024-03-05 23:05:53 公開日:2024-02-28
# 連続観測とオンラインしきい値問合せにおける差分プライバシーの下限

Lower Bounds for Differential Privacy Under Continual Observation and Online Threshold Queries ( http://arxiv.org/abs/2403.00028v1 )

ライセンス: Link先を確認
Edith Cohen, Xin Lyu, Jelani Nelson, Tam\'as Sarl\'os, Uri Stemmer(参考訳) 時間外プライバシの価格」の研究における最も基本的な問題の1つは、dwork et al. (2010) と chan et al. (2010) によって導入されたいわゆるプライベートカウンター問題である。 本稿では,各イベントの存在を隠蔽しながら,時間とともに発生するイベント数を追跡することを目的とする。 より具体的に言うと、ステップ$t\in[t]$のたびに(オンラインのやり方で)$\delta_t\geq 0$の新しいイベントが発生し、推定$n_t\approx\sum_{j=1}^t \delta_j$で応答しなければならない。 プライバシ要件は、すべてのアウトプットが、すべての時間ステップにわたって、イベントレベルの差分プライバシを満たすことです。 ここでの最大の疑問は、エラーが時間ステップの総数$T$とイベントの総数$n$に依存する必要があるかということです。 Dwork et al. (2015) は$O\left(\log(T)+\log^2(n)\right)$ の上限を示し、Hnzinger et al. (2023) は$Omega\left(\min\{\log n, \log T\right)$ の上限を示した。 我々は、$\Omega\left(\min\{n,\log T\right)$という新しい下界を示し、$T$への依存が厳密であり、$\log^2 n=O(\log T)$のスパースケースでは厳密である。 以下に示すのは、$\bullet$という下限が"オンラインしきい値問題(online thresholds problem)"に拡張されていることを示しています。 これは Bun et al. (2017) の公開問題を解決する。 $\bullet$ 我々の下限は、初めて、プライベートオンライン学習者と非プライベートオンライン学習者によって得られる誤りの数とを分けることを意味する。 これは、Sanyal と Ramponi が公表した COLT'22 の公開質問を部分的に解決する。 $\bullet$ 我々の下限は、プライベートオンライン学習の標準モデルと、最近提案された「プライベートオンライン予測」と呼ばれる緩和版との、最初の分離をもたらす。

One of the most basic problems for studying the "price of privacy over time" is the so called private counter problem, introduced by Dwork et al. (2010) and Chan et al. (2010). In this problem, we aim to track the number of events that occur over time, while hiding the existence of every single event. More specifically, in every time step $t\in[T]$ we learn (in an online fashion) that $\Delta_t\geq 0$ new events have occurred, and must respond with an estimate $n_t\approx\sum_{j=1}^t \Delta_j$. The privacy requirement is that all of the outputs together, across all time steps, satisfy event level differential privacy. The main question here is how our error needs to depend on the total number of time steps $T$ and the total number of events $n$. Dwork et al. (2015) showed an upper bound of $O\left(\log(T)+\log^2(n)\right)$, and Henzinger et al. (2023) showed a lower bound of $\Omega\left(\min\{\log n, \log T\}\right)$. We show a new lower bound of $\Omega\left(\min\{n,\log T\}\right)$, which is tight w.r.t. the dependence on $T$, and is tight in the sparse case where $\log^2 n=O(\log T)$. Our lower bound has the following implications: $\bullet$ We show that our lower bound extends to the "online thresholds problem", where the goal is to privately answer many "quantile queries" when these queries are presented one-by-one. This resolves an open question of Bun et al. (2017). $\bullet$ Our lower bound implies, for the first time, a separation between the number of mistakes obtainable by a private online learner and a non-private online learner. This partially resolves a COLT'22 open question published by Sanyal and Ramponi. $\bullet$ Our lower bound also yields the first separation between the standard model of private online learning and a recently proposed relaxed variant of it, called private online prediction.
翻訳日:2024-03-05 23:05:30 公開日:2024-02-28
# 複雑ネットワークの最悪のロバスト性評価のためのクイックフレームワーク

A Quick Framework for Evaluating Worst Robustness of Complex Networks ( http://arxiv.org/abs/2403.00027v1 )

ライセンス: Link先を確認
Wenjun Jiang, Peiyan Li, Tianlong Fan, Ting Li, Chuan-fu Zhang, Tao Zhang, Zong-fu Luo(参考訳) ネットワークの理解、設計、最適化、リハビリテーションにおいてロバスト性が重要であり、シミュレーション攻撃が一般的な評価方法である。 シミュレーション攻撃は、しばしば時間を要するか、あるいは非現実的であるが、より重要で、過度に見過ごされる欠点は、攻撃戦略が単に崩壊の潜在的なパラダイムを提供するだけである。 最大の懸念は、 最悪のシナリオや最も厳しい攻撃に直面している場合、あるシステムに対して '`Worst Robustness'' と呼ばれるロバスト性の限界は何ですか? システムの最悪の堅牢性を理解することは、信頼性の限界を把握し、保護能力を正確に評価し、関連する設計とセキュリティ維持コストを決定する上で不可欠である。 これらの課題に対処するために,知識の積み重ねに基づくMDA(Most Destruction Attack)の概念を導入する。 mdaはネットワークの最悪のロバスト性を評価するために用いられ、続いてcnnアルゴリズムを適用して最悪のロバスト性予測を行う。 我々は,mdaの論理的妥当性を確立し,モデルと経験的ネットワークを包含する多様なネットワークトポロジーにまたがる最悪のロバスト性を予測するcnnアルゴリズムの例外的性能を強調する。

Robustness is pivotal for comprehending, designing, optimizing, and rehabilitating networks, with simulation attacks being the prevailing evaluation method. Simulation attacks are often time-consuming or even impractical, however, a more crucial yet persistently overlooked drawback is that any attack strategy merely provides a potential paradigm of disintegration. The key concern is: in the worst-case scenario or facing the most severe attacks, what is the limit of robustness, referred to as ``Worst Robustness'', for a given system? Understanding a system's worst robustness is imperative for grasping its reliability limits, accurately evaluating protective capabilities, and determining associated design and security maintenance costs. To address these challenges, we introduce the concept of Most Destruction Attack (MDA) based on the idea of knowledge stacking. MDA is employed to assess the worst robustness of networks, followed by the application of an adapted CNN algorithm for rapid worst robustness prediction. We establish the logical validity of MDA and highlight the exceptional performance of the adapted CNN algorithm in predicting the worst robustness across diverse network topologies, encompassing both model and empirical networks.
翻訳日:2024-03-05 23:04:42 公開日:2024-02-28
# SuperdropNet: ドロップレットベースのクラウドマイクロ物理のための安定的で正確な機械学習プロキシ

SuperdropNet: a Stable and Accurate Machine Learning Proxy for Droplet-based Cloud Microphysics ( http://arxiv.org/abs/2402.18354v1 )

ライセンス: Link先を確認
Shivani Sharma and David Greenberg(参考訳) 雲のマイクロフィジカルは気候や気象現象に重要な影響をもたらし、不正確な表現は予測精度を制限できる。 大気モデルによって嵐や雲が徐々に解消される一方で、基礎となるマイクロフィジカルの精度は、仮定の単純化に基づく計算効率の高いバルクモーメントスキームによって制限されている。 液滴ベースのラグランジアンスキームはより正確であるが、計算のオーバーヘッドが大きいため使用できない。 機械学習(ml)ベースのスキームは、巨大な液滴ベースのシミュレーションデータセットから学習することで、このギャップを埋めることができるが、バルクモーメントスキームの精度と安定性に合わせるのにこれまで苦労してきた。 この課題に対処するため、我々はラグランジアンスーパードロップレットシミュレーションのMLベースのエミュレータであるSuperdropNetを開発した。 精度と安定性を向上させるため,訓練中の多段階自己回帰予測を行い,身体的制約を課し,訓練データの確率性を慎重に制御する。 Superdropnetは、従来のMLエミュレータよりも、ハイドロメテア状態とクラウド間遷移の時間を正確に予測し、多くの場合、バルクモーメントスキームと一致または性能が良くなった。 さらに,多段階自己回帰訓練による性能向上,およびスーパードロップネットおよび他のマイクロフィジカルスキームであるハイドロメテクターの性能,数,サイズ分布について詳細な解析を行った。 その結果,MLモデルは液滴シミュレーションと整合して,効果的に雲のマイクロ物理をエミュレートできることが示唆された。

Cloud microphysics has important consequences for climate and weather phenomena, and inaccurate representations can limit forecast accuracy. While atmospheric models increasingly resolve storms and clouds, the accuracy of the underlying microphysics remains limited by computationally expedient bulk moment schemes based on simplifying assumptions. Droplet-based Lagrangian schemes are more accurate but are underutilized due to their large computational overhead. Machine learning (ML) based schemes can bridge this gap by learning from vast droplet-based simulation datasets, but have so far struggled to match the accuracy and stability of bulk moment schemes. To address this challenge, we developed SuperdropNet, an ML-based emulator of the Lagrangian superdroplet simulations. To improve accuracy and stability, we employ multi-step autoregressive prediction during training, impose physical constraints, and carefully control stochasticity in the training data. Superdropnet predicted hydrometeor states and cloud-to-rain transition times more accurately than previous ML emulators, and matched or outperformed bulk moment schemes in many cases. We further carried out detailed analyses to reveal how multistep autoregressive training improves performance, and how the performance of SuperdropNet and other microphysical schemes hydrometeors' mass, number and size distribution. Together our results suggest that ML models can effectively emulate cloud microphysics, in a manner consistent with droplet-based simulations.
翻訳日:2024-03-04 13:32:38 公開日:2024-02-28
# Point-Unet: ボリュームセグメンテーションのためのコンテキスト認識型ポイントベースニューラルネットワーク

Point-Unet: A Context-aware Point-based Neural Network for Volumetric Segmentation ( http://arxiv.org/abs/2203.08964v2 )

ライセンス: Link先を確認
Ngoc-Vuong Ho, Tan Nguyen, Gia-Han Diep, Ngan Le, Binh-Son Hua(参考訳) 近年, 深層学習を用いた医用画像解析が盛んに行われており, 医用画像セグメンテーションや兄弟姉妹, ボリューム画像セグメンテーションなど, 下流業務に優れた性能を発揮している。 特に、典型的なボリュームセグメンテーションネットワークは、ボリュームデータを個々のvoxel ‘slices’のスタックとして扱うvoxelグリッド表現に強く依存しており、学習者はvoxelグリッドを既存のイメージベースのセグメンテーションネットワークを3dドメインに拡張するのと同じくらい簡単にセグメンテーションすることができる。 しかしながら、voxelグリッド表現を使用するには、大きなメモリフットプリント、高価なテスト時間、ソリューションのスケーラビリティの制限が必要になる。 本稿では,3次元点雲を用いた深層学習の効率を体積区分に組み込んだ新しい手法であるpoint-unetを提案する。 私たちのキーとなるアイデアは、まず注意確率マップを学習してボリュームの関心領域を予測し、その後、ポイントベースニューラルネットワークを用いて分割されたスパーポイントクラウドにボリュームをサンプリングすることです。 brats18,brats19,brats20といった小規模データセットと大規模データセットの両方を用いて,医療容積分割タスクの実験を行った。 異なるメトリクスに関する包括的なベンチマークによると、私たちのコンテキスト認識のPoint-Unetは、SOTAのボクセルベースのネットワークを、トレーニング中のメモリ使用量、テスト中の時間消費の両方で、しっかりと性能を上げている。 私たちのコードはhttps://github.com/vinairesearch/point-unetで利用可能です。

Medical image analysis using deep learning has recently been prevalent, showing great performance for various downstream tasks including medical image segmentation and its sibling, volumetric image segmentation. Particularly, a typical volumetric segmentation network strongly relies on a voxel grid representation which treats volumetric data as a stack of individual voxel `slices', which allows learning to segment a voxel grid to be as straightforward as extending existing image-based segmentation networks to the 3D domain. However, using a voxel grid representation requires a large memory footprint, expensive test-time and limiting the scalability of the solutions. In this paper, we propose Point-Unet, a novel method that incorporates the efficiency of deep learning with 3D point clouds into volumetric segmentation. Our key idea is to first predict the regions of interest in the volume by learning an attentional probability map, which is then used for sampling the volume into a sparse point cloud that is subsequently segmented using a point-based neural network. We have conducted the experiments on the medical volumetric segmentation task with both a small-scale dataset Pancreas and large-scale datasets BraTS18, BraTS19, and BraTS20 challenges. A comprehensive benchmark on different metrics has shown that our context-aware Point-Unet robustly outperforms the SOTA voxel-based networks at both accuracies, memory usage during training, and time consumption during testing. Our code is available at https://github.com/VinAIResearch/Point-Unet.
翻訳日:2024-03-01 19:17:49 公開日:2024-02-28
# 多重導波パルス整形によるクロス共振ゲートの実験的誤差抑制

Experimental error suppression in Cross-Resonance gates via multi-derivative pulse shaping ( http://arxiv.org/abs/2303.01427v3 )

ライセンス: Link先を確認
Boxi Li, Tommaso Calarco, Felix Motzoi(参考訳) 量子回路は数百キュービットで印象的な幅に達しているが、その深さはペースを維持できていない。 特に、固定周波数超伝導アーキテクチャに基づくクラウドコンピューティングゲートは、半年にわたって平均1%の誤差範囲でホバリングし、コヒーレンス時間によって提供されるポテンシャルをかなり過小評価している。 強い衝動と大量の研究にもかかわらず、これらのマルチキュービットクラウドデバイスでは、特に高度な制御方法に必要なキャリブレーションプロセスが要求されるため、エラー抑制の実験的な実証は行われていない。 本稿では,マルチ導出型マルチコンストラントパルス整形に基づく新しい簡易制御法を用いて,この目標を達成する。 提案手法は,IBM Quantum Platform上の4つのキュービットに対して,制限かつ断続的なアクセスで2~4倍の精度向上を実現し,これらの大規模固定周波数系がより優れたコヒーレンス時間を完全に活用できるようにする。 99.7(1)%の達成されたcnotフィデルは、コヒーレントな制御エラー抑制と加速ゲート時間の両方から得られる、マルチキュービット、固定周波数のプラットフォームで現在利用可能である。

While quantum circuits are reaching impressive widths in the hundreds of qubits, their depths have not been able to keep pace. In particular, cloud computing gates based on fixed-frequency superconducting architectures have stalled, hovering on average around the 1% error range for half a decade, considerably underutilizing the potential offered by their coherence time. Despite the strong impetus and a plethora of research, no experimental demonstration of error suppression has been shown to date on these multi-qubit cloud devices, primarily due to the demanding calibration process required for advanced control methods. Here, we achieve this goal, using a novel yet simple control method based on multi-derivative, multi-constraint pulse shaping. Our approach establishes a two to fourfold improvement on the state-of-the-art, demonstrated on four qubits on the IBM Quantum Platform with limited and intermittent access, enabling these large-scale fixed-frequency systems to fully take advantage of their superior coherence times. The achieved CNOT fidelities of 99.7(1)%are currently the best available on the multi-qubit, fixed-frequency platform, coming from both coherent control error suppression and accelerated gate time.
翻訳日:2024-03-01 19:10:48 公開日:2024-02-28
# 実演が生成世界モデルに合致する時: オフライン逆強化学習のための最大ラキシブルフレームワーク

When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning ( http://arxiv.org/abs/2302.07457v3 )

ライセンス: Link先を確認
Siliang Zeng, Chenliang Li, Alfredo Garcia, Mingyi Hong(参考訳) オフライン逆強化学習(オフラインirl)は、専門家エージェントによる固定された有限のデモンストレーションで観察された動作を裏付ける報酬と環境ダイナミクスの構造を回復することを目的としている。 タスクの実行に関する専門知識の正確なモデルは、臨床意思決定や自動運転といった安全性に敏感な応用に応用できる。 しかしながら、観察された行動において暗黙的な専門家の選好の構造は、専門家の環境力学のモデル(すなわち「世界」モデル)と密接に関連している。 したがって、限られた範囲の有限データから得られた世界の不正確なモデルは、推定報酬において不正確を複雑にする可能性がある。 この問題に対処するため,我々は,専門家の政策(下位レベル)の保守的モデルに基づいて上層レベルが最大化されるような推定タスクの2レベル最適化手法を提案する。 政策モデルは、世界の推定モデルの不確実性の増大するペナルティの対象となる報酬を最大化するという点で保守的である。 本稿では,二段階最適化問題の定式化を解いた新しいアルゴリズムフレームワークを提案し,関連する最適報酬推定器の性能の統計的および計算的保証を提供する。 最後に、提案アルゴリズムは、MuJoCoの連続制御タスクとD4RLベンチマークの異なるデータセットに対して、最先端のオフラインIRLと模倣学習ベンチマークを大きなマージンで上回ることを示す。

Offline inverse reinforcement learning (Offline IRL) aims to recover the structure of rewards and environment dynamics that underlie observed actions in a fixed, finite set of demonstrations from an expert agent. Accurate models of expertise in executing a task has applications in safety-sensitive applications such as clinical decision making and autonomous driving. However, the structure of an expert's preferences implicit in observed actions is closely linked to the expert's model of the environment dynamics (i.e. the ``world'' model). Thus, inaccurate models of the world obtained from finite data with limited coverage could compound inaccuracy in estimated rewards. To address this issue, we propose a bi-level optimization formulation of the estimation task wherein the upper level is likelihood maximization based upon a conservative model of the expert's policy (lower level). The policy model is conservative in that it maximizes reward subject to a penalty that is increasing in the uncertainty of the estimated model of the world. We propose a new algorithmic framework to solve the bi-level optimization problem formulation and provide statistical and computational guarantees of performance for the associated optimal reward estimator. Finally, we demonstrate that the proposed algorithm outperforms the state-of-the-art offline IRL and imitation learning benchmarks by a large margin, over the continuous control tasks in MuJoCo and different datasets in the D4RL benchmark.
翻訳日:2024-03-01 19:09:32 公開日:2024-02-28
# ゼロショット協調のための協調学習フレームワーク

Cooperative Open-ended Learning Framework for Zero-shot Coordination ( http://arxiv.org/abs/2302.04831v4 )

ライセンス: Link先を確認
Yang Li, Shao Zhang, Jichen Sun, Yali Du, Ying Wen, Xinbing Wang, Wei Pan(参考訳) 協調型人工知能(ai)におけるゼロショットコーディネーションは依然として大きな課題であり、幅広い未知のパートナーと効果的に協調することを意味する。 以前のアルゴリズムは、戦略や行動の多様性を改善するために集団内の固定目標を最適化することで、この問題に対処しようとした。 しかし、これらのアプローチは学習の喪失と集団内の特定の戦略、すなわち協調的非互換性の欠如に繋がる可能性がある。 そこで本稿では,各戦略の協調能力を評価するために,グラフ理論の観点から2人のプレイヤーと協調ゲームにおけるオープンエンド目標を構築する協調オープンエンド学習(cole)フレームワークを提案する。 さらに,ゲーム理論とグラフ理論の知識を活用した実用的なアルゴリズムを提案する。 さらに,アルゴリズムの学習過程の解析により,協調的不整合を効率的に克服できることを示した。 オーバークッキングゲーム環境における実験結果から,本手法は,異なるレベルのパートナとのコーディネートにおいて,現在の最先端手法よりも優れていることが示された。 デモはhttps://sites.google.com/view/cole-2023で公開しています。

Zero-shot coordination in cooperative artificial intelligence (AI) remains a significant challenge, which means effectively coordinating with a wide range of unseen partners. Previous algorithms have attempted to address this challenge by optimizing fixed objectives within a population to improve strategy or behaviour diversity. However, these approaches can result in a loss of learning and an inability to cooperate with certain strategies within the population, known as cooperative incompatibility. To address this issue, we propose the Cooperative Open-ended LEarning (COLE) framework, which constructs open-ended objectives in cooperative games with two players from the perspective of graph theory to assess and identify the cooperative ability of each strategy. We further specify the framework and propose a practical algorithm that leverages knowledge from game theory and graph theory. Furthermore, an analysis of the learning process of the algorithm shows that it can efficiently overcome cooperative incompatibility. The experimental results in the Overcooked game environment demonstrate that our method outperforms current state-of-the-art methods when coordinating with different-level partners. Our demo is available at https://sites.google.com/view/cole-2023.
翻訳日:2024-03-01 19:08:43 公開日:2024-02-28
# 雑音混入の信号回復のための統計的成分分離

Statistical Component Separation for Targeted Signal Recovery in Noisy Mixtures ( http://arxiv.org/abs/2306.15012v3 )

ライセンス: Link先を確認
Bruno R\'egaldo-Saint Blancard, Michael Eickenberg(参考訳) 添加剤混合物からの信号の分離は、与えられた信号の特定の性質のみに関心がある場合、必然的に難しい問題となる。 本研究では,目標信号の統計的記述子集合を雑音混合から復元することに焦点を当てた,より単純な「統計成分分離」問題に取り組む。 ノイズプロセスのサンプルへのアクセスを仮定し,ノイズサンプルによる解候補の統計値と観測混合物の統計値とを一致させる手法を検討した。 まず, この手法の挙動を, 解析的に計算可能な簡単な例を用いて解析する。 そして、それを画像認知コンテキストに適用する。 1)ウェーブレットベースの記述子 2)convnetによる天体物理学とイメージネットデータの記述子。 1)の場合,本手法は,ほとんどの状況において標準的なデノナイジング法よりも,対象データのディスクリプタをよりよく回収することを示す。 また、この目的のために構築されていないにもかかわらず、全信号再構成におけるピーク信号対雑音比の点で驚くほどよく機能する。 比較すると 表現は 2) 画像復調にはあまり適さない。 最後に,この手法を拡散ステップワイズアルゴリズムを導入することで拡張し,初期手法に対する新たな視点を与え,特定の状況下で画像の雑音化に有望な結果をもたらす。

Separating signals from an additive mixture may be an unnecessarily hard problem when one is only interested in specific properties of a given signal. In this work, we tackle simpler "statistical component separation" problems that focus on recovering a predefined set of statistical descriptors of a target signal from a noisy mixture. Assuming access to samples of the noise process, we investigate a method devised to match the statistics of the solution candidate corrupted by noise samples with those of the observed mixture. We first analyze the behavior of this method using simple examples with analytically tractable calculations. Then, we apply it in an image denoising context employing 1) wavelet-based descriptors, 2) ConvNet-based descriptors on astrophysics and ImageNet data. In the case of 1), we show that our method better recovers the descriptors of the target data than a standard denoising method in most situations. Additionally, despite not constructed for this purpose, it performs surprisingly well in terms of peak signal-to-noise ratio on full signal reconstruction. In comparison, representation 2) appears less suitable for image denoising. Finally, we extend this method by introducing a diffusive stepwise algorithm which gives a new perspective to the initial method and leads to promising results for image denoising under specific circumstances.
翻訳日:2024-03-01 19:01:10 公開日:2024-02-28
# 差分拡散:各ピクセルに強度を与える

Differential Diffusion: Giving Each Pixel Its Strength ( http://arxiv.org/abs/2306.00950v2 )

ライセンス: Link先を確認
Eran Levin, Ohad Fried(参考訳) 拡散モデルは画像生成と編集に革命をもたらし、条件付きおよび無条件画像合成における最先端の結果を生成する。 現在の技術では、画像編集における変更の程度をユーザが制御できるが、制御性は編集領域全体のグローバルな変更に限られている。 本稿では,画素単位または画像領域単位の変更量のカスタマイズを可能にする新しい枠組みを提案する。 我々のフレームワークは既存の拡散モデルに統合でき、この機能により拡張できます。 このような変更量に対する粒度の制御は、個々のオブジェクトの修正範囲の制御や、徐々に空間的な変更を導入する機能など、さまざまな新しい編集機能を開く。 さらに,画像の一部が完成すると同時に,周囲を微調整してシームレスな統合を実現するという,ソフト・インペインティングにおけるフレームワークの有効性を示す。 さらに,異なる変化量の影響を探索する新しいツールについても紹介する。 私たちのフレームワークは推論中のみ動作し、モデルのトレーニングや微調整は不要です。 本手法を現在のオープン・オブ・ザ・アートモデルを用いて実証し,定量的・質的比較とユーザ・スタディを用いて検証する。 私たちのコードは、https://github.com/exx8/differential-diffusionで利用可能です。

Diffusion models have revolutionized image generation and editing, producing state-of-the-art results in conditioned and unconditioned image synthesis. While current techniques enable user control over the degree of change in an image edit, the controllability is limited to global changes over an entire edited region. This paper introduces a novel framework that enables customization of the amount of change per pixel or per image region. Our framework can be integrated into any existing diffusion model, enhancing it with this capability. Such granular control on the quantity of change opens up a diverse array of new editing capabilities, such as control of the extent to which individual objects are modified, or the ability to introduce gradual spatial changes. Furthermore, we showcase the framework's effectiveness in soft-inpainting -- the completion of portions of an image while subtly adjusting the surrounding areas to ensure seamless integration. Additionally, we introduce a new tool for exploring the effects of different change quantities. Our framework operates solely during inference, requiring no model training or fine-tuning. We demonstrate our method with the current open state-of-the-art models, and validate it via both quantitative and qualitative comparisons, and a user study. Our code is available at: https://github.com/exx8/differential-diffusion
翻訳日:2024-03-01 18:59:49 公開日:2024-02-28
# 言語に基づく説得ゲームにおける人選予測:シミュレーションに基づくオフポリシー評価

Human Choice Prediction in Language-based Persuasion Games: Simulation-based Off-Policy Evaluation ( http://arxiv.org/abs/2305.10361v4 )

ライセンス: Link先を確認
Eilam Shapira, Reut Apel, Moshe Tennenholtz, Roi Reichart(参考訳) LLM(Large Language Models)の最近の進歩は、人間や人工エージェントとの相互作用を伴うタスクのためのLLMベースのエージェントの設計への関心を喚起している。 本稿では,このようなエージェントの設計における重要な側面について論じる: 言語に基づく説得ゲームに焦点を当てた,オフ政治評価(OPE)における人間の決定の予測。 専用アプリケーションを用いて,人間による87Kの意思決定データセットを収集した。 我々のアプローチでは、あるエージェントサブセットと人間のインタラクションに関するモデルをトレーニングし、他のエージェントとのインタラクションにおける決定を予測する。 本研究では, エージェント空間全体にわたるインタラクションと, 意思決定者のシミュレートを含むシミュレーション手法を提案する。 私たちの学習戦略は、上位15%のチャレンジケースにおける予測精度を7.1%向上させるなど、大きなope向上をもたらします。 私たちのコードと生成した巨大なデータセットは補足資料として提出され、GitHubリポジトリで公開されている。

Recent advances in Large Language Models (LLMs) have spurred interest in designing LLM-based agents for tasks that involve interaction with human and artificial agents. This paper addresses a key aspect in the design of such agents: Predicting human decision in off-policy evaluation (OPE), focusing on language-based persuasion games, where the agent's goal is to influence its partner's decisions through verbal messages. Using a dedicated application, we collected a dataset of 87K decisions from humans playing a repeated decision-making game with artificial agents. Our approach involves training a model on human interactions with one agents subset to predict decisions when interacting with another. To enhance off-policy performance, we propose a simulation technique involving interactions across the entire agent space and simulated decision makers. Our learning strategy yields significant OPE gains, e.g., improving prediction accuracy in the top 15% challenging cases by 7.1%. Our code and the large dataset we collected and generated are submitted as supplementary material and publicly available in our GitHub repository: https://github.com/eilamshapira/HumanChoicePrediction
翻訳日:2024-03-01 18:58:26 公開日:2024-02-28
# Symphony: Deferred Batch Scheduling を用いた DNN モデルの最適化

Symphony: Optimized DNN Model Serving using Deferred Batch Scheduling ( http://arxiv.org/abs/2308.07470v2 )

ライセンス: Link先を確認
Lequn Chen, Weixin Deng, Anirudh Canumalla, Yu Xin, Danyang Zhuo, Matthai Philipose, Arvind Krishnamurthy(参考訳) 大規模なバッチサイズを持つことは、DNNモデル推論の加速効率と性能を高める上で最も重要な側面の1つである。 しかし、既存のモデルサービスシステムは、これらのシステムがアクセルアイドル時間を最小化するためにアクセラレーターにリクエストを積極的にディスパッチしているため、遅延目標を満たしながら十分なバッチサイズを達成できない。 システム効率とスループットを最適化するために遅延バッチスケジューリングを探索するDNNサービスシステムであるSymphonyを提案する。 他の以前のシステムとは異なり、symphonyのgpu使用はロード-プロポーザルであり、適切な数のgpuでワークロードを統合し、クラスタの自動スケーリングツールとスムーズに動作する。 シンフォニーは2つの中核設計点で構成されている。 まず、Symphonyは、一連の推論要求を発行できるスケジュール可能なウィンドウを定義する。 このウィンドウは、要求のSLOを満たしながらアクセラレーション効率を向上させるために計算される。 第二に、Symphonyは、スケジュール可能なウィンドウでリクエストをディスパッチおよび実行するために、アクセラレータ間でスケーラブルで低レイテンシできめ細かい調整スキームを実装している。 広範なスケジューラのみのベンチマークを通じて、Symphonyは毎秒数百万のリクエストをスケジュールし、数千のGPUを調整すると同時に、ワークロードの変更に対応する堅牢なオートスケーリングを可能にします。 Symphonyは、同じGPU数が与えられ、同じワークロードが与えられた時に60%のGPUが削減された場合、従来のシステムよりも5倍高い出力を達成した。

Having large batch sizes is one of the most critical aspects of increasing the accelerator efficiency and the performance of DNN model inference. However, existing model serving systems cannot achieve adequate batch sizes while meeting latency objectives as these systems eagerly dispatch requests to accelerators to minimize the accelerator idle time. We propose Symphony, a DNN serving system that explores deferred batch scheduling to optimize system efficiency and throughput. Further, unlike other prior systems, Symphony's GPU usage is load-proportional: it consolidates workloads on the appropriate number of GPUs and works smoothly with cluster auto-scaling tools. Symphony consists of two core design points. First, Symphony defines a schedulable window in which a batch of inference requests can be dispatched. This window is computed in order to improve accelerator efficiency while meeting the request's SLO. Second, Symphony implements a scalable, low-latency, fine-grained coordination scheme across accelerators to dispatch and execute requests in the schedulable window. Through extensive scheduler-only benchmarks, we demonstrate that Symphony can schedule millions of requests per second and coordinate thousands of GPUs while also enabling robust autoscaling that adapts to workload changes. Symphony outperforms prior systems by achieving 5x higher goodput when given the same number of GPUs and 60% reduction in GPUs when given the same workload.
翻訳日:2024-03-01 18:51:55 公開日:2024-02-28
# robot.txt制約下におけるwebページクローラ戦略

Web crawler strategies for web pages under robot.txt restriction ( http://arxiv.org/abs/2308.04689v2 )

ライセンス: Link先を確認
Piyush Vyas, Akhilesh Chauhan, Tushar Mandge, Surbhi Hardikar(参考訳) 現在、誰もがworld wide webを知っていて、毎日インターネットで仕事をしている。 本稿では,ユーザが入力したキーワードを検索して検索する検索エンジンについて紹介する。 検索エンジンは、ネットサーファーに提供するための便利な検索結果として、異なる検索アルゴリズムを使用する。 ネットサーファーはトップの検索結果を検索するが、ウェブページの結果は検索エンジンよりも上位になったのか? 検索エンジンはどうやってデータベースの ウェブページを手に入れたの? 本稿では,これらすべての基本質問に対する回答について述べる。 本稿では,Webクローラのサーチエンジンとロボット排除プロトコルのルールを扱うWebクローラについても論じる。 webmasterはrobot.txtファイルで異なる制限事実を使用してwebクローラを指示する。

In the present time, all know about World Wide Web and work over the Internet daily. In this paper, we introduce the search engines working for keywords that are entered by users to find something. The search engine uses different search algorithms for convenient results for providing to the net surfer. Net surfers go with the top search results but how did the results of web pages get higher ranks over search engines? how the search engine got that all the web pages in the database? This paper gives the answers to all these kinds of basic questions. Web crawlers working for search engines and robot exclusion protocol rules for web crawlers are also addressed in this research paper. Webmaster uses different restriction facts in robot.txt file to instruct web crawler, some basic formats of robot.txt are also mentioned in this paper.
翻訳日:2024-03-01 18:51:02 公開日:2024-02-28
# バッキンガムの$\pi$定理に基づく無次元のポリシー:これは数値結果を一般化する良い方法なのだろうか?

Dimensionless Policies based on the Buckingham $\pi$ Theorem: Is This a Good Way to Generalize Numerical Results? ( http://arxiv.org/abs/2307.15852v2 )

ライセンス: Link先を確認
Alexandre Girard(参考訳) 題名の質問に対する答えは、文脈(運動制御問題を定義する変数のリスト)が次元的に類似している場合にイエスである。 本稿では、バッキンガムの$\pi$定理を、物理システムの制御ポリシーを様々な状況で再利用できるより汎用的な知識にエンコードするツールとして用いることを検討する。 このアプローチは、制御ポリシーを学習するアルゴリズムにおける基本単位のスケーリングに不変性をもたらすと解釈できる。 まず,無次元変数を用いた運動制御問題の解を復元することにより,(1)パラメータ数の減少を伴うポリシーマッピングを行い,(2)特定のシステムに対して数値的に生成した制御ポリシーを,入力変数と出力変数を適切にスケーリングすることで,次元類似系のサブセットに正確に転送できることを示す。 次に, トルク制限反転振子を揺らし, スリッパ状態において車両の位置決めを行う古典的な運動制御問題に対して, 数値的に生成された最適制御器を用いて, これら2つの汎用的な理論結果を示す。 また、コンテクスト変数の空間内の領域であるレギュレーションの概念についても論じ、類似性の条件を緩和するのに役立つ。 さらに、文脈固有のブラックボックスポリシーの入力と出力の次元的スケーリングの適用は、線形2次レギュレータ(LQR)と計算トルクコントローラを例に、ある条件下で解析方程式に新しいシステムパラメータを置換することと等価である。 このアプローチが、より複雑な高次元問題に対するポリシーの一般化にどの程度実用的になるかはまだわからないが、初期の結果は、動的プログラミングや強化学習のような数値的アプローチにとって有望なトランスファー学習ツールであることが示されている。

The answer to the question posed in the title is yes if the context (the list of variables defining the motion control problem) is dimensionally similar. This article explores the use of the Buckingham $\pi$ theorem as a tool to encode the control policies of physical systems into a more generic form of knowledge that can be reused in various situations. This approach can be interpreted as enforcing invariance to the scaling of the fundamental units in an algorithm learning a control policy. First, we show, by restating the solution to a motion control problem using dimensionless variables, that (1) the policy mapping involves a reduced number of parameters and (2) control policies generated numerically for a specific system can be transferred exactly to a subset of dimensionally similar systems by scaling the input and output variables appropriately. Those two generic theoretical results are then demonstrated, with numerically generated optimal controllers, for the classic motion control problem of swinging up a torque-limited inverted pendulum and positioning a vehicle in slippery conditions. We also discuss the concept of regime, a region in the space of context variables, that can help to relax the similarity condition. Furthermore, we discuss how applying dimensional scaling of the input and output of a context-specific black-box policy is equivalent to substituting new system parameters in an analytical equation under some conditions, using a linear quadratic regulator (LQR) and a computed torque controller as examples. It remains to be seen how practical this approach can be to generalize policies for more complex high-dimensional problems, but the early results show that it is a promising transfer learning tool for numerical approaches like dynamic programming and reinforcement learning.
翻訳日:2024-03-01 18:50:25 公開日:2024-02-28
# ファジィマッチング器の漏洩について

On the Leakage of Fuzzy Matchers ( http://arxiv.org/abs/2307.13717v4 )

ライセンス: Link先を確認
Axel Durbet, Kevin Thiry-Atighehchi, Dorine Chagnon, Paul-Marie Grollemund(参考訳) 生体認証や識別システムでは、マッチ者が格納されたテンプレートと新しいテンプレートを比較してマッチがあるかどうかを決定する。 この評価は、類似度スコアと予め定義された閾値の両方に基づいている。 プライバシに関する法律の遵守を改善するために、matcherはしきい値ベースの難読化距離(つまりファジィマッチング)に基づいて構築することができる。 バイナリ出力 ("yes") や "no" を超えて、ほとんどのアルゴリズムは、例えば距離の値など、より正確な計算を行う。 このような正確な情報は、マッチ者が返さない場合でも漏れやすい。 これは、マルウェアの感染や、サイドチャネル攻撃や部分的に難解なデザインによって例示される、プライバシー保護の弱いマッチ器の使用によって起こりうる。 本稿では,しきい値に基づく難読化距離に着目し,距離評価中の情報漏えいの分析を行う。 データプライバシに影響を及ぼす情報漏洩シナリオのカタログを提供する。 各シナリオは、計算コストの観点から定量化された影響を伴うユニークな攻撃を引き起こし、セキュリティレベルをよりよく理解する。

In a biometric authentication or identification system, the matcher compares a stored and a fresh template to determine whether there is a match. This assessment is based on both a similarity score and a predefined threshold. For better compliance with privacy legislation, the matcher can be built upon a threshold-based obfuscated distance (i.e., Fuzzy Matcher). Beyond the binary output ("yes" or "no"), most algorithms perform more precise computations, e.g., the value of the distance. Such precise information is prone to leakage even when not returned by the matcher. This can occur due to a malware infection or the use of a weakly privacy-preserving matcher, exemplified by side channel attacks or partially obfuscated designs. This paper provides an analysis of information leakage during distance evaluation, with an emphasis on threshold-based obfuscated distance. We provide a catalog of information leakage scenarios with their impacts on data privacy. Each scenario gives rise to unique attacks with impacts quantified in terms of computational costs, thereby providing a better understanding of the security level.
翻訳日:2024-03-01 18:49:52 公開日:2024-02-28
# ジェネレーティブAIによる医療会話の有効性評価のための基礎指標

Foundation Metrics for Evaluating Effectiveness of Healthcare Conversations Powered by Generative AI ( http://arxiv.org/abs/2309.12444v3 )

ライセンス: Link先を確認
Mahyar Abbasian, Elahe Khatibi, Iman Azimi, David Oniani, Zahra Shakeri Hossein Abad, Alexander Thieme, Ram Sriram, Zhongqi Yang, Yanshan Wang, Bryant Lin, Olivier Gevaert, Li-Jia Li, Ramesh Jain, Amir M. Rahmani(参考訳) 生成型人工知能(generative artificial intelligence)は、従来の患者のケアをよりパーソナライズし、効率的で、積極的なプロセスに変えることで、医療提供に革命をもたらす。 対話型会話モデルとして機能するチャットボットは、この患者中心の医療変革を推進するだろう。 診断、パーソナライズされたライフスタイル・レコメンデーション、メンタルヘルスサポートなど、さまざまなサービスの提供を通じて、医療提供者のワークロード負担を軽減する一方で、患者の健康成果を大幅に増やすことが目的である。 医療アプリケーションのライフクリティカルな性質は、会話モデルのための統一的で包括的な評価指標を確立する必要がある。 様々な総合的大言語モデル(LLM)に提案されている既存の評価指標は、医療と健康の概念に関する理解の欠如と、患者の幸福を促進する上での意義を示している。 さらに、これらの指標は、信頼構築、倫理、パーソナライゼーション、共感、ユーザーの理解、感情的支援など、重要なユーザー中心の側面を無視している。 本研究の目的は,医療における対話型対話モデルの評価に特に適用可能な,最先端のLCMに基づく評価指標を検討することである。 次に、エンドユーザーの視点から医療チャットボットのパフォーマンスを徹底的に評価するための総合的な評価指標を提案する。 これらの指標は、言語処理能力の評価、実際の臨床タスクへの影響、ユーザ対話における有効性を含む。 最後に,これらの指標の定義と実装に関連する課題,特に対象オーディエンス,評価方法,評価プロセスに関わる迅速化手法といった要素の融合に重点を置く議論を行う。

Generative Artificial Intelligence is set to revolutionize healthcare delivery by transforming traditional patient care into a more personalized, efficient, and proactive process. Chatbots, serving as interactive conversational models, will probably drive this patient-centered transformation in healthcare. Through the provision of various services, including diagnosis, personalized lifestyle recommendations, and mental health support, the objective is to substantially augment patient health outcomes, all the while mitigating the workload burden on healthcare providers. The life-critical nature of healthcare applications necessitates establishing a unified and comprehensive set of evaluation metrics for conversational models. Existing evaluation metrics proposed for various generic large language models (LLMs) demonstrate a lack of comprehension regarding medical and health concepts and their significance in promoting patients' well-being. Moreover, these metrics neglect pivotal user-centered aspects, including trust-building, ethics, personalization, empathy, user comprehension, and emotional support. The purpose of this paper is to explore state-of-the-art LLM-based evaluation metrics that are specifically applicable to the assessment of interactive conversational models in healthcare. Subsequently, we present an comprehensive set of evaluation metrics designed to thoroughly assess the performance of healthcare chatbots from an end-user perspective. These metrics encompass an evaluation of language processing abilities, impact on real-world clinical tasks, and effectiveness in user-interactive conversations. Finally, we engage in a discussion concerning the challenges associated with defining and implementing these metrics, with particular emphasis on confounding factors such as the target audience, evaluation methods, and prompt techniques involved in the evaluation process.
翻訳日:2024-03-01 18:42:26 公開日:2024-02-28
# 正規化スパースランダムネットワークによる通信効率のよい連合学習

Communication-Efficient Federated Learning via Regularized Sparse Random Networks ( http://arxiv.org/abs/2309.10834v2 )

ライセンス: Link先を確認
Mohamad Mestoukirdi, Omid Esrafilian, David Gesbert, Qianrui Li, Nicolas Gresset(参考訳) 本研究では,確率的フェデレート学習における通信効率向上のための新しい手法を提案する。 この設定では、二項マスクはモデル重みの代わりに最適化され、固定される。 マスクは、より小さなターゲットネットワークと同等に一般化できるスパースサブネットワークを特徴付ける。 重要なことは、従来のフェデレート学習において浮動小数点重みよりも疎二乗マスクを交換することで、通信コストをパラメータあたり1ビット(Bpp)以上削減することである。 本研究では,従来の手法では,一貫した損失目標を用いて通信とストレージのオーバーヘッドを低減できる疎ネットワークが見つからないことを示す。 そこで本研究では,送信マスクエントロピーのプロキシとして機能する局所目標に対して正規化項を追加することを提案する。 広範な実験により、文献と比較して通信とメモリ効率が最大5桁向上し、検証精度の低下を最小限に抑えることが示されている。

This work presents a new method for enhancing communication efficiency in stochastic Federated Learning that trains over-parameterized random networks. In this setting, a binary mask is optimized instead of the model weights, which are kept fixed. The mask characterizes a sparse sub-network that is able to generalize as good as a smaller target network. Importantly, sparse binary masks are exchanged rather than the floating point weights in traditional federated learning, reducing communication cost to at most 1 bit per parameter (Bpp). We show that previous state of the art stochastic methods fail to find sparse networks that can reduce the communication and storage overhead using consistent loss objectives. To address this, we propose adding a regularization term to local objectives that acts as a proxy of the transmitted masks entropy, therefore encouraging sparser solutions by eliminating redundant features across sub-networks. Extensive empirical experiments demonstrate significant improvements in communication and memory efficiency of up to five magnitudes compared to the literature, with minimal performance degradation in validation accuracy in some instances
翻訳日:2024-03-01 18:41:08 公開日:2024-02-28
# メモリインジェクション:トランスフォーマティブ言語モデルにおける推論中のマルチホップ推論障害の修正

Memory Injections: Correcting Multi-Hop Reasoning Failures during Inference in Transformer-Based Language Models ( http://arxiv.org/abs/2309.05605v3 )

ライセンス: Link先を確認
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, Andr\'e Bauer, Kyle Chard, Ian Foster(参考訳) マルチホップ推論に答えるには、様々な情報源からの情報を検索し、合成する必要がある。 大規模言語モデル(LLM)はそのような推論を一貫して行うのに苦労する。 本稿では,LLMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。 まず,シングルホッププロンプトとマルチホッププロンプトに応答して,GPT-2モデルの層間アクティベーションを分析する。 次に,提案するメカニズムにより,ユーザが推論中に重要なLCM箇所で,関連するプロンプト固有情報を「記憶」として注入する機構を提案する。 これにより、LLMは推論中に追加の関連情報を組み込めるようになり、マルチホッププロンプトの完成度が向上する。 キーアテンション層への単純で効率的で目標とするメモリインジェクションは、マルチホップタスクにおいて、所望の次のトークンの確率を最大424%向上させることができることを示す。

Answering multi-hop reasoning questions requires retrieving and synthesizing information from diverse sources. Large Language Models (LLMs) struggle to perform such reasoning consistently. Here we propose an approach to pinpoint and rectify multi-hop reasoning failures through targeted memory injections on LLM attention heads. First, we analyze the per-layer activations of GPT-2 models in response to single and multi-hop prompts. We then propose a mechanism that allows users to inject pertinent prompt-specific information, which we refer to as "memories," at critical LLM locations during inference. By thus enabling the LLM to incorporate additional relevant information during inference, we enhance the quality of multi-hop prompt completions. We show empirically that a simple, efficient, and targeted memory injection into a key attention layer can often increase the probability of the desired next token in multi-hop tasks, by up to 424%.
翻訳日:2024-03-01 18:39:47 公開日:2024-02-28
# ゾーン法に基づく物理形ニューラルネットワークの加熱炉への適用

Application of Zone Method based Physics-Informed Neural Networks in Reheating Furnaces ( http://arxiv.org/abs/2308.16089v2 )

ライセンス: Link先を確認
Ujjal Kr Dutta, Aldo Lipani, Chuan Wang, Yukun Hu(参考訳) 基礎産業(fis)は、ガラス、金属、セメント、セラミックス、バルク化学、紙、鋼などで構成され、自動車、機械、建設、家電製品、化学製品など、様々な経済関連産業に重要な基礎材料を提供する。 FIの製造チェーン内の再加熱炉はエネルギー集約的である。 再加熱炉の根底温度の正確かつリアルタイムな予測は、全体の加熱時間を短縮し、fisにおける純ゼロ目標を達成するためのエネルギー消費を制御する可能性がある。 本稿では,この予測を回帰タスクとみなし,有効で効率的なニューラルネットワークを探索する。 しかし, 燃焼炉等における品質の高い実データの実現は不可能であるため, 古典的Hottelのゾーン法に基づく計算モデルは, モデルトレーニングのためのデータ生成に利用されてきた。 トレーニングされたモデルの外部分布一般化能力をさらに強化するために,新しいエネルギーベース正規化器を用いた物理知識を取り入れた物理情報ニューラルネットワーク(PINN)を提案する。

Foundation Industries (FIs) constitute glass, metals, cement, ceramics, bulk chemicals, paper, steel, etc. and provide crucial, foundational materials for a diverse set of economically relevant industries: automobiles, machinery, construction, household appliances, chemicals, etc. Reheating furnaces within the manufacturing chain of FIs are energy-intensive. Accurate and real-time prediction of underlying temperatures in reheating furnaces has the potential to reduce the overall heating time, thereby controlling the energy consumption for achieving the Net-Zero goals in FIs. In this paper, we cast this prediction as a regression task and explore neural networks due to their inherent capability of being effective and efficient, given adequate data. However, due to the infeasibility of achieving good-quality real data in scenarios like reheating furnaces, classical Hottel's zone method based computational model has been used to generate data for model training. To further enhance the Out-Of-Distribution generalization capability of the trained model, we propose a Physics-Informed Neural Network (PINN) by incorporating prior physical knowledge using a set of novel Energy-Balance regularizers.
翻訳日:2024-03-01 18:39:04 公開日:2024-02-28
# 社会ロボットナビゲーションのための強化学習指導規則の一般化

Improving Generalization in Reinforcement Learning Training Regimes for Social Robot Navigation ( http://arxiv.org/abs/2308.14947v2 )

ライセンス: Link先を確認
Adam Sigal, Hsiu-Chin Lin, AJung Moon(参考訳) 自律的な移動ロボットが人間の空間を移動するためには、社会的規範に従わなければならない。 強化学習(rl)は、これらの規範を尊重できる逐次的意思決定ポリシーを訓練するための効果的な方法として登場した。 しかし、この分野における既存の研究の大部分は、簡素な環境でRLトレーニングとテストの両方を実施している。 これにより、これらのモデルの一般化ポテンシャルは見えない環境に制限され、報告された結果の有意義さが制限される。 カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。 複数の環境タイプを採用し、複数のダイナミクスモデルを用いて歩行者をモデル化することで、トレーニングの困難を段階的に多様化し、エスカレートすることができる。 本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。 また,既存のRLソーシャルナビゲーションの成果は,学習環境外の手法を評価せず,かつ,その方針が,配布外シナリオに適切に一般化しなかったことを反映していないことも示す。 それに対して、トレーニングで使用されるものよりも大きくて混雑したテスト環境に対するトレーニングアプローチを検証することで、モデルパフォーマンスのより有意義な測定を可能にします。

In order for autonomous mobile robots to navigate in human spaces, they must abide by our social norms. Reinforcement learning (RL) has emerged as an effective method to train sequential decision-making policies that are able to respect these norms. However, a large portion of existing work in the field conducts both RL training and testing in simplistic environments. This limits the generalization potential of these models to unseen environments, and the meaningfulness of their reported results. We propose a method to improve the generalization performance of RL social navigation methods using curriculum learning. By employing multiple environment types and by modeling pedestrians using multiple dynamics models, we are able to progressively diversify and escalate difficulty in training. Our results show that the use of curriculum learning in training can be used to achieve better generalization performance than previous training methods. We also show that results presented in many existing state-of-the-art RL social navigation works do not evaluate their methods outside of their training environments, and thus do not reflect their policies' failure to adequately generalize to out-of-distribution scenarios. In response, we validate our training approach on larger and more crowded testing environments than those used in training, allowing for more meaningful measurements of model performance.
翻訳日:2024-03-01 18:38:41 公開日:2024-02-28
# 非可換グラフによる安定化形式論の一考察

A note on the stabilizer formalism via noncommutative graphs ( http://arxiv.org/abs/2310.00762v2 )

ライセンス: Link先を確認
Roy Araiza, Jihong Cai, Yushan Chen, Abraham Holtermann, Chieh Hsu, Tushar Mohan, Peixue Wu, Zeyuan Yu(参考訳) ここでは、非可換グラフの言語における安定化形式を定式化する。 私たちが考える非可換グラフのクラスはコンパクト群のユニタリ表現と有限次元ヒルベルト空間上の好ましく選択された作用素によって得られる。 さらに、この枠組みでは、そのような非可換グラフが斜方形を持つかどうかを決定するために、この領域における以前の結果を一般化する。

In this short note we formulate a stabilizer formalism in the language of noncommutative graphs. The classes of noncommutative graphs we consider are obtained via unitary representations of compact groups, and suitably chosen operators on finite-dimensional Hilbert spaces. Furthermore, in this framework, we generalize previous results in this area for determining when such noncommutative graphs have anticliques.
翻訳日:2024-03-01 18:30:30 公開日:2024-02-28
# クロス予測駆動推論

Cross-Prediction-Powered Inference ( http://arxiv.org/abs/2309.16598v3 )

ライセンス: Link先を確認
Tijana Zrnic, Emmanuel J. Cand\`es(参考訳) 高品質なラベル付きデータに基づく信頼性の高いデータ駆動意思決定のヒントがある一方で、品質ラベルの取得には、退屈な人間のアノテーションや、遅くて高価な科学的測定が伴うことが多い。 例えば、予測されたタンパク質構造は実験的に導かれた構造を補うために使われ、衛星画像からの社会経済指標の予測は正確な測量データを補完するために使われるなどである。 予測は不完全であり、潜在的に偏りがあるため、このプラクティスは下流推論の妥当性に疑問を呈する。 本稿では,機械学習を用いた有効な推論手法であるクロス予測を提案する。 小さなラベル付きデータセットと大きなラベルなしデータセットで、クロスプリディクションは機械学習によるラベルの欠落を暗示し、予測の不正確さを改善するためにデバイアスの形式を適用する。 結果の推論は望ましいエラー確率を達成し、ラベル付きデータのみを利用するものよりも強力である。 優れた事前学習モデルがすでに利用可能であると仮定する、予測駆動推論の最近の提案と密接に関連している。 我々は,ラベル付きデータのごく一部を分割してモデルを訓練する予測型推論の適応よりも,クロス予測の方が一貫して強力であることを示す。 最後に、クロス述語は競合語よりもより安定な結論を与え、その信頼区間は一般にかなり低い変動率を持つ。

While reliable data-driven decision-making hinges on high-quality labeled data, the acquisition of quality labels often involves laborious human annotations or slow and expensive scientific measurements. Machine learning is becoming an appealing alternative as sophisticated predictive techniques are being used to quickly and cheaply produce large amounts of predicted labels; e.g., predicted protein structures are used to supplement experimentally derived structures, predictions of socioeconomic indicators from satellite imagery are used to supplement accurate survey data, and so on. Since predictions are imperfect and potentially biased, this practice brings into question the validity of downstream inferences. We introduce cross-prediction: a method for valid inference powered by machine learning. With a small labeled dataset and a large unlabeled dataset, cross-prediction imputes the missing labels via machine learning and applies a form of debiasing to remedy the prediction inaccuracies. The resulting inferences achieve the desired error probability and are more powerful than those that only leverage the labeled data. Closely related is the recent proposal of prediction-powered inference, which assumes that a good pre-trained model is already available. We show that cross-prediction is consistently more powerful than an adaptation of prediction-powered inference in which a fraction of the labeled data is split off and used to train the model. Finally, we observe that cross-prediction gives more stable conclusions than its competitors; its confidence intervals typically have significantly lower variability.
翻訳日:2024-03-01 18:29:08 公開日:2024-02-28
# 相対論的量子放送チャンネル

A relativistic quantum broadcast channel ( http://arxiv.org/abs/2309.14535v2 )

ライセンス: Link先を確認
Ian Bernardes Barcellos and Andr\'e G. S. Landulfo(参考訳) 量子スカラー場を通信チャネルとして,一般の双曲時空における3つの観測者間の古典的および量子的情報の伝達について検討した。 我々は、あるオブザーバ(ベンダー)が他の2人のオブザーバ(受信者)に(古典的および量子的)情報を送信したいと考える量子放送チャネルのモデルを構築する。 それらはいくつかの局所化された2レベル量子システム(量子ビット)を持ち、入力を準備したり、このチャネルの出力を受け取るために量子場と相互作用することができる。 場は任意の準自由状態にあるはずであり、3つの観測者は任意の運動状態にあるかもしれないし、場の正準可換関係の表現の選択は行われない。 フィールドとキュービットの相互作用は、このチャネルを非摂動的方法で記述する写像を得ることを可能にする。 我々は、このチャネルを通して情報を伝達できるレートを分析し、そのようなレートに対する相対論的因果関係の影響を調べることで結論付ける。

We investigate the transmission of classical and quantum information between three observers in a general globally hyperbolic spacetime using a quantum scalar field as a communication channel. We build a model for a quantum broadcast channel in which one observer (sender) wishes to transmit (classical and quantum) information to two other observers (receivers). They possess some localized two-level quantum system (a qubit) that can interact with the quantum field in order to prepare an input or receive the output of this channel. The field is supposed to be in an arbitrary quasifree state, the three observers may be in arbitrary states of motion, and no choice of representation of the field canonical commutation relations is made. The interaction of the field and qubits is such that it allows us to obtain the map that describes this channel in a non-perturbative manner. We conclude by analyzing the rates at which information can be transmitted through this channel and by investigating relativistic causality effects on such rates.
翻訳日:2024-03-01 18:28:45 公開日:2024-02-28
# 低深さクリフォード回路はMaxCutをほぼ解く

Low-depth Clifford circuits approximately solve MaxCut ( http://arxiv.org/abs/2310.15022v2 )

ライセンス: Link先を確認
Manuel H. Mu\~noz-Arias, Stefanos Kourtis, Alexandre Blais(参考訳) 低深さクリフォード回路に基づくMaxCutの量子インスピレーション近似アルゴリズムを提案する。 まず、重み付き完全連結グラフ上のMaxCut問題に対する適応量子近似最適化アルゴリズム(ADAPT-QAOA)の解ユニタリが(ほぼ)クリフォード回路であることを示す。 この観測により、我々は、クリフォード群の生成要素の最小セットを組み合わせてクリフォード多様体を探索するMaxCut, \emph{ADAPT-Clifford} の近似アルゴリズムを考案した。 我々のアルゴリズムは、深さ$O(N)$ Clifford回路を構築することにより、$N$頂点グラフ上のMaxCutの近似解を求める。 このアルゴリズムは、スパースグラフと高密度グラフに対してそれぞれ$O(N^2)$と$O(N^3)$と、より要求の高いランタイムを犠牲にしてソリューション品質が改善された空間複雑性$O(N^2)$を有する。 我々はADAPT-Cliffordを実装し、正の重みと符号付き重みを持つグラフ上での性能を特徴付ける。 符号付き重みの場合には、熱力学的極限におけるパリス値の$\sim94\%$に対応する基底状態平均エネルギー密度の解を求めるパラダイム的シェリントン=カークパトリックモデルで示される。 ADAPT-Clifford によるカットと Goemans-Williamson (GW) アルゴリズムによるカットを比較して, 正重みの場合について検討した。 スパースと高密度の両方の場合、数百のノードで、ADAPT-Clifford は GW よりも低いエネルギーをカットする。 MaxCut に対する良い近似解はクリフォード多様体内で効率よく発見できるので、我々の結果は組合せ最適化問題における量子スピードアップの探索にこれまで用いられてきたアプローチを再考する動機となることを願っている。

We introduce a quantum-inspired approximation algorithm for MaxCut based on low-depth Clifford circuits. We start by showing that the solution unitaries found by the adaptive quantum approximation optimization algorithm (ADAPT-QAOA) for the MaxCut problem on weighted fully connected graphs are (almost) Clifford circuits. Motivated by this observation, we devise an approximation algorithm for MaxCut, \emph{ADAPT-Clifford}, that searches through the Clifford manifold by combining a minimal set of generating elements of the Clifford group. Our algorithm finds an approximate solution of MaxCut on an $N$-vertex graph by building a depth $O(N)$ Clifford circuit. The algorithm has runtime complexity $O(N^2)$ and $O(N^3)$ for sparse and dense graphs, respectively, and space complexity $O(N^2)$, with improved solution quality achieved at the expense of more demanding runtimes. We implement ADAPT-Clifford and characterize its performance on graphs with positive and signed weights. The case of signed weights is illustrated with the paradigmatic Sherrington-Kirkpatrick model, for which our algorithm finds solutions with ground-state mean energy density corresponding to $\sim94\%$ of the Parisi value in the thermodynamic limit. The case of positive weights is investigated by comparing the cut found by ADAPT-Clifford with the cut found with the Goemans-Williamson (GW) algorithm. For both sparse and dense instances we provide copious evidence that, up to hundreds of nodes, ADAPT-Clifford finds cuts of lower energy than GW. Since good approximate solutions to MaxCut can be efficiently found within the Clifford manifold, we hope our results will motivate to rethink the approach so far used to search for quantum speedup in combinatorial optimization problems.
翻訳日:2024-03-01 18:21:04 公開日:2024-02-28
# 深部ニューラルネットワークを用いた合成画像による外見に基づく視線推定

Appearance-based gaze estimation enhanced with synthetic images using deep neural networks ( http://arxiv.org/abs/2311.14175v2 )

ライセンス: Link先を確認
Dmytro Herashchenko and Igor Farka\v{s}(参考訳) 人間の視線推定は人間とロボットの相互作用を成功させる上で重要な認知要素であり、ロボットは人間の行動を読み、予測することができる。 ニューラルネットワークを用いてこの問題にアプローチし,顔検出 (RetinaFace) と頭部ポーズ推定 (6DRepNet) のために,既存のよく機能するコンポーネントを活用して,切り取った目から視線を推定するモジュールシステムを構築する。 提案手法では,特殊なハードウェアや赤外線フィルタは必要とせず,通常,ノートブック内蔵のrgbカメラを用いる。 MetaHumanツールを使用して、57,000人以上の顔の大規模な合成データセットを生成し、公開しました。 標準的なコロンビアの視線データセットの上にこのデータセット(視線と頭部のポーズ情報を含む)を組み込んでモデルのトレーニングを行うことで、平均平均誤差が2度未満で精度が向上し、関連する方法と比較した。 また,nicoセミヒューマノイドロボットの眼球に内蔵された4kカメラを用いて実世界における予備テストを行い,本モデルの有効性を検証した。

Human eye gaze estimation is an important cognitive ingredient for successful human-robot interaction, enabling the robot to read and predict human behavior. We approach this problem using artificial neural networks and build a modular system estimating gaze from separately cropped eyes, taking advantage of existing well-functioning components for face detection (RetinaFace) and head pose estimation (6DRepNet). Our proposed method does not require any special hardware or infrared filters but uses a standard notebook-builtin RGB camera, as often approached with appearance-based methods. Using the MetaHuman tool, we also generated a large synthetic dataset of more than 57,000 human faces and made it publicly available. The inclusion of this dataset (with eye gaze and head pose information) on top of the standard Columbia Gaze dataset into training the model led to better accuracy with a mean average error below two degrees in eye pitch and yaw directions, which compares favourably to related methods. We also verified the feasibility of our model by its preliminary testing in real-world setting using the builtin 4K camera in NICO semi-humanoid robot's eye.
翻訳日:2024-03-01 18:11:52 公開日:2024-02-28
# OrchestraLLM: 対話状態追跡のための言語モデルの効率的なオーケストレーション

OrchestraLLM: Efficient Orchestration of Language Models for Dialogue State Tracking ( http://arxiv.org/abs/2311.09758v2 )

ライセンス: Link先を確認
Chia-Hsuan Lee, Hao Cheng, Mari Ostendorf(参考訳) 大規模言語モデル(LLM)は自然言語処理システムの状況に革命をもたらしたが、計算コストは高い。 性能を犠牲にすることなくコストを削減するため,従来の研究では,Small Language Models (SLMs) の可能性を,より大きな言語に対するコスト効率の代替手段として活用するための様々なアプローチが検討されている。 構造化知識抽出タスクにおいて, SLM と LLM が相補的な強みを示すという知見により, 計算効率の向上とタスク性能の向上を目的とした新しい SLM/LLM ルーティングフレームワークを提案する。 まず、各LMがより信頼性の高い回答を提供するコンテキストのタイプを表現し、文脈の類似性が対話状態の類似性に近いように微調整された文を埋め込む。 そして、推論中に、テストインスタンスに対するk-nearest例証を検索し、多数決に従ってインスタンスをルーティングする。 対話状態追跡タスクにおいて、提案するルーティングフレームワークは、計算コストを50%以上削減しつつ、LLMのみに依存するよりも性能を大幅に向上させる。

Large language models (LLMs) have revolutionized the landscape of Natural Language Processing systems, but are computationally expensive. To reduce the cost without sacrificing performance, previous studies have explored various approaches to harness the potential of Small Language Models (SLMs) as cost-effective alternatives to their larger counterparts. Driven by findings that SLMs and LLMs exhibit complementary strengths in a structured knowledge extraction task, this work presents a novel SLM/LLM routing framework designed to improve computational efficiency and enhance task performance. First, exemplar pools are created to represent the types of contexts where each LM provides a more reliable answer, leveraging a sentence embedding fine-tuned so that context similarity is close to dialogue state similarity. Then, during inference, the k-nearest exemplars to the testing instance are retrieved, and the instance is routed according to majority vote. In dialogue state tracking tasks, the proposed routing framework enhances performance substantially compared to relying solely on LLMs, while reducing the computational costs by over 50%.
翻訳日:2024-03-01 18:10:08 公開日:2024-02-28
# ベイズニューラルネットワークにおける確率的ロバスト性のタイト検証

Tight Verification of Probabilistic Robustness in Bayesian Neural Networks ( http://arxiv.org/abs/2401.11627v2 )

ライセンス: Link先を確認
Ben Batten, Mehran Hosseini, Alessio Lomuscio(参考訳) ベイズニューラルネットワーク(BNN)の確率論的堅牢性に関する厳密な保証を2つのアルゴリズムで計算する。 BNNの堅牢性を保証するコンピューティングは、標準ニューラルネットワーク(NN)の堅牢性を検証するよりもはるかに難しいタスクである。 さらに、MILP(Mixed-Integer Linear Programming)に基づくような標準NNの検証のための厳密で完全なアプローチは、重みを符号化する変数の連続乗算による多項式項のため、直接BNNの検証には使用できない。 提案手法は,反復展開とネットワークの勾配を用いてパラメータ空間を効率的かつ効果的に探索し,bnnに対して任意の検証アルゴリズムを適用できる。 我々のアルゴリズムがSoAよりも厳密な境界を計算することの証明に加えて、MNISTやCIFAR10といった標準ベンチマークでSoAに対してアルゴリズムを評価し、私たちのアルゴリズムがSoAよりも最大40%厳密な境界を計算していることを示す。

We introduce two algorithms for computing tight guarantees on the probabilistic robustness of Bayesian Neural Networks (BNNs). Computing robustness guarantees for BNNs is a significantly more challenging task than verifying the robustness of standard Neural Networks (NNs) because it requires searching the parameters' space for safe weights. Moreover, tight and complete approaches for the verification of standard NNs, such as those based on Mixed-Integer Linear Programming (MILP), cannot be directly used for the verification of BNNs because of the polynomial terms resulting from the consecutive multiplication of variables encoding the weights. Our algorithms efficiently and effectively search the parameters' space for safe weights by using iterative expansion and the network's gradient and can be used with any verification algorithm of choice for BNNs. In addition to proving that our algorithms compute tighter bounds than the SoA, we also evaluate our algorithms against the SoA on standard benchmarks, such as MNIST and CIFAR10, showing that our algorithms compute bounds up to 40% tighter than the SoA.
翻訳日:2024-03-01 18:05:54 公開日:2024-02-28
# 模擬ロボットアームにおける安全強化学習

Safe Reinforcement Learning in a Simulated Robotic Arm ( http://arxiv.org/abs/2312.09468v2 )

ライセンス: Link先を確認
Luka Kova\v{c} and Igor Farka\v{s}(参考訳) 強化学習(RL)エージェントは最適な政策を学ぶために環境を探索する必要がある。 多くの環境やタスクにおいて、安全は重要である。 シミュレータの普及は、RLシステムが物理的環境(例えば人間とロボットの相互作用)で直接訓練される必要がある場合に必然的に回避されるような安全な探索など、多くの利点を提供している。 人気のある安全ジムライブラリーは、さまざまな安全制約を考慮しながら目標指向のタスクを学習できる3つのモバイルエージェントタイプを提供している。 本稿では,安全ジムアルゴリズムをテスト可能なパンダロボットアームを用いたカスタマイズ環境の構築により,安全rlアルゴリズムの適用性を拡張する。 ppoアルゴリズムのベースラインと制約付きバージョンを比較してパイロット実験を行い,制約付きバージョンでは,安全上の制約を満たし,期待どおりのトレーニング時間を短縮しながら,等しく優れたポリシーを学習できることを示した。

Reinforcement learning (RL) agents need to explore their environments in order to learn optimal policies. In many environments and tasks, safety is of critical importance. The widespread use of simulators offers a number of advantages, including safe exploration which will be inevitable in cases when RL systems need to be trained directly in the physical environment (e.g. in human-robot interaction). The popular Safety Gym library offers three mobile agent types that can learn goal-directed tasks while considering various safety constraints. In this paper, we extend the applicability of safe RL algorithms by creating a customized environment with Panda robotic arm where Safety Gym algorithms can be tested. We performed pilot experiments with the popular PPO algorithm comparing the baseline with the constrained version and show that the constrained version is able to learn the equally good policy while better complying with safety constraints and taking longer training time as expected.
翻訳日:2024-03-01 18:01:31 公開日:2024-02-28
# マルチタスク学習は最悪のグループの結果を改善する

Multitask Learning Can Improve Worst-Group Outcomes ( http://arxiv.org/abs/2312.03151v2 )

ライセンス: Link先を確認
Atharva Kulkarni, Lucio Dery, Amrith Setlur, Aditi Raghunathan, Ameet Talwalkar and Graham Neubig(参考訳) 多様なユーザをよく利用する機械学習システムを構築するためには、高い平均パフォーマンスを達成するだけでなく、多様なグループにまたがる公平な結果を保証することが不可欠である。 しかし、ほとんどの機械学習手法は、最悪のグループエラーの影響を考慮せずに、選択したエンドタスクにおけるモデルの平均性能を改善するように設計されている。 マルチタスク学習(MTL)は、そのような広く使われている技法の一つである。 本稿では,MTLが最悪のグループ精度に与える影響を理解するだけでなく,グループワイドフェアネスの課題に対処するためのツールとしての可能性を探る。 我々は主に事前学習モデルの微調整の標準的な設定を考慮し、最近の研究である \citep{gururangan2020don, dery2023aang} に続いて、最終タスクデータ自身から構築された事前学習目標で最終タスクをマルチタスクする。 グループアノテーションがほとんどあるいは全くない設定では、マルチタスキングがJust-Train-Twice (JTT; \citet{pmlr-v139-liu21f}) よりも優れた最悪のグループ精度を実現することがよくあります。 合成データ実験から得られた知見を活用し,共同マルチタスク表現空間の正規化による標準MTLの変更を提案する。 コンピュータビジョンと自然言語処理データセットをまたいで多数の微調整実験を行い、我々の正規化mtlアプローチは平均群と最悪の群の結果の両方においてjttを上回っています。 公式コードは以下のとおり。 \href{https://github.com/atharvajk98/mtl-group-robustness.git}{\url{https://github.com/atharvajk98/mtl-group-robustness}}。

In order to create machine learning systems that serve a variety of users well, it is vital to not only achieve high average performance but also ensure equitable outcomes across diverse groups. However, most machine learning methods are designed to improve a model's average performance on a chosen end task without consideration for their impact on worst group error. Multitask learning (MTL) is one such widely used technique. In this paper, we seek not only to understand the impact of MTL on worst-group accuracy but also to explore its potential as a tool to address the challenge of group-wise fairness. We primarily consider the standard setting of fine-tuning a pre-trained model, where, following recent work \citep{gururangan2020don, dery2023aang}, we multitask the end task with the pre-training objective constructed from the end task data itself. In settings with few or no group annotations, we find that multitasking often, but not consistently, achieves better worst-group accuracy than Just-Train-Twice (JTT; \citet{pmlr-v139-liu21f}) -- a representative distributionally robust optimization (DRO) method. Leveraging insights from synthetic data experiments, we propose to modify standard MTL by regularizing the joint multitask representation space. We run a large number of fine-tuning experiments across computer vision and natural language processing datasets and find that our regularized MTL approach \emph{consistently} outperforms JTT on both average and worst-group outcomes. Our official code can be found here: \href{https://github.com/atharvajk98/MTL-group-robustness.git}{\url{https://github.com/atharvajk98/MTL-group-robustness}}.
翻訳日:2024-03-01 18:00:05 公開日:2024-02-28
# エルミート行列による情報スクランブルとカオス

Information scrambling and chaos induced by a Hermitian Matrix ( http://arxiv.org/abs/2401.12898v2 )

ライセンス: Link先を確認
Sven Gnutzmann and Uzy Smilansky(参考訳) 有限離散量子ハミルトニアンと見なされる任意の \(V \times V\) エルミート行列が与えられたとき、グラフとエルゴード理論の手法を用いてエネルギー \(E\) で \textit{quantum Poincar\'e map} と対応する確率的 \textit{classical Poincar\'e-Markov map} を、適切な離散的 \textit{phase space} 上で同じエネルギーで構成する。 この位相空間は、(V\) 頂点を持つグラフの有向エッジからなり、これは、(H\) の非消滅オフ対角元と一対一の対応である。 量子ポインカル(英語版)写像と古典ポインカル(英語版)-マルコフ写像の対応は、古典極限 \(\hbar \to 0\) に基づく標準量子古典対応の代替である。 最も重要なことは、そのような制限が存在しない場合に構築できることである。 エルゴード理論の標準的な方法を用いて、古典写像の \textit{Lyapunov exponent} \(\Lambda(E)\) の式を定義する。 力学における古典情報の損失率を測定し、位相空間における確率的 \textit{classical trajectories} の分離と関係づける。 基礎となる古典力学における情報の喪失は、量子情報スクランブルの指標であることが示唆される。

Given an arbitrary \(V \times V\) Hermitian matrix, considered as a finite discrete quantum Hamiltonian, we use methods from graph and ergodic theories to construct a \textit{quantum Poincar\'e map} at energy \(E\) and a corresponding stochastic \textit{classical Poincar\'e-Markov map} at the same energy on an appropriate discrete \textit{phase space}. This phase space consists of the directed edges of a graph with \(V\) vertices that are in one-to-one correspondence with the non-vanishing off-diagonal elements of \(H\). The correspondence between quantum Poincar\'e map and classical Poincar\'e-Markov map is an alternative to the standard quantum-classical correspondence based on a classical limit \(\hbar \to 0\). Most importantly it can be constructed where no such limit exists. Using standard methods from ergodic theory we then proceed to define an expression for the \textit{Lyapunov exponent} \(\Lambda(E)\) of the classical map. It measures the rate of loss of classical information in the dynamics and relates it to the separation of stochastic \textit{classical trajectories} in the phase space. We suggest that loss of information in the underlying classical dynamics is an indicator for quantum information scrambling.
翻訳日:2024-03-01 17:50:22 公開日:2024-02-28
# 知識注入型LLMを用いた会話型健康エージェント : 糖尿病患者を事例として

Knowledge-Infused LLM-Powered Conversational Health Agent: A Case Study for Diabetes Patients ( http://arxiv.org/abs/2402.10153v2 )

ライセンス: Link先を確認
Mahyar Abbasian, Zhongqi Yang, Elahe Khatibi, Pengfei Zhang, Nitish Nagesh, Iman Azimi, Ramesh Jain, Amir M. Rahmani(参考訳) 糖尿病患者の健康維持には効果的な糖尿病管理が不可欠である。 大規模言語モデル(LLM)は糖尿病治療のための新たな道を開いた。 しかし、現在のllmベースのアプローチは、一般的なソースへの依存とドメイン固有の知識との統合の欠如によって制限され、不正確な応答をもたらす。 本稿では,糖尿病患者に対する知識注入型会話型健康エージェント(cha)を提案する。 オープンソースのopenCHAフレームワークをカスタマイズして活用し、外部知識と分析能力でCHAを強化します。 この統合には2つの重要なコンポーネントが含まれる。 1)アメリカ糖尿病協会の食事ガイドラインと栄養情報とを取り入れること 2)栄養摂取量計算を可能にする分析ツールの展開とガイドラインとの比較。 提案したCHAとGPT4を比較した。 本評価では,毎日の食事選択に関する糖尿病関連質問100件と,提案した食事に関する潜在的なリスクを評価する。 以上の結果から,本剤は本態性栄養素管理のための反応生成において優れた性能を示すことが示唆された。

Effective diabetes management is crucial for maintaining health in diabetic patients. Large Language Models (LLMs) have opened new avenues for diabetes management, facilitating their efficacy. However, current LLM-based approaches are limited by their dependence on general sources and lack of integration with domain-specific knowledge, leading to inaccurate responses. In this paper, we propose a knowledge-infused LLM-powered conversational health agent (CHA) for diabetic patients. We customize and leverage the open-source openCHA framework, enhancing our CHA with external knowledge and analytical capabilities. This integration involves two key components: 1) incorporating the American Diabetes Association dietary guidelines and the Nutritionix information and 2) deploying analytical tools that enable nutritional intake calculation and comparison with the guidelines. We compare the proposed CHA with GPT4. Our evaluation includes 100 diabetes-related questions on daily meal choices and assessing the potential risks associated with the suggested diet. Our findings show that the proposed agent demonstrates superior performance in generating responses to manage essential nutrients.
翻訳日:2024-03-01 17:44:32 公開日:2024-02-28
# 2ビット位相空間におけるシンプレクティック線形変換の解釈

Interpreting symplectic linear transformations in a two-qubit phase space ( http://arxiv.org/abs/2402.09922v3 )

ライセンス: Link先を確認
William K. Wootters(参考訳) 連続ウィグナー函数とある種の離散ウィグナー函数に対して、シンプレクティック線型変換に従ってウィグナー関数の値を置換することは、状態上であるユニタリ変換を行うことと等価である。 つまり、このユニタリ変換を実行することは、単に位相空間の周りでウィグナー関数の値を動かす問題である。 この結果は、ヒルベルト空間の次元$d$が奇数であるとき、$d \times d$相空間上で定義される最も単純な離散ウィグナー函数に対して特に成り立つ。 次元が偶数であれば、$d \times d$相空間を保たない。 しかし、ここでは、この対応の一般化されたバージョンが2量子位相空間の場合に適用可能であることを示す。 この場合、位相空間の点のシンプレクティック線型置換とウィグナー函数のある種の再解釈はユニタリ変換と等価である。

For the continuous Wigner function and for certain discrete Wigner functions, permuting the values of the Wigner function in accordance with a symplectic linear transformation is equivalent to performing a certain unitary transformation on the state. That is, performing this unitary transformation is simply a matter of moving Wigner-function values around in phase space. This result holds in particular for the simplest discrete Wigner function defined on a $d \times d$ phase space when the Hilbert-space dimension $d$ is odd. It does not hold for a $d \times d$ phase space if the dimension is even. Here we show, though, that a generalized version of this correspondence does apply in the case of a two-qubit phase space. In this case, a symplectic linear permutation of the points of the phase space, together with a certain reinterpretation of the Wigner function, is equivalent to a unitary transformation.
翻訳日:2024-03-01 17:43:55 公開日:2024-02-28
# IRConStyle:コントラスト学習とスタイル伝達を用いた画像復元フレームワーク

IRConStyle: Image Restoration Framework Using Contrastive Learning and Style Transfer ( http://arxiv.org/abs/2402.15784v2 )

ライセンス: Link先を確認
Dongqi Fan, Xin Zhao, Liang Chang(参考訳) 近年, 比較学習パラダイムは, 分類, 検出, セグメンテーションといった高度なタスクにおいて顕著な成功を収めている。 しかし、画像復元のような低レベルのタスクに適用される対照的な学習は限られており、その効果は不確かである。 なぜコントラスト学習パラダイムは、画像復元に十分な結果をもたらすのか? 本稿では,詳細な分析を行い,上記の問題に対処するための3つのガイドラインを提案する。 さらに, スタイル伝達に着想を得て, コントラスト学習に基づいて, 任意の u-net 構造ネットワークに効率的に統合可能な \textbf{constyle} と呼ばれる画像復元のための新しいモジュールを提案する。 ConStyle の柔軟性を活用し,画像復元のための \textbf{ General restoration network} を開発した。 ConStyleと一般的な復元ネットワークは、画像復元フレームワーク、つまり \textbf{IRConStyle}を形成する。 ConStyle の機能と互換性を実証するため, 汎用復元ネットワークをトランスフォーマーベース, CNNベース, MLPベースネットワークに置き換える。 我々は, 脱臭, 脱臭, 脱臭, 脱湿など, 様々な画像修復作業について広範囲にわたる実験を行った。 19のベンチマークの結果は、ConStyleが任意のU-Netネットワークと統合でき、性能を大幅に向上できることを示している。 例えば、ConStyle NAFNetは、オリジナルのNAFNetをSOTSの屋外(脱毛)とRain100Hのデータセットで大幅に上回り、PSNRの4.16dBと3.58dBのパラメータが85%少ない。

Recently, the contrastive learning paradigm has achieved remarkable success in high-level tasks such as classification, detection, and segmentation. However, contrastive learning applied in low-level tasks, like image restoration, is limited, and its effectiveness is uncertain. This raises a question: Why does the contrastive learning paradigm not yield satisfactory results in image restoration? In this paper, we conduct in-depth analyses and propose three guidelines to address the above question. In addition, inspired by style transfer and based on contrastive learning, we propose a novel module for image restoration called \textbf{ConStyle}, which can be efficiently integrated into any U-Net structure network. By leveraging the flexibility of ConStyle, we develop a \textbf{general restoration network} for image restoration. ConStyle and the general restoration network together form an image restoration framework, namely \textbf{IRConStyle}. To demonstrate the capability and compatibility of ConStyle, we replace the general restoration network with transformer-based, CNN-based, and MLP-based networks, respectively. We perform extensive experiments on various image restoration tasks, including denoising, deblurring, deraining, and dehazing. The results on 19 benchmarks demonstrate that ConStyle can be integrated with any U-Net-based network and significantly enhance performance. For instance, ConStyle NAFNet significantly outperforms the original NAFNet on SOTS outdoor (dehazing) and Rain100H (deraining) datasets, with PSNR improvements of 4.16 dB and 3.58 dB with 85% fewer parameters.
翻訳日:2024-03-01 17:34:23 公開日:2024-02-28
# ニューラルネットワークと摩擦:スライド,ホールド,学習

Neural Networks and Friction: Slide, Hold, Learn ( http://arxiv.org/abs/2402.14148v3 )

ライセンス: Link先を確認
Joaquin Garcia-Suarez(参考訳) 本研究では,RNN(Recurrent Neural Networks),特にGRU(Gated Recurrent Unit)アーキテクチャを利用するものは,合成データから速度と状態の摩擦則の複雑な力学を学習する能力を有することを示した。 ネットワークのトレーニングに使用されるデータは、従来の速度と状態の摩擦方程式を、状態進化の老化則と組み合わせることで生成される。 我々のアプローチの新たな側面は、初期条件、直接効果、および訓練中の状態変数の進化を明示的に説明する損失関数の定式化である。 実験結果から, rnnは, gruアーキテクチャを用いて, 速度ジャンプによる摩擦係数の変化を効果的に予測し, 摩擦過程の物理の理解とシミュレーションにおいて機械学習モデルの可能性を示した。

In this study, it is demonstrated that Recurrent Neural Networks (RNNs), specifically those utilizing Gated Recurrent Unit (GRU) architecture, possess the capability to learn the complex dynamics of rate-and-state friction laws from synthetic data. The data employed for training the network is generated through the application of traditional rate-and-state friction equations coupled with the aging law for state evolution. A novel aspect of our approach is the formulation of a loss function that explicitly accounts for initial conditions, the direct effect, and the evolution of state variables during training. It is found that the RNN, with its GRU architecture, effectively learns to predict changes in the friction coefficient resulting from velocity jumps, thereby showcasing the potential of machine learning models in understanding and simulating the physics of frictional processes.
翻訳日:2024-03-01 17:32:22 公開日:2024-02-28
# ランダム森林の理解と過剰フィット--可視化とシミュレーションによる研究

Understanding random forests and overfitting: a visualization and simulation study ( http://arxiv.org/abs/2402.18612v1 )

ライセンス: Link先を確認
Lasai Barre\~nada, Paula Dhiman, Dirk Timmerman, Anne-Laure Boulesteix, Ben Van Calster(参考訳) ランダム森林は臨床リスク予測モデルとして人気がある。 卵巣悪性度予測のケーススタディでは,c-statisticsを1。 これは過度な適合を示唆するが、パフォーマンスはテストデータで競争力があった。 本研究では,(1)実世界の3つのケーススタディにおけるデータ空間の可視化,(2)シミュレーション研究により,ランダム林の行動を理解することを目的とした。 ケーススタディでは,2次元部分空間のヒートマップを用いてリスク推定を行った。 シミュレーションでは,48種類のロジスティックデータ生成機構(dgm)を用い,予測器分布,予測器数,予測器間の相関関係,真のc統計量,真の予測器の強さを調べた。 各DGMに対して、サイズ200または4000の1000のトレーニングデータセットをシミュレーションし、レンジャーパッケージを使用して最小ノードサイズ2または20でトレーニングされたRFモデルにより、合計192のシナリオが得られた。 可視化は、トレーニングセット内の事象に関する確率のスパイクをモデルが学習したことを示唆している。 イベントのクラスタは、より大きく、独立したイベントローカルピークを生成した。 シミュレーション研究では、最小ノードサイズ20の2進予測器が4つまたは16つでない限り、中央値のc-統計値が0.97から1であった。 中間試験 c-statistics は、変数当たりの高イベント、最小ノードサイズ、バイナリ予測器で高い値を示した。 中間訓練斜面は, 常に1以上であり, シナリオの中央値と相関は認められなかった(相関-0.11)。 中間試験勾配は, 真のc-統計値が高く, 最小ノードサイズが高く, 試料サイズが高かった。 ランダムフォレストは、テストデータのc-統計に強く影響を及ぼすことなく、ほぼ完全なトレーニングc-統計をもたらす局所確率ピークを学習する。 確率推定が目的である場合、シミュレーション結果は、ランダムな森林モデルに完全に成長した木を用いるという一般的な推奨に反する。

Random forests have become popular for clinical risk prediction modelling. In a case study on predicting ovarian malignancy, we observed training c-statistics close to 1. Although this suggests overfitting, performance was competitive on test data. We aimed to understand the behaviour of random forests by (1) visualizing data space in three real world case studies and (2) a simulation study. For the case studies, risk estimates were visualised using heatmaps in a 2-dimensional subspace. The simulation study included 48 logistic data generating mechanisms (DGM), varying the predictor distribution, the number of predictors, the correlation between predictors, the true c-statistic and the strength of true predictors. For each DGM, 1000 training datasets of size 200 or 4000 were simulated and RF models trained with minimum node size 2 or 20 using ranger package, resulting in 192 scenarios in total. The visualizations suggested that the model learned spikes of probability around events in the training set. A cluster of events created a bigger peak, isolated events local peaks. In the simulation study, median training c-statistics were between 0.97 and 1 unless there were 4 or 16 binary predictors with minimum node size 20. Median test c-statistics were higher with higher events per variable, higher minimum node size, and binary predictors. Median training slopes were always above 1, and were not correlated with median test slopes across scenarios (correlation -0.11). Median test slopes were higher with higher true c-statistic, higher minimum node size, and higher sample size. Random forests learn local probability peaks that often yield near perfect training c-statistics without strongly affecting c-statistics on test data. When the aim is probability estimation, the simulation results go against the common recommendation to use fully grown trees in random forest models.
翻訳日:2024-03-01 17:17:46 公開日:2024-02-28
# HemaGraph: グラフ注意による血液学的単一細胞分類におけるバリアの破壊

HemaGraph: Breaking Barriers in Hematologic Single Cell Classification with Graph Attention ( http://arxiv.org/abs/2402.18611v1 )

ライセンス: Link先を確認
Lorenzo Bini, Fatemeh Nassajian Mojarrad, Thomas Matthes, St\'ephane Marchand-Maillet(参考訳) 血液細胞集団分類の領域では、フローサイトメトリーデータ内の複雑なパターンは高度な分析ツールを必要とする。 本稿では,グラフアテンションネットワーク(gats)に基づくフローサイトメトリーデータから造血細胞の単細胞多種分類のための新しい枠組みである「ヘマグラフ」を提案する。 GATのパワーを生かして、我々は微妙な細胞関係を捉え、高精度な患者プロファイルを提供する。 30人の患者から得られたデータに基づいて、hemagraphは5つの異なる細胞クラスにまたがる分類性能を示し、従来の方法論や最先端の手法を上回っている。 さらに、このフレームワークの独特性はHemaGraphのトレーニングとテストフェーズにあり、数十万のノードと200万のエッジを含む非常に大きなグラフに適用され、低頻度の細胞集団(例えば1つの集団では0.01%)を検出し、アキュラシーは98%に達した。 以上の結果から,HemaGraphは多クラス分類の改善に有用であり,患者個人による介入の道を開いた。 我々の知る限りでは、単一の細胞フローサイトメトリーデータから細胞集団を分類するために、GATとグラフニューラルネットワーク(GNN)を使用する最初の試みである。 本手法は, より大きなコホート患者および他の血液疾患からの単細胞データに適用する。

In the realm of hematologic cell populations classification, the intricate patterns within flow cytometry data necessitate advanced analytical tools. This paper presents 'HemaGraph', a novel framework based on Graph Attention Networks (GATs) for single-cell multi-class classification of hematological cells from flow cytometry data. Harnessing the power of GATs, our method captures subtle cell relationships, offering highly accurate patient profiling. Based on evaluation of data from 30 patients, HemaGraph demonstrates classification performance across five different cell classes, outperforming traditional methodologies and state-of-the-art methods. Moreover, the uniqueness of this framework lies in the training and testing phase of HemaGraph, where it has been applied for extremely large graphs, containing up to hundreds of thousands of nodes and two million edges, to detect low frequency cell populations (e.g. 0.01% for one population), with accuracies reaching 98%. Our findings underscore the potential of HemaGraph in improving hematoligic multi-class classification, paving the way for patient-personalized interventions. To the best of our knowledge, this is the first effort to use GATs, and Graph Neural Networks (GNNs) in general, to classify cell populations from single-cell flow cytometry data. We envision applying this method to single-cell data from larger cohort of patients and on other hematologic diseases.
翻訳日:2024-03-01 17:17:13 公開日:2024-02-28
# なぜ注意グラフが必要なのか:LeukoGraphを用いた血液細胞集団の階層的分類

Why Attention Graphs Are All We Need: Pioneering Hierarchical Classification of Hematologic Cell Populations with LeukoGraph ( http://arxiv.org/abs/2402.18610v1 )

ライセンス: Link先を確認
Fatemeh Nassajian Mojarrad, Lorenzo Bini, Thomas Matthes, St\'ephane Marchand-Maillet(参考訳) 末梢血や骨髄などの血液学的サンプルの複雑な風景では、多様な集団を階層構造に分類する細胞分類が深刻な課題となっている。 本研究では,グラフ注意ネットワーク(GAT)を用いて階層的分類(HC)の複雑度をナビゲートする手法として,最近開発されたLeukoGraphを提案する。 特に、LeukoGraphは先駆的な取り組みであり、グラフ上の階層的推論にグラフニューラルネットワーク(GNN)を適用し、フローサイトメトリーデータから最大100万のノードと数百万のエッジを割り当てている。 LeukoGraphは、例えば4つの異なる細胞集団が平坦な分類を行うように分類パラダイムを複雑に扱い、5番目は2つの異なる子枝に分岐し、複雑なデータセットに固有のニュアンスな階層構造を例示する。 この技術はこの例よりも一般的です。 LeukoGraphの顕著な業績は、98%のFスコアであり、最先端の手法を大きく上回っている。 ロイコグラフの能力は理論上の革新を超えて広がり、30人の異なる患者のフローサイトメトリーデータセットをまたいでフラットセル型と階層セル型の両方を予測する際、驚くべき精度を示している。 この精度は、階層的な分類によって生じる固有の課題にもかかわらず、LeukoGraphが正しいラベル比を維持する能力によってさらに裏付けられている。

In the complex landscape of hematologic samples such as peripheral blood or bone marrow, cell classification, delineating diverse populations into a hierarchical structure, presents profound challenges. This study presents LeukoGraph, a recently developed framework designed explicitly for this purpose employing graph attention networks (GATs) to navigate hierarchical classification (HC) complexities. Notably, LeukoGraph stands as a pioneering effort, marking the application of graph neural networks (GNNs) for hierarchical inference on graphs, accommodating up to one million nodes and millions of edges, all derived from flow cytometry data. LeukoGraph intricately addresses a classification paradigm where for example four different cell populations undergo flat categorization, while a fifth diverges into two distinct child branches, exemplifying the nuanced hierarchical structure inherent in complex datasets. The technique is more general than this example. A hallmark achievement of LeukoGraph is its F-score of 98%, significantly outclassing prevailing state-of-the-art methodologies. Crucially, LeukoGraph's prowess extends beyond theoretical innovation, showcasing remarkable precision in predicting both flat and hierarchical cell types across flow cytometry datasets from 30 distinct patients. This precision is further underscored by LeukoGraph's ability to maintain a correct label ratio, despite the inherent challenges posed by hierarchical classifications.
翻訳日:2024-03-01 17:16:45 公開日:2024-02-28
# ICE-SEARCH: 言語モデル駆動型特徴選択アプローチ

ICE-SEARCH: A Language Model-Driven Feature Selection Approach ( http://arxiv.org/abs/2402.18609v1 )

ライセンス: Link先を確認
Tianze (Tom) Yang, Tianyi (Tim) Yang, Shaoshan Liu, Fuyuan Lvu, Xue Liu(参考訳) In-Context Evolutionary Search (ICE-SEARCH) は,言語モデル (LM) に特徴選択 (FS) タスクの進化アルゴリズムを組み込んだ最初の手法であり,医療予測分析 (MPA) アプリケーションでの有効性を示すものである。 ICE-SEARCHは進化の枠組みの中でLMに固有の交叉と突然変異の機能を活用し、モデルの包括的な世界知識と様々な役割への適応性を通じてFSを大幅に改善する。 本手法の評価は, 脳卒中, 心血管疾患, 糖尿病の3つの重要なMPA課題に及び, ICE-SEARCHは, 医療応用に欠かせない特徴を指摘するために, 従来のFS法よりも優れている。 ICE-SEARCHは脳卒中予測と糖尿病予測においてSOTA(State-of-the-Art)のパフォーマンスを達成する。 本研究は,医用FSにおけるICE-SEARCHの有効性を実証するだけでなく,LMをFSタスクに統合する汎用性,効率性,スケーラビリティを裏付けるものである。 この研究は、領域固有の洞察を取り入れ、ICE-SEARCHの堅牢性、一般化可能性、迅速な収束を描写する重要な役割を強調している。 これは、総合的で複雑なFSランドスケープに関するさらなる研究の道を開き、医療予測分析における人工知能の応用において重要な一歩を踏み出した。

This study unveils the In-Context Evolutionary Search (ICE-SEARCH) method, the first work that melds language models (LMs) with evolutionary algorithms for feature selection (FS) tasks and demonstrates its effectiveness in Medical Predictive Analytics (MPA) applications. ICE-SEARCH harnesses the crossover and mutation capabilities inherent in LMs within an evolutionary framework, significantly improving FS through the model's comprehensive world knowledge and its adaptability to a variety of roles. Our evaluation of this methodology spans three crucial MPA tasks: stroke, cardiovascular disease, and diabetes, where ICE-SEARCH outperforms traditional FS methods in pinpointing essential features for medical applications. ICE-SEARCH achieves State-of-the-Art (SOTA) performance in stroke prediction and diabetes prediction; the Decision-Randomized ICE-SEARCH ranks as SOTA in cardiovascular disease prediction. Our results not only demonstrate the efficacy of ICE-SEARCH in medical FS but also underscore the versatility, efficiency, and scalability of integrating LMs in FS tasks. The study emphasizes the critical role of incorporating domain-specific insights, illustrating ICE-SEARCH's robustness, generalizability, and swift convergence. This opens avenues for further research into comprehensive and intricate FS landscapes, marking a significant stride in the application of artificial intelligence in medical predictive analytics.
翻訳日:2024-03-01 17:15:59 公開日:2024-02-28
# 半波長領域におけるコールド$^{87}Rb$原子の局在

Localization of cold $^{87}Rb$ atom within half-wavelength domain ( http://arxiv.org/abs/2402.18608v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Xin Li, Ping Yang(参考訳) 寒冷な$^{87}rb$原子と2つの直交定在波場と相互作用する3レベル量子系をシミュレートし、x-y平面における半波長領域内の局在をプローブ吸収を監視することにより達成する。 半波長領域内では、単吸収ピークは自然発生コヒーレンス(SGC)を介して0.2から1.0に増加し、単吸収ピークの直径は非コヒーレントポンプ場の増加によって減少する。 提案手法は, 寒冷な$^{87}Rb$原子の局在に対するフレキシブルパラメータの操作方法を提供する。

Simulating the cold $^{87}Rb$ atom with a three-level quantum system interacting with two orthogonal standing-wave fields, the localization within half-wavelength domain in the x-y plane is achieved by monitoring the probe absorption. Within the half-wavelength domain, the single absorption peak increases from 0.2 to 1.0 via the spontaneously generated coherence (SGC), while the diameters of the single absorption peaks are diminished by the increasing incoherent pumping field. Our scheme provides the flexible parameters manipulating manner for the localization of cold $^{87}Rb$ atom.
翻訳日:2024-03-01 17:15:17 公開日:2024-02-28
# 拡散モデル共有におけるプライバシーと公平性リスクの探求--敵対的視点から

Exploring Privacy and Fairness Risks in Sharing Diffusion Models: An Adversarial Perspective ( http://arxiv.org/abs/2402.18607v1 )

ライセンス: Link先を確認
Xinjian Luo, Yangfan Jiang, Fei Wei, Yuncheng Wu, Xiaokui Xiao, Beng Chin Ooi(参考訳) 拡散モデルは最近, サンプリング品質と流通範囲の両面において, 優れた生成性能のため, 学術・産業ともに注目されている。 したがって、プライベートデータを直接共有することを避けてプライバシー保護を高めながら、データ利用を改善する方法として、さまざまな組織で事前訓練された拡散モデルを共有することを提案する。 しかし、こうしたアプローチに関連する潜在的なリスクは包括的に検討されていない。 本稿では,拡散モデルの共有に伴う潜在的なプライバシーと公平性リスクについて,敵対的視点を用いて検討する。 具体的には、一方の当事者(共有者)がプライベートデータを用いて拡散モデルを訓練する状況を調査し、他方の当事者(受信者)にダウンストリームタスクの事前学習モデルへのアクセスを提供する。 拡散モデルのトレーニングデータ分布を操作することで、共有者が公平な毒殺攻撃を行い、受信者の下流モデルに悪影響を与えることを実証する。 一方、受信機はプロパティ推論攻撃を行い、共有者のデータセット内の機密機能の分布を明らかにする。 実世界のデータセットで行った実験では,様々な種類の拡散モデルに対する攻撃性能が顕著であり,関連するアプリケーションにおけるロバストなデータ監査とプライバシ保護プロトコルの重要性を強調した。

Diffusion models have recently gained significant attention in both academia and industry due to their impressive generative performance in terms of both sampling quality and distribution coverage. Accordingly, proposals are made for sharing pre-trained diffusion models across different organizations, as a way of improving data utilization while enhancing privacy protection by avoiding sharing private data directly. However, the potential risks associated with such an approach have not been comprehensively examined. In this paper, we take an adversarial perspective to investigate the potential privacy and fairness risks associated with the sharing of diffusion models. Specifically, we investigate the circumstances in which one party (the sharer) trains a diffusion model using private data and provides another party (the receiver) black-box access to the pre-trained model for downstream tasks. We demonstrate that the sharer can execute fairness poisoning attacks to undermine the receiver's downstream models by manipulating the training data distribution of the diffusion model. Meanwhile, the receiver can perform property inference attacks to reveal the distribution of sensitive features in the sharer's dataset. Our experiments conducted on real-world datasets demonstrate remarkable attack performance on different types of diffusion models, which highlights the critical importance of robust data auditing and privacy protection protocols in pertinent applications.
翻訳日:2024-03-01 17:14:57 公開日:2024-02-28
# ネットワークトポロジが分散型フェデレーション学習の性能に及ぼす影響

Impact of network topology on the performance of Decentralized Federated Learning ( http://arxiv.org/abs/2402.18606v1 )

ライセンス: Link先を確認
Luigi Palmieri and Chiara Boldrini and Lorenzo Valerio and Andrea Passarella and Marco Conti(参考訳) 完全な分散学習は、インフラストラクチャの課題とプライバシの懸念に対処しながら、インターネットの端でAIモデルをトレーニングするための勢いを増している。 分散機械学習システムでは、データは複数のノードに分散され、各ノードはそのデータセットに基づいてローカルモデルをトレーニングする。 ローカルモデルは共有され、新しいデータに対して正確な予測を行うことができるグローバルモデルを形成する。 我々の調査は、異なるタイプのネットワーク構造が、ネットワーク上の他のノードで利用可能なデータの学習パターンから得られる洞察をノードが取り入れた知識の拡散にどのように影響するかに焦点を当てている。 具体的には,3つのネットワークトポロジと6つのデータ分散手法を用いて,ネットワーク構造と学習性能の複雑な相互作用について検討する。 これらの手法は、ノードがこれらの指標の高い値または低い値を示すかどうかとともに、次数中心性、相互中心性、クラスタリング係数を含む異なる頂点特性を考察する。 この結果から,グローバル集中度指標(度数,度数)が学習性能に関連し,局所クラスタリングの予測精度は低下することが示唆された。 モデル集約時の希釈効果に起因する周辺ノードから中央ノードへの知識伝達における課題を強調する。 さらに,中央ノードがプル効果を発揮し,知識の普及を促進することも観察した。 次数分布を調べる際、バラバシ・アルベルトネットワークのハブは中央ノードの学習に正の影響を与えるが、周辺ノードから知識が生まれると希釈が悪化する。 最後に,地域社会以外での知識循環の困難さを実証する。

Fully decentralized learning is gaining momentum for training AI models at the Internet's edge, addressing infrastructure challenges and privacy concerns. In a decentralized machine learning system, data is distributed across multiple nodes, with each node training a local model based on its respective dataset. The local models are then shared and combined to form a global model capable of making accurate predictions on new data. Our exploration focuses on how different types of network structures influence the spreading of knowledge - the process by which nodes incorporate insights gained from learning patterns in data available on other nodes across the network. Specifically, this study investigates the intricate interplay between network structure and learning performance using three network topologies and six data distribution methods. These methods consider different vertex properties, including degree centrality, betweenness centrality, and clustering coefficient, along with whether nodes exhibit high or low values of these metrics. Our findings underscore the significance of global centrality metrics (degree, betweenness) in correlating with learning performance, while local clustering proves less predictive. We highlight the challenges in transferring knowledge from peripheral to central nodes, attributed to a dilution effect during model aggregation. Additionally, we observe that central nodes exert a pull effect, facilitating the spread of knowledge. In examining degree distribution, hubs in Barabasi-Albert networks positively impact learning for central nodes but exacerbate dilution when knowledge originates from peripheral nodes. Finally, we demonstrate the formidable challenge of knowledge circulation outside of segregated communities.
翻訳日:2024-03-01 17:14:20 公開日:2024-02-28
# FORML:直交制約を伴うメタラーニングのためのリーマン的ヘッセンフリー手法

FORML: A Riemannian Hessian-free Method for Meta-learning with Orthogonality Constraint ( http://arxiv.org/abs/2402.18605v1 )

ライセンス: Link先を確認
Hadi Tabealhojeh, Soumava Kumar Roy, Peyman Adibi and Hossein Karshenas(参考訳) メタラーニング問題は、通常、内部および外部の最適化ループでタスク固有とメタパラメータを更新する二段階最適化として定式化される。 しかし、リーマン多様体上のパラメータとメタパラメータが位置するリーマン空間における最適化の実行は計算集約的である。 ユークリッド法とは異なり、リーマンのバックプロパゲーションは、引き算や直交射影のようなリーマン作用素を通しての逆計算を含む二階微分を計算する必要がある。 本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。 本手法は計算負荷とメモリフットプリントを大幅に削減する。 本稿では,最後の分類層のパラメータの直交制約をバックボーンネットワークのヘッダとして適用したStiefel完全連結層を用いて,勾配に基づくメタ学習手法の表現再利用を強化する方法を示す。 実験の結果,提案手法が最先端の手法,特にユークリッドの手法であるMAMLと比較して優れていることを示す。

Meta-learning problem is usually formulated as a bi-level optimization in which the task-specific and the meta-parameters are updated in the inner and outer loops of optimization, respectively. However, performing the optimization in the Riemannian space, where the parameters and meta-parameters are located on Riemannian manifolds is computationally intensive. Unlike the Euclidean methods, the Riemannian backpropagation needs computing the second-order derivatives that include backward computations through the Riemannian operators such as retraction and orthogonal projection. This paper introduces a Hessian-free approach that uses a first-order approximation of derivatives on the Stiefel manifold. Our method significantly reduces the computational load and memory footprint. We show how using a Stiefel fully-connected layer that enforces orthogonality constraint on the parameters of the last classification layer as the head of the backbone network, strengthens the representation reuse of the gradient-based meta-learning methods. Our experimental results across various few-shot learning datasets, demonstrate the superiority of our proposed method compared to the state-of-the-art methods, especially MAML, its Euclidean counterpart.
翻訳日:2024-03-01 17:13:34 公開日:2024-02-28
# MMSR:シンボリック回帰はマルチモーダルタスクである

MMSR: Symbolic Regression is a Multimodal Task ( http://arxiv.org/abs/2402.18603v1 )

ライセンス: Link先を確認
Yanjie Li, Jingyi Liu, Weijun Li, Lina Yu, Min Wu, Wenqiang Li, Meilan Hao, Su Wei, Yusong Deng(参考訳) 数式とは、何千年もの間自然の法則を探求する人間の知恵の結晶化である。 複雑な自然法則を簡潔な数学的公式で記述することは、科学者の絶え間なく追求し、人工知能にとって大きな挑戦である。 この分野は記号回帰と呼ばれる。 記号回帰はもともと組合せ最適化問題として定式化され、gpと強化学習アルゴリズムがそれを解くために用いられた。 しかし、GPはハイパーパラメータに敏感であり、これらの2種類のアルゴリズムは非効率である。 この問題を解決するために、研究者はデータから表現へのマッピングを翻訳問題として扱う。 そして、対応する大規模事前訓練モデルを導入する。 しかし、データと表現の骨格は2言語ほど明確な単語対応を持っていない。 代わりに、それらはむしろ2つのモダリティ(例えば、画像とテキスト)のようなものです。 そこで本稿では,MMSRを提案する。 sr問題は純粋なマルチモーダル問題として解決され、後続のモーダル特徴融合を容易にするためにモーダルアライメントの訓練プロセスにもコントラスト学習が導入されている。 形態的特徴融合の促進を図るために,我々は,コントラスト的学習損失と他の損失を,一方的な学習のみを必要とするコントラスト的学習損失とを同時に訓練する戦略を採用することに留意すべきである。 私たちの実験では、トレーニングを組み合わせることで、機能抽出モジュールとフィーチャーフュージョンモジュールの実行性が向上します。 実験の結果,複数の大規模事前学習ベースラインと比較して,MMSRはSRBenchを含む複数の主流データセットにおいて最も高度な結果が得られることがわかった。

Mathematical formulas are the crystallization of human wisdom in exploring the laws of nature for thousands of years. Describing the complex laws of nature with a concise mathematical formula is a constant pursuit of scientists and a great challenge for artificial intelligence. This field is called symbolic regression. Symbolic regression was originally formulated as a combinatorial optimization problem, and GP and reinforcement learning algorithms were used to solve it. However, GP is sensitive to hyperparameters, and these two types of algorithms are inefficient. To solve this problem, researchers treat the mapping from data to expressions as a translation problem. And the corresponding large-scale pre-trained model is introduced. However, the data and expression skeletons do not have very clear word correspondences as the two languages do. Instead, they are more like two modalities (e.g., image and text). Therefore, in this paper, we proposed MMSR. The SR problem is solved as a pure multimodal problem, and contrastive learning is also introduced in the training process for modal alignment to facilitate later modal feature fusion. It is worth noting that in order to better promote the modal feature fusion, we adopt the strategy of training contrastive learning loss and other losses at the same time, which only needs one-step training, instead of training contrastive learning loss first and then training other losses. Because our experiments prove training together can make the feature extraction module and feature fusion module running-in better. Experimental results show that compared with multiple large-scale pre-training baselines, MMSR achieves the most advanced results on multiple mainstream datasets including SRBench.
翻訳日:2024-03-01 17:13:13 公開日:2024-02-28
# 人工知能と糖尿病:網膜の内側を覗く

Artificial Intelligence and Diabetes Mellitus: An Inside Look Through the Retina ( http://arxiv.org/abs/2402.18600v1 )

ライセンス: Link先を確認
Yasin Sadeghi Bazargani, Majid Mirzaei, Navid Sobhi, Mirsaeed Abdollahi, Ali Jafarizadeh, Siamak Pedrammehr, Roohallah Alizadehsani, Ru San Tan, Sheikh Mohammed Shariful Islam, U. Rajendra Acharya(参考訳) 糖尿病は、患者の血管合併症を予知する。 網膜画像と血管は、体の微小および大血管の健康を反映している。 糖尿病性網膜症(DR)、ニューロパチー、腎症、動脈硬化性心血管疾患などのDM合併症の診断や、心血管イベントのリスクの予測に使用できる。 デジタル網膜画像を用いたDRの高スループット検出のための人工知能対応システムが臨床応用されている。 DRスクリーニング以外にも、AI統合は、DM患者の全体的ケアに関連する課題に対処する大きな可能性を秘めている。 本研究では,DM診断,予後,管理に関連する網膜画像に基づくAI応用研究の文献を網羅的にレビューすることを目的とする。 総合的なai支援糖尿病ケアは,drスクリーニングに限らず,倫理,データプライバシ,公平アクセス,説明可能性といったシステム導入の障壁を議論する。 患者の健康状態vis a vis dm合併症の評価能力と将来の心血管合併症のリスク予測能力により、ai支援網膜画像解析は、dm患者の現代のパーソナライズ医療の中心的なツールとなる可能性がある。

Diabetes mellitus (DM) predisposes patients to vascular complications. Retinal images and vasculature reflect the body's micro- and macrovascular health. They can be used to diagnose DM complications, including diabetic retinopathy (DR), neuropathy, nephropathy, and atherosclerotic cardiovascular disease, as well as forecast the risk of cardiovascular events. Artificial intelligence (AI)-enabled systems developed for high-throughput detection of DR using digitized retinal images have become clinically adopted. Beyond DR screening, AI integration also holds immense potential to address challenges associated with the holistic care of the patient with DM. In this work, we aim to comprehensively review the literature for studies on AI applications based on retinal images related to DM diagnosis, prognostication, and management. We will describe the findings of holistic AI-assisted diabetes care, including but not limited to DR screening, and discuss barriers to implementing such systems, including issues concerning ethics, data privacy, equitable access, and explainability. With the ability to evaluate the patient's health status vis a vis DM complication as well as risk prognostication of future cardiovascular complications, AI-assisted retinal image analysis has the potential to become a central tool for modern personalized medicine in patients with DM.
翻訳日:2024-03-01 17:12:47 公開日:2024-02-28
# FOFO: LLMのフォーマットフォロー能力を評価するベンチマーク

FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability ( http://arxiv.org/abs/2402.18667v1 )

ライセンス: Link先を確認
Congying Xia, Chen Xing, Jiangshu Du, Xinyi Yang, Yihao Feng, Ran Xu, Wenpeng Yin, Caiming Xiong(参考訳) 本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoについて述べる。 LLMの進歩にもかかわらず、既存のベンチマークはフォーマット追従の習熟度を適切に評価することができなかった。 FoFoはこのギャップを、AIとHumanのコラボレーティブな方法で開発された、さまざまな現実世界のフォーマットと命令で埋める。 オープンソース(例えば、Llama 2 WizardLM)とクローズドソース(例えば、GPT-4, PALM2, Gemini)の両方にわたる評価では、3つの重要な発見が強調されている。 これらの洞察は、フォーマットフォロースキルの特別なチューニングの必要性を示唆し、ドメイン固有のAIエージェントの選択を導くFoFoの役割を強調している。 FoFoはhttps://github.com/SalesforceAIResearch/FoFoで公開されている。

This paper presents FoFo, a pioneering benchmark for evaluating large language models' (LLMs) ability to follow complex, domain-specific formats, a crucial yet underexamined capability for their application as AI agents. Despite LLMs' advancements, existing benchmarks fail to assess their format-following proficiency adequately. FoFo fills this gap with a diverse range of real-world formats and instructions, developed through an AI-Human collaborative method. Our evaluation across both open-source (e.g., Llama 2, WizardLM) and closed-source (e.g., GPT-4, PALM2, Gemini) LLMs highlights three key findings: open-source models significantly lag behind closed-source ones in format adherence; LLMs' format-following performance is independent of their content generation quality; and LLMs' format proficiency varies across different domains. These insights suggest the need for specialized tuning for format-following skills and highlight FoFo's role in guiding the selection of domain-specific AI agents. FoFo is released here at https://github.com/SalesforceAIResearch/FoFo.
翻訳日:2024-03-01 17:05:16 公開日:2024-02-28
# フェルミオン非ガウスゲートの少ない量子状態の効率的な学習

Efficient learning of quantum states prepared with few fermionic non-Gaussian gates ( http://arxiv.org/abs/2402.18665v1 )

ライセンス: Link先を確認
Antonio Anna Mele and Yaroslav Herasymenko(参考訳) ますます複雑な量子状態の実験的実現は、新しい状態学習と検証の方法の必要性を強く示している。 そのようなフレームワークである量子状態トモグラフィーでは、測定によって得られたデータから完全な量子状態を学ぶことが目的である。 状態に関する事前の仮定がなければ、このタスクは避けられないほど難しい。 ここでは,ガウスゲートの任意の数と最大で$t$非ガウスゲートで用意された$n$フェルミオンモードについて,学習状態の効率的なアルゴリズムを提案する。 Jordan-Wigner のマッピングでは、最寄りのマッチゲート回路で作成される$n$-qubit状態と、少なくとも$t$ SWAP-gate を含む。 本アルゴリズムは,単一コピー計測のみに基づいて,目標状態までの距離に近づいた状態の古典表現を生成する。 このアルゴリズムのサンプルと時間の複雑さは$\mathrm{poly}(n,2^t)$であり、もし$t=o(\log(n))$なら効率的である。 また、$t$が対数的よりもわずかにスケールする場合、同じタスクを解く学習アルゴリズムは、共通の暗号的仮定の下で非効率でなければならないことも示している。 また、状態のコピーへのアクセスを前提として、学習アルゴリズムが動作する状態の集合にその状態が近いかどうかを判断する効率的なプロパティテストアルゴリズムも提供する。 トモグラフィー以外にも、我々の研究は非ガウシアンゲートの少ない状態の構造に光を当て、回路の複雑さの上限を改善した。

The experimental realization of increasingly complex quantum states underscores the pressing need for new methods of state learning and verification. In one such framework, quantum state tomography, the aim is to learn the full quantum state from data obtained by measurements. Without prior assumptions on the state, this task is prohibitively hard. Here, we present an efficient algorithm for learning states on $n$ fermion modes prepared by any number of Gaussian and at most $t$ non-Gaussian gates. By Jordan-Wigner mapping, this also includes $n$-qubit states prepared by nearest-neighbour matchgate circuits with at most $t$ SWAP-gates. Our algorithm is based exclusively on single-copy measurements and produces a classical representation of a state, guaranteed to be close in trace distance to the target state. The sample and time complexity of our algorithm is $\mathrm{poly}(n,2^t)$; thus if $t=O(\log(n))$, it is efficient. We also show that, if $t$ scales slightly more than logarithmically, any learning algorithm to solve the same task must be inefficient, under common cryptographic assumptions. We also provide an efficient property testing algorithm that, given access to copies of a state, determines whether such state is far or close to the set of states for which our learning algorithm works. Beyond tomography, our work sheds light on the structure of states prepared with few non-Gaussian gates and offers an improved upper bound on their circuit complexity.
翻訳日:2024-03-01 17:04:53 公開日:2024-02-28
# 大規模言語モデルとゲーム: 調査とロードマップ

Large Language Models and Games: A Survey and Roadmap ( http://arxiv.org/abs/2402.18659v1 )

ライセンス: Link先を確認
Roberto Gallotta, Graham Todd, Marvin Zammit, Sam Earle, Antonios Liapis, Julian Togelius and Georgios N. Yannakakis(参考訳) 近年、大型言語モデル(LLM)の研究が爆発的に増加し、この話題に対する公的な関与が伴っている。 自然言語処理におけるニッチな領域として始まったが、LLMはゲームを含む幅広いアプリケーションや領域で顕著なポテンシャルを示してきた。 本稿では,ゲームにおけるLLMの様々な応用状況を調査し,ゲーム内でLLMが果たす役割について検討する。 ここでは,ゲーム分野におけるLLMの潜在的な可能性と限界を整理し,ゲーム分野におけるLLMの今後の活用に向けた未探索領域と将来的な方向性について論じる。 LLMとゲームの交差点における最初の総合的な調査とロードマップとして、このエキサイティングな新しい分野における研究とイノベーションの基礎となることを期待する。

Recent years have seen an explosive increase in research on large language models (LLMs), and accompanying public engagement on the topic. While starting as a niche area within natural language processing, LLMs have shown remarkable potential across a broad range of applications and domains, including games. This paper surveys the current state of the art across the various applications of LLMs in and for games, and identifies the different roles LLMs can take within a game. Importantly, we discuss underexplored areas and promising directions for future uses of LLMs in games and we reconcile the potential and limitations of LLMs within the games domain. As the first comprehensive survey and roadmap at the intersection of LLMs and games, we are hopeful that this paper will serve as the basis for groundbreaking research and innovation in this exciting new field.
翻訳日:2024-03-01 17:04:27 公開日:2024-02-28
# ソーシャルとナビゲーションネットワークによる人間の優先順位の定量化

Quantifying Human Priors over Social and Navigation Networks ( http://arxiv.org/abs/2402.18651v1 )

ライセンス: Link先を確認
Gecia Bravo-Hermsdorff(参考訳) 人間の知識は、ほとんど暗黙的で関係性がある -- 共通の友人はいるか? ここからそこまで歩いていいですか。 本研究では、グラフの組合せ構造を利用して、そのような関係データに対する人間の優先順位を定量化する。 実験では,進化的時間スケールにおいて,社会的相互作用と空間的ナビゲーションの2つの領域に注目した。 推定前の特徴のいくつかは、グラフサイズの関数としてのスパーシティの傾向など、著しく一貫したものである。 その他の特徴は、社会的相互作用における三角閉包の傾向など、ドメイン固有である。 より広い範囲において,本研究では,間接行動実験の非古典的統計解析を用いてデータの潜在バイアスを効率的にモデル化する方法を示す。

Human knowledge is largely implicit and relational -- do we have a friend in common? can I walk from here to there? In this work, we leverage the combinatorial structure of graphs to quantify human priors over such relational data. Our experiments focus on two domains that have been continuously relevant over evolutionary timescales: social interaction and spatial navigation. We find that some features of the inferred priors are remarkably consistent, such as the tendency for sparsity as a function of graph size. Other features are domain-specific, such as the propensity for triadic closure in social interactions. More broadly, our work demonstrates how nonclassical statistical analysis of indirect behavioral experiments can be used to efficiently model latent biases in the data.
翻訳日:2024-03-01 17:04:12 公開日:2024-02-28
# LLMセキュリティの新しい時代 : 実世界のLLMシステムにおけるセキュリティ問題を探る

A New Era in LLM Security: Exploring Security Concerns in Real-World LLM-based Systems ( http://arxiv.org/abs/2402.18649v1 )

ライセンス: Link先を確認
Fangzhou Wu, Ning Zhang, Somesh Jha, Patrick McDaniel, Chaowei Xiao(参考訳) 大規模言語モデル(LLM)システムは本質的に構成的であり、個々のLLMは、プラグインやサンドボックスなどの追加のオブジェクト層と共にコア基盤として機能する。 大きな可能性に加えて、このような確率的インテリジェントシステムのセキュリティに対する懸念も高まっている。 しかし、LLMのセキュリティに関する既存の研究は、個々のLLMに焦点を当てることが多いが、他のオブジェクト(例えば、Frontend、Webtool、Sandboxなど)でLLMシステムのレンズを通してエコシステムを調べることなく。 本稿では,個々のLLMに注目するのではなく,LLMシステムのセキュリティを体系的に解析する。 そのため、情報フローの上に構築し、LLM内の情報フローとLLMと他のオブジェクト間の整合性に関する制約としてLLMシステムのセキュリティを定式化する。 この構成とLLMの独特な確率特性に基づいて,LLMシステムの攻撃面を,(1)多層セキュリティ解析,(2)制約の存在分析,(3)制約の堅牢性解析の3つの重要な構成要素に分解することができる。 この新たな攻撃面を基盤として,多層・多段アプローチを提案し,これを最先端LLMシステムであるOpenAI GPT4に適用する。 我々の調査は、LLMモデル自体だけでなく、他のコンポーネントとの統合においても、いくつかのセキュリティ問題を明らかにしています。 OpenAI GPT4は安全機能を改善するために多くの安全制約を設計しているが、これらの安全制約は攻撃者に対して脆弱である。 発見した脆弱性の現実的な脅威をさらに実証するため,ユーザ入力を操作する必要やOpenAI GPT4への直接アクセスを必要とせず,相手が不正にユーザのチャット履歴を取得できるエンドツーエンド攻撃を構築した。 デモはリンクにある。 https://fzwark.github.io/llm-system-attack-demo/

Large Language Model (LLM) systems are inherently compositional, with individual LLM serving as the core foundation with additional layers of objects such as plugins, sandbox, and so on. Along with the great potential, there are also increasing concerns over the security of such probabilistic intelligent systems. However, existing studies on LLM security often focus on individual LLM, but without examining the ecosystem through the lens of LLM systems with other objects (e.g., Frontend, Webtool, Sandbox, and so on). In this paper, we systematically analyze the security of LLM systems, instead of focusing on the individual LLMs. To do so, we build on top of the information flow and formulate the security of LLM systems as constraints on the alignment of the information flow within LLM and between LLM and other objects. Based on this construction and the unique probabilistic nature of LLM, the attack surface of the LLM system can be decomposed into three key components: (1) multi-layer security analysis, (2) analysis of the existence of constraints, and (3) analysis of the robustness of these constraints. To ground this new attack surface, we propose a multi-layer and multi-step approach and apply it to the state-of-art LLM system, OpenAI GPT4. Our investigation exposes several security issues, not just within the LLM model itself but also in its integration with other components. We found that although the OpenAI GPT4 has designed numerous safety constraints to improve its safety features, these safety constraints are still vulnerable to attackers. To further demonstrate the real-world threats of our discovered vulnerabilities, we construct an end-to-end attack where an adversary can illicitly acquire the user's chat history, all without the need to manipulate the user's input or gain direct access to OpenAI GPT4. Our demo is in the link: https://fzwark.github.io/LLM-System-Attack-Demo/
翻訳日:2024-03-01 17:04:00 公開日:2024-02-28
# 位置検証のための自然関数に対する線形ゲート境界

Linear gate bounds against natural functions for position-verification ( http://arxiv.org/abs/2402.18648v1 )

ライセンス: Link先を確認
Vahid Asadi, Richard Cleve, Eric Culf, Alex May(参考訳) 量子位置検証スキームは、証明者の空間的位置の検証を試みる。 証明者は量子および古典的な入力で挑戦され、適切なタイミングで応答しなければならない。 我々は、$f$-routingと$f$-BB84と呼ばれる2つのよく研究された位置検証スキームを考える。 どちらのスキームも、古典関数 $f$ の長さ $n$ の入力を局所的に計算し、$O(1)$ サイズの量子システムを操作することを要求する。 内部積関数として$f(x,y)=\sum_i x_i y_i$ とすると、不正直な証明者は量子ゲートや単一量子ビットの測定を$\Omega(n)$ で実行しなければならない。 この証明は、古典的コミュニケーションと共有の絡み合いによる同時メッセージパッシングの削減を用いる。 このスキームは多項式古典的リソースと$o(1)$量子リソースを持つ証明者に対して実現可能であり、サブ線形量子リソースに対してセキュアである。

A quantum position-verification scheme attempts to verify the spatial location of a prover. The prover is issued a challenge with quantum and classical inputs and must respond with appropriate timings. We consider two well-studied position-verification schemes known as $f$-routing and $f$-BB84. Both schemes require an honest prover to locally compute a classical function $f$ of inputs of length $n$, and manipulate $O(1)$ size quantum systems. Taking $f(x,y)=\sum_i x_i y_i$ to be the inner product function, we prove that a dishonest prover must execute $\Omega(n)$ quantum gates or single qubit measurements. Our proof uses a reduction to simultaneous message passing with classical communication and shared entanglement. The scheme is feasible for a prover with polynomial classical resources and $O(1)$ quantum resources, and secure against sub-linear quantum resources.
翻訳日:2024-03-01 17:03:27 公開日:2024-02-28
# 非局所量子計算におけるランク下限

Rank lower bounds on non-local quantum computation ( http://arxiv.org/abs/2402.18647v1 )

ライセンス: Link先を確認
Vahid Asadi, Eric Culf, Alex May(参考訳) 非局所量子計算(NLQC)は、2つの量子システム間の相互作用を1つの同時通信と共有絡み合いに置き換える。 NLQCの2つのクラス、$f$-routingと$f$-BB84を研究し、これは古典的な情報理論の暗号と量子位置検証に関連している。 両設定の絡み合いに対する最初の非自明な下界を与えるが、完全正当性を持つ下界プロトコルに制限される。 この手法は、与えられた非局所量子計算を定義する関数 $f$ が 0 であるときに限り、0 となる関数 $g$ のランクに基づいている。 等式、非品質、およびより大きい函数に対して、完全設定において、$f$-routing と $f$-bb84 のエンタングルメントの明示的な線型下限が得られる。 情報理論暗号において研究されている秘密の条件開示と$f$-routingの関係から,CDSのランダム性複雑性を低くする新たな手法が得られた。

A non-local quantum computation (NLQC) replaces an interaction between two quantum systems with a single simultaneous round of communication and shared entanglement. We study two classes of NLQC, $f$-routing and $f$-BB84, which are of relevance to classical information theoretic cryptography and quantum position-verification. We give the first non-trivial lower bounds on entanglement in both settings, but are restricted to lower bounding protocols with perfect correctness. Our technique is based on the rank of a function $g$ that is zero if and only if the function $f$ which defines the given non-local quantum computation is zero. For the equality, non-equality, and greater-than functions we obtain explicit linear lower bounds on entanglement for $f$-routing and $f$-BB84 in the perfect setting. Because of a relationship between $f$-routing and the conditional disclosure of secrets (CDS) primitive studied in information theoretic cryptography, we also obtain a new technique for lower bounding the randomness complexity of CDS.
翻訳日:2024-03-01 17:03:09 公開日:2024-02-28
# フロッケ工学的パワーロー相互作用スピンモデルにおける2モードスクイーズ

Two-mode Squeezing in Floquet Engineered Power-law Interacting Spin Models ( http://arxiv.org/abs/2402.18642v1 )

ライセンス: Link先を確認
Arman Duha, Thomas Bilitewski(参考訳) 2次元二層系に閉じ込められた量子スピン 1/2 xxz モデルの非平衡ダイナミクスについて検討し、逆パワーロー相互作用を媒介とし、距離 $r$ (1/r^{\alpha}$) で崩壊し、局所場を介するスピンの時空間制御を行う。 2つの層における逆磁化スピンの初期状態は動的に不安定であり、相関した励起対が指数関数的に生成される。 powerlawモデルでは,層間を2モードスクイーズする形で,スケーラブルな絡み合いの発生が汎用的に実現可能であることを見出した。 さらに,空間的時間的工学的相互作用は,生成した絡み合いを著しく増加させ,実際にハイゼンベルク限定的スケーリングを実現することを実証する。 この研究は、パワーロースピンモデルを実現する様々な実験原子、分子、光学プラットフォームに関係し、時空間制御の利点を示し、量子エンハンスセンシングの潜在的な応用とともに、量子論的に有用な絡み合いの生成を最大化する。

We study the non-equilibrium dynamics of a quantum spin 1/2 XXZ model confined in a two-dimensional bi-layer system, with couplings mediated by inverse power-law interactions, falling off with distance $r$ as $1/r^{\alpha}$, and spatio-temporal control of the spins enabled via local fields. An initial state of spins with opposite magnetization in the two layers is dynamically unstable resulting in exponential generation of correlated pairs of excitations. We find that scalable generation of entanglement in the form of two-mode squeezing between the layers can generically be achieved in powerlaw models. We further demonstrate that spatially-temporally engineered interactions allow to significantly increase the generated entanglement and in fact achieve Heisenberg limited scaling. This work is relevant to a wide variety of experimental atomic, molecular, and optical platforms, which realize powerlaw spin models, and demonstrates the advantage of spatio-temporal control to maximize the generation of metrologically useful entanglement, with potential applications in quantum-enhanced sensing.
翻訳日:2024-03-01 17:02:48 公開日:2024-02-28
# 集合座標を固定する

The Collective Coordinate Fix ( http://arxiv.org/abs/2402.18633v1 )

ライセンス: Link先を確認
Arindam Bhattacharya, Jordan Cotler, Aur\'elien Dersy, Matthew D. Schwartz(参考訳) 集合座標は、古典的対称性と整合するサドル点周辺のゆらぎに起因する発散を管理するためにしばしば経路積分に使用される。 これらの座標はゼロモードの多様体をパラメータ化し、より広い範囲で場の空間上の優美な座標を提供する。 しかし、サドル点周辺の局所座標からより大域的な集合座標への変化は驚くほど微妙である。 主な複雑さは、局所座標から集合座標への写像が汎用的に多値であることである。 したがって、経路積分の領域を繊細な方法で制限するか、あるいは経路積分をある交叉数で割ることで多値性に対して正すかのどちらかを強制される。 これらの交叉数を考慮に入れながら、集合座標の修正方法を慎重に検討し、自由理論に対する修正の重要性を実証する。 また、相互作用理論の修正に関する詳細な研究を行い、経路積分への高次交叉の寄与を非摂動的に抑制できることを示した。 単粒子量子力学から量子場理論まで、様々な例を用いて集合座標の実装における様々な落とし穴を説明し、解決する。

Collective coordinates are frequently employed in path integrals to manage divergences caused by fluctuations around saddle points that align with classical symmetries. These coordinates parameterize a manifold of zero modes and more broadly provide judicious coordinates on the space of fields. However, changing from local coordinates around a saddle point to more global collective coordinates is remarkably subtle. The main complication is that the mapping from local coordinates to collective coordinates is generically multi-valued. Consequently one is forced to either restrict the domain of path integral in a delicate way, or otherwise correct for the multi-valuedness by dividing the path integral by certain intersection numbers. We provide a careful treatment of how to fix collective coordinates while accounting for these intersection numbers, and then demonstrate the importance of the fix for free theories. We also provide a detailed study of the fix for interacting theories and show that the contributions of higher intersections to the path integral can be non-perturbatively suppressed. Using a variety of examples ranging from single-particle quantum mechanics to quantum field theory, we explain and resolve various pitfalls in the implementation of collective coordinates.
翻訳日:2024-03-01 17:02:26 公開日:2024-02-28
# コスト関数制御型マルチレイタレーションとグラフニューラルネットワークを用いたGNSS位置決め

GNSS Positioning using Cost Function Regulated Multilateration and Graph Neural Networks ( http://arxiv.org/abs/2402.18630v1 )

ライセンス: Link先を確認
Amir Jalalirad, Davide Belli, Bence Major, Songwon Jee, Himanshu Shah, Will Morrison(参考訳) GNSS衛星からの視線信号が高層物体によって頻繁に遮断される都市環境では、GNSS受信機は衛星範囲の測定において大きなエラーを受ける。 ヒューリスティック法は、これらの誤差を推定し、雑音測定が局所化精度に与える影響を減らすために一般的に用いられる。 本研究では,これらの誤差推定ヒューリスティックを,グラフニューラルネットワークに基づくディープラーニングモデルに置き換える。 さらに、多元化プロセスのコスト関数を解析することにより、推定誤差を利用した最適手法を導出する。 提案手法は,誤差推定精度が向上するにつれて,マルチラテラル化が受信機の位置に収束することを保証する。 我々は,多様な特徴を有する複数の都市から収集した10万gnssエポック以上の実世界のデータセット上でソリューションを評価する。 その結果,最近のディープラーニングベースラインと古典的ローカライゼーションアプローチに対して,水平位置推定誤差の40%から80%の改善が見られた。

In urban environments, where line-of-sight signals from GNSS satellites are frequently blocked by high-rise objects, GNSS receivers are subject to large errors in measuring satellite ranges. Heuristic methods are commonly used to estimate these errors and reduce the impact of noisy measurements on localization accuracy. In our work, we replace these error estimation heuristics with a deep learning model based on Graph Neural Networks. Additionally, by analyzing the cost function of the multilateration process, we derive an optimal method to utilize the estimated errors. Our approach guarantees that the multilateration converges to the receiver's location as the error estimation accuracy increases. We evaluate our solution on a real-world dataset containing more than 100k GNSS epochs, collected from multiple cities with diverse characteristics. The empirical results show improvements from 40% to 80% in the horizontal localization error against recent deep learning baselines as well as classical localization approaches.
翻訳日:2024-03-01 17:02:07 公開日:2024-02-28
# 有限温度動的および励起状態量子相転移の統一

Unifying Finite-Temperature Dynamical and Excited-State Quantum Phase Transitions ( http://arxiv.org/abs/2402.18622v1 )

ライセンス: Link先を確認
\'Angel L. Corps, Armando Rela\~no, Jad C. Halimeh(参考訳) 近年、動的相転移の様々な概念が出現し、非平衡臨界を記述している。 これらの異なる概念を結合する統一フレームワークはいまだに欠けており、非平衡量子多体普遍性を理解するための大きな進歩をもたらすだろう。 リプキン-メシュコフ-グリッヒ模型において、系を熱アンサンブルで初期化し、その後量子クエンチを行い、励起状態の量子相転移(esqpts)と2つの主要な力学相転移(dpts)の直接接続を確立し、後者の相を臨界エネルギーと前者の保存則に関連付ける。 我々の研究は、非基底的臨界の様々な概念が密接に結びついており、極非平衡普遍性の統一的な枠組みへの道を開く。

In recent years, various notions of dynamical phase transitions have emerged to describe far-from-equilibrium criticality. A unifying framework connecting these different concepts is still missing, and would provide significant progress towards understanding far-from-equilibrium quantum many-body universality. Initializing our system in a thermal ensemble and subsequently performing quantum quenches in the Lipkin-Meshkov-Glick model, we establish a direct connection between excited-state quantum phase transitions (ESQPTs) and two major types of dynamical phase transitions (DPTs), by relating the phases of the latter to the critical energies and conservation laws in the former. Our work provides further insight into how various concepts of non-ground-state criticality are intimately connected, paving the way for a unified framework of far-from-equilibrium universality.
翻訳日:2024-03-01 17:01:51 公開日:2024-02-28
# 量子コンピュータ上の偏微分方程式の変分量子シミュレーションのための境界処理

Boundary Treatment for Variational Quantum Simulations of Partial Differential Equations on Quantum Computers ( http://arxiv.org/abs/2402.18619v1 )

ライセンス: Link先を確認
Paul Over, Sergio Bengoechea, Thomas Rung, Francesco Clerici, Leonardo Scandurra, Eugene de Villiers and Dieter Jaksch(参考訳) 本稿では, 2次偏微分方程式で表される初期境界値問題を解くための変分量子アルゴリズムを提案する。 このアプローチは、現在のノイズの多い中間スケール量子時代の量子コンピュータに適したハイブリッド古典/量子ハードウェアを使用する。 偏微分方程式は当初、モジュラー制御対状態作用素 (ansatz) を持つ最適制御問題に変換される。 最適化器が要求する目的関数とその導関数は、アンシラキュービットを測定することによって量子コンピュータ上で効率的に評価することができ、最適化手順は古典的ハードウェアを用いる。 この研究の焦点は境界条件の処理であり、これは補正技術を用いて量子ハードウェアの特性に合わせたものである。 この目的のために、境界条件と偏微分方程式の離散項はユニタリ操作の列に分解され、その後量子ゲートにコンパイルされる。 量子ハードウェアを古典的にエミュレートすることにより、2階偏微分方程式の精度とゲートの複雑さを評価する。 例としては、様々なディリクレ、ノイマン、ロビン条件と組み合わせたスカラー特性の定常および非定常拡散輸送方程式がある。 このフレキシブルアプローチの結果は、関連する量子回路の量子ビット数において、顕著なポリログ複雑性のスケーリングと組み合わせて、堅牢な振る舞いと強い予測精度を示す。 残る課題は最適化手順を高速化する適応 ansatz 戦略である。

The paper presents a variational quantum algorithm to solve initial-boundary value problems described by second-order partial differential equations. The approach uses hybrid classical/quantum hardware that is well suited for quantum computers of the current noisy intermediate-scale quantum era. The partial differential equation is initially translated into an optimal control problem with a modular control-to-state operator (ansatz). The objective function and its derivatives required by the optimizer can efficiently be evaluated on a quantum computer by measuring an ancilla qubit, while the optimization procedure employs classical hardware. The focal aspect of the study is the treatment of boundary conditions, which is tailored to the properties of the quantum hardware using a correction technique. For this purpose, the boundary conditions and the discretized terms of the partial differential equation are decomposed into a sequence of unitary operations and subsequently compiled into quantum gates. The accuracy and gate complexity of the approach are assessed for second-order partial differential equations by classically emulating the quantum hardware. The examples include steady and unsteady diffusive transport equations for a scalar property in combination with various Dirichlet, Neumann, or Robin conditions. The results of this flexible approach display a robust behavior and a strong predictive accuracy in combination with a remarkable polylog complexity scaling in the number of qubits of the involved quantum circuits. Remaining challenges refer to adaptive ansatz strategies that speed up the optimization procedure.
翻訳日:2024-03-01 17:01:33 公開日:2024-02-28
# ELA:ゼロサムゲームにおけるオフライン学習のための爆発的レベル拡張

ELA: Exploited Level Augmentation for Offline Learning in Zero-Sum Games ( http://arxiv.org/abs/2402.18617v1 )

ライセンス: Link先を確認
Shiqi Lei, Kanghoon Lee, Linjing Li, Jinkyoo Park, and Jiachen Li(参考訳) オフライン学習は、専門家が直接環境と対話することなく収集したオフラインデータセットから効果的なポリシーを導出する能力によって広く利用されている。 最近の研究では、データセットの特徴(例えば、専門レベルや複数の実証者)を考慮し、オフライン学習効率を高める様々な方法を模索している。 しかし、ゼロサムゲームの文脈では、相手の戦略に基づいて結果が大きく異なる異なるアプローチが必要である。 本研究では,教師なし学習手法を用いて,多様な実証者によるゼロサムゲームのオフラインデータセットから,各トラジェクトリの活用レベルを推定する手法を提案する。 その後,推定された悪用レベルをオフライン学習に取り入れ,支配的戦略の影響を最大化する。 本手法は,複数のゼロサムゲームにおけるレベル推定を解釈可能とし,支配的戦略データを効果的に識別する。 また,実演学習やゼロサムゲームにおけるオフライン強化学習を含む,本来のオフライン学習アルゴリズムを大幅に強化した。

Offline learning has become widely used due to its ability to derive effective policies from offline datasets gathered by expert demonstrators without interacting with the environment directly. Recent research has explored various ways to enhance offline learning efficiency by considering the characteristics (e.g., expertise level or multiple demonstrators) of the dataset. However, a different approach is necessary in the context of zero-sum games, where outcomes vary significantly based on the strategy of the opponent. In this study, we introduce a novel approach that uses unsupervised learning techniques to estimate the exploited level of each trajectory from the offline dataset of zero-sum games made by diverse demonstrators. Subsequently, we incorporate the estimated exploited level into the offline learning to maximize the influence of the dominant strategy. Our method enables interpretable exploited level estimation in multiple zero-sum games and effectively identifies dominant strategy data. Also, our exploited level augmented offline learning significantly enhances the original offline learning algorithms including imitation learning and offline reinforcement learning for zero-sum games.
翻訳日:2024-03-01 17:01:14 公開日:2024-02-28
# JCLEC-MO:多目的最適化エンジニアリング問題を解決するJavaスイート

JCLEC-MO: a Java suite for solving many-objective optimization engineering problems ( http://arxiv.org/abs/2402.18616v1 )

ライセンス: Link先を確認
Aurora Ram\'irez and Jos\'e Ra\'ul Romero and Carlos Garc\'ia-Mart\'inez and Sebasti\'an Ventura(参考訳) メタヒューリスティクスは現実世界の最適化問題を解決する効率的な手法として広く認識されているが、プログラミングスキルを持たないドメイン固有の専門家にとって、それらをスクラッチから実装することは難しい。 このシナリオでは、メタヒューリスティック最適化フレームワークは、カスタマイズされた要素からなる様々なアルゴリズムと実験的なサポートを提供するため、実用的な代替手段である。 近年、多くのエンジニアリング問題は、複数の目的またはそれ以上の目標を最適化することを必要としており、彼らが考案した汎用性と再利用可能性の原則を維持しつつ、新しい特定の要求を統合する適切なメタヒューリスティックなアルゴリズムやフレームワークへの関心を高めている。 本稿では,JCLEC-MOを提案する。JCLEC-MOは多目的最適化と多目的最適化のためのJavaフレームワークで,技術者がほとんどコーディングを行なわずに多数の多目的アルゴリズムを適用あるいは適用することができる。 jclec-moが多目的工学的問題にどのように対処できるか,ドメイン固有の要素の包含をしばしば必要とし,かつ,便利な接続型rユーティリティを用いて実験結果を分析するために,ケーススタディが開発,説明されている。

Although metaheuristics have been widely recognized as efficient techniques to solve real-world optimization problems, implementing them from scratch remains difficult for domain-specific experts without programming skills. In this scenario, metaheuristic optimization frameworks are a practical alternative as they provide a variety of algorithms composed of customized elements, as well as experimental support. Recently, many engineering problems require to optimize multiple or even many objectives, increasing the interest in appropriate metaheuristic algorithms and frameworks that might integrate new specific requirements while maintaining the generality and reusability principles they were conceived for. Based on this idea, this paper introduces JCLEC-MO, a Java framework for both multi- and many-objective optimization that enables engineers to apply, or adapt, a great number of multi-objective algorithms with little coding effort. A case study is developed and explained to show how JCLEC-MO can be used to address many-objective engineering problems, often requiring the inclusion of domain-specific elements, and to analyze experimental outcomes by means of conveniently connected R utilities.
翻訳日:2024-03-01 17:00:58 公開日:2024-02-28
# 固定型ランダム分類器で学習したディープニューラルネットワークモデル

Deep Neural Network Models Trained With A Fixed Random Classifier Transfer Better Across Domains ( http://arxiv.org/abs/2402.18614v1 )

ライセンス: Link先を確認
Hafiz Tiomoko Ali, Umberto Michieli, Ji Joong Moon, Daehyun Kim, Mete Ozay(参考訳) 最近発見されたニューラルネットワーク崩壊(nc)現象は、ディープニューラルネットワーク(dnn)の最終層重みがトレーニングの終了段階で、いわゆる等角タイトフレーム(etf)に収束することを示している。 このETF幾何は、最後の層アクティベーションのクラス内変数の消滅と等価である。 NC特性にインスパイアされた本論文では,最終層重みをETFにより固定したDNNモデルの伝達性について検討する。 これにより、クラス共分散情報を排除してクラス分離を強制し、暗黙の正規化を効果的に提供する。 このような固定分類器で訓練されたDNNモデルは、特にドメイン外のデータセットにおいて、転送性能を大幅に向上することを示す。 きめ細かな画像分類データセットの幅広い範囲について、我々のアプローチは優れている 一 共分散規則化を行わない基準法(最大二2%)及び 二 訓練中において、アクティベーションの共分散を明示的に白くする方法(19%まで) 固定ETF分類器で訓練したDNNは、ドメイン間の移動学習を改善するための強力なメカニズムを提供する。

The recently discovered Neural collapse (NC) phenomenon states that the last-layer weights of Deep Neural Networks (DNN), converge to the so-called Equiangular Tight Frame (ETF) simplex, at the terminal phase of their training. This ETF geometry is equivalent to vanishing within-class variability of the last layer activations. Inspired by NC properties, we explore in this paper the transferability of DNN models trained with their last layer weight fixed according to ETF. This enforces class separation by eliminating class covariance information, effectively providing implicit regularization. We show that DNN models trained with such a fixed classifier significantly improve transfer performance, particularly on out-of-domain datasets. On a broad range of fine-grained image classification datasets, our approach outperforms i) baseline methods that do not perform any covariance regularization (up to 22%), as well as ii) methods that explicitly whiten covariance of activations throughout training (up to 19%). Our findings suggest that DNNs trained with fixed ETF classifiers offer a powerful mechanism for improving transfer learning across domains.
翻訳日:2024-03-01 17:00:38 公開日:2024-02-28
# 有界次数のグラフを学習するための量子アルゴリズム

A quantum algorithm for learning a graph of bounded degree ( http://arxiv.org/abs/2402.18714v1 )

ライセンス: Link先を確認
Asaf Ferber, Liam Hardiman(参考訳) 我々は、エッジセットが不明な$m$エッジを持つ$n$頂点上のグラフ、$G$を提示する。 私たちの目標は、oracleへのクエリを可能な限り少なくして、$g$のエッジを学ぶことです。 オラクルに$s$の頂点を提出すると、$s$が$g$で少なくとも1つのエッジを誘導するかどうかがわかる。 このいわゆるOR-クエリモデルはよく研究されており、Angluin と Chen は、$O(m \log n)$ の一般グラフ $G$ と$m$ edges のクエリ数に上限を与える。 もし私たちが *quantum* クエリを許容するなら(重ね合わせでサブセットをクエリできる)、最良の古典的なアルゴリズムよりも速いスピードアップを達成できます。 G$が最大$d$で$O(1)$-colorableである場合、モンタナロとシャオは$G$のエッジを最大$\tilde{O}(d^2m^{3/4})$量子クエリで学習するアルゴリズムを提示した。 これは、$G$がマッチングまたはハミルトンサイクルであるときに、$\tilde{O}(m^{3/4})$量子クエリの上限を与えるが、これは、アンバイニスとモンタナロによって与えられる$\Omega(\sqrt{m})$クエリの下位境界から遠く離れている。 我々は、$g$ が有界度を持つ場合、モンタナロとシャオの仕事を改善する。 特に、確率の高い確率で$\tilde{O}(\sqrt{m})$量子クエリでサイクルとマッチングを学習し、理論的な下界を対数的因子にマッチングするランダム化アルゴリズムを提案する。

We are presented with a graph, $G$, on $n$ vertices with $m$ edges whose edge set is unknown. Our goal is to learn the edges of $G$ with as few queries to an oracle as possible. When we submit a set $S$ of vertices to the oracle, it tells us whether or not $S$ induces at least one edge in $G$. This so-called OR-query model has been well studied, with Angluin and Chen giving an upper bound on the number of queries needed of $O(m \log n)$ for a general graph $G$ with $m$ edges. When we allow ourselves to make *quantum* queries (we may query subsets in superposition), then we can achieve speedups over the best possible classical algorithms. In the case where $G$ has maximum degree $d$ and is $O(1)$-colorable, Montanaro and Shao presented an algorithm that learns the edges of $G$ in at most $\tilde{O}(d^2m^{3/4})$ quantum queries. This gives an upper bound of $\tilde{O}(m^{3/4})$ quantum queries when $G$ is a matching or a Hamiltonian cycle, which is far away from the lower bound of $\Omega(\sqrt{m})$ queries given by Ambainis and Montanaro. We improve on the work of Montanaro and Shao in the case where $G$ has bounded degree. In particular, we present a randomized algorithm that, with high probability, learns cycles and matchings in $\tilde{O}(\sqrt{m})$ quantum queries, matching the theoretical lower bound up to logarithmic factors.
翻訳日:2024-03-01 16:55:48 公開日:2024-02-28
# プラットフォーム交換と保護がいかに重要か:AirbnbとCouchsurfingにおける性的リスクの事例

How Platform Exchange and Safeguards Matter: The Case of Sexual Risk in Airbnb and Couchsurfing ( http://arxiv.org/abs/2402.18705v1 )

ライセンス: Link先を確認
Skyler Wang(参考訳) CHI と CSCW における最近の研究は,ネットワーク・ホスピタリティ・プラットフォームの設計がユーザ体験やリレーショナルな成果をいかに形作るかに注目が集まっている。 本稿では、これらのプラットフォームがもたらす交換の種類に基づいて、さまざまなリスク要因が出現するかを問う。 ひとつは交渉された交換(すなわちairbnb)を、もうひとつはユーザ間の相互交換(すなわちcouchsurfing)を促進させるものです。 プラットフォームリスクの未熟な形態であるセクシュアリティリスクに目を向け、40人の女性のデュアルプラットフォームユーザとのインタビューを描きながら、airbnbによる交渉された交換と制度的保護の拘束の条項は、3つのメカニズムによってリスクを低減していると思います: 最初のゲストとホストの関係をバイヤー-セラーのアレンジに投げ込み、対話スクリプトの安定化、性的暴力のリアクションの形式化です。 逆に、Couchsurfingの相互交換と保護の欠如は、オン・アンド・オフ・プラットフォームの両方のユーザーにとって性的プレカリティを高める。 本研究は,社会的モチベーションの強いプラットフォームが社会性を損なう可能性を実証し,脆弱なユーザをより保護するデザインへの示唆を結論づける。

Recent work in CHI and CSCW has devoted increasing attention to how the design of network hospitality platforms shapes user experiences and relational outcomes. In this article, I interrogate how different risk factors emerge based on the type of exchanges these platforms facilitate. To do so, I juxtapose two prominent network hospitality platforms: one facilitating negotiated exchange (i.e., Airbnb) with another facilitating reciprocal exchange (i.e., Couchsurfing) between users. Homing in on sexual risk, an underexplored form of platform danger, and drawing on interviews with 40 female dual-platform users, I argue that the provision of binding negotiated exchange and institutional safeguards by Airbnb reduces risk through three mechanisms: casting initial guest-host relation into a buyer-seller arrangement, stabilizing interactional scripts, and formalizing sexual violence recourse. Conversely, Couchsurfing's reciprocal exchange and lack of safeguards increase sexual precarity for users both on- and off-platform. This study demonstrates how platforms with strong prosocial motivations can jeopardize sociality and concludes with implications for designs that better protect vulnerable user populations.
翻訳日:2024-03-01 16:55:14 公開日:2024-02-28
# ゼロエラー通信,スクランブル,エルゴディダリティ

Zero-error communication, scrambling, and ergodicity ( http://arxiv.org/abs/2402.18703v1 )

ライセンス: Link先を確認
Satvik Singh, Mizanur Rahaman, and Nilanjana Datta(参考訳) 反復(すなわち、それ自体の繰り返し適用の下で)下の量子チャネルの長期的挙動は、多くの興味深い性質をもたらす。 これには、エルゴディディティ、混合、最終的なスクランブル、厳密な陽性化、一発ゼロエラー容量の消滅などが含まれる。 これらの性質の間の関係を導出し、これらの性質の一部の開始に必要な最小の反復数を定量化する指標上の新しい境界を求める。 我々は、その周辺スペクトルの濃度の観点から、エルゴードチャネル(任意の正の整数$n$に対して)の1ショットゼロエラー古典的容量の低い境界を得る。 また、任意のチャネルのワンショット容量の安定化に必要な最小イテレーション数について上限を求める。 我々は、上のインデックスの上界が最適であるような、ある対称性を満たす量子チャネルの2つのクラスを考える。 補助的な結果として、量子チャネルの1ショットゼロ誤差古典と量子容量のトレードオフ関係を得る。

The long term behaviour of a quantum channel under iterations (i.e. under repeated applications of itself) yields a plethora of interesting properties. These include ergodicity, mixing, eventual scrambling, becoming strictly positive, and the vanishing of its one-shot zero error capacities. We derive relations between these seemingly different properties and find novel bounds on indices which quantify the minimum number of iterations needed for the onset of some of these properties. We obtain a lower bound on the one-shot zero-error classical capacity of $n$ iterations of an ergodic channel (for any positive integer $n$) in terms of the cardinality of its peripheral spectrum. We also find upper bounds on the minimum number of iterations needed for the one-shot capacities of any channel to stabilize. We consider two classes of quantum channels, satisfying certain symmetries, for which upper bounds on the above indices are optimal, since they reduce to the corresponding indices for a stochastic matrix (for which the bounds are known to be optimal). As an auxiliary result, we obtain a trade-off relation between the one-shot zero error classical and quantum capacities of a quantum channel.
翻訳日:2024-03-01 16:54:44 公開日:2024-02-28
# 自然言語フォーマットでプロンプトを圧縮する学習

Learning to Compress Prompt in Natural Language Formats ( http://arxiv.org/abs/2402.18700v1 )

ライセンス: Link先を確認
Yu-Neng Chuang, Tianwei Xing, Chia-Yuan Chang, Zirui Liu, Xun Chen, Xia Hu(参考訳) 大規模言語モデル(LLM)は、複数の自然言語処理タスクを処理するのに優れていますが、その能力は、長いコンテキストでの性能が劣る、推論速度が遅い、結果の計算コストが高い、という制約があります。 正確で情報的なコンテキストでLLMをデプロイすることは、大規模データセットをより効率的に、コスト効率良く処理するのに役立つ。 既存の作業では、長いプロンプトコンテキストをソフトプロンプトに圧縮する。 しかし、ソフトプロンプト圧縮は異なるLLM、特にAPIベースのLLM間の転送可能性の制限に遭遇する。 そこで本研究は,LLM転送性を備えた自然言語形式で長大なプロンプトを圧縮することを目的とする。 これは2つの課題をもたらします (i)自然言語(NL)プロンプトは、バックプロパゲーションと互換性がなく、 (ii)NLは長さ制約を課す際の柔軟性を欠く。 本研究では,NLフォーマットのCapsule Promptにオリジナルのプロンプトを圧縮する自然言語プロンプトカプセル化(Nano-Capsulator)フレームワークを提案する。 特に、最初の課題に取り組むために、ナノカプセルは損失を保存するセマンティクスと相互作用する報酬関数によって最適化される。 2つ目の問題に対処するため、Nano-Capsulatorは長さ制約を含む報酬関数によって最適化される。 実験結果によると、Capsule Promptはオリジナルの長さの81.4%を削減し、推論遅延を4.5倍に削減し、予算オーバーヘッドの80.1%を削減し、多様なLLMと異なるデータセット間で転送性を提供する。

Large language models (LLMs) are great at processing multiple natural language processing tasks, but their abilities are constrained by inferior performance with long context, slow inference speed, and the high cost of computing the results. Deploying LLMs with precise and informative context helps users process large-scale datasets more effectively and cost-efficiently. Existing works rely on compressing long prompt contexts into soft prompts. However, soft prompt compression encounters limitations in transferability across different LLMs, especially API-based LLMs. To this end, this work aims to compress lengthy prompts in the form of natural language with LLM transferability. This poses two challenges: (i) Natural Language (NL) prompts are incompatible with back-propagation, and (ii) NL prompts lack flexibility in imposing length constraints. In this work, we propose a Natural Language Prompt Encapsulation (Nano-Capsulator) framework compressing original prompts into NL formatted Capsule Prompt while maintaining the prompt utility and transferability. Specifically, to tackle the first challenge, the Nano-Capsulator is optimized by a reward function that interacts with the proposed semantics preserving loss. To address the second question, the Nano-Capsulator is optimized by a reward function featuring length constraints. Experimental results demonstrate that the Capsule Prompt can reduce 81.4% of the original length, decrease inference latency up to 4.5x, and save 80.1% of budget overheads while providing transferability across diverse LLMs and different datasets.
翻訳日:2024-03-01 16:54:27 公開日:2024-02-28
# 空間的コヒーレンス損失によるサルエント・カモフラージュ物体検出とその周辺

Spatial Coherence Loss for Salient and Camouflaged Object Detection and Beyond ( http://arxiv.org/abs/2402.18698v1 )

ライセンス: Link先を確認
Ziyun Yang, Kevin Choy, and Sina Farsiu(参考訳) 汎用オブジェクト検出は、オブジェクトの正確なモデリングに依存するカテゴリに依存しないタスクである。 最も関連するCNNベースのオブジェクト性モデルは、単一応答、すなわち1ピクセルの損失応答に焦点を当てた損失関数(バイナリクロスエントロピーなど)を利用する。 意味的意味に熟考する前に、曖昧な領域(すなわち硬い領域)の境界を最初に認識する人間の視覚系に触発され、隣接するピクセル間の相互応答を利用して画素の単一応答を抑圧または強調する新しい損失関数空間コヒーレンス損失(scloss)を提案する。 提案するSCLosは,その境界を検知し強調することにより,徐々にハード領域を学習できることを実証する。 総合的な実験により、一般的な損失関数をSCLosに置き換えることで、現在の最先端(SOTA)サラリアンまたはカモフラージュされたオブジェクト検出(SODまたはCOD)モデルの性能が向上することを示した。 また、SCLosと他の損失関数を組み合わせることで、パフォーマンスが向上し、異なるアプリケーションに対するSOTA結果が得られることを示す。 最後に、他のタスクに対する潜在的な使用の実証例として、意味的セグメンテーションへのSCLossの適用を示す。

Generic object detection is a category-independent task that relies on accurate modeling of objectness. Most relevant CNN-based models of objectness utilize loss functions (e.g., binary cross entropy) that focus on the single-response, i.e., the loss response of a single pixel. Inspired by the human visual system, which first discerns the boundaries of ambiguous regions (i.e., hard regions) before delving into the semantic meaning, we propose a novel loss function, Spatial Coherence Loss (SCLoss), that uses the mutual response between adjacent pixels to suppress or emphasize the single-response of pixels. We demonstrate that the proposed SCLoss can gradually learn the hard regions by detecting and emphasizing their boundaries. Through comprehensive experiments, we demonstrate that replacing popular loss functions with SCLoss can improve the performance of current state-of-the-art (SOTA) salient or camouflaged object detection (SOD or COD) models. We also demonstrate that combining SCLoss with other loss functions can further improve performance and result in the SOTA outcomes for different applications. Finally, as a demonstrative example of the potential uses for other related tasks, we show an application of SCLoss for semantic segmentation.
翻訳日:2024-03-01 16:54:02 公開日:2024-02-28
# 繰り返し比例フィッティングによる辺縁からの動的ネットワークの推定

Inferring Dynamic Networks from Marginals with Iterative Proportional Fitting ( http://arxiv.org/abs/2402.18697v1 )

ライセンス: Link先を確認
Serina Chang, Frederic Koehler, Zhaonan Qu, Jure Leskovec, Johan Ugander(参考訳) 実世界のデータ制約から生じる一般的なネットワーク推論問題は、時間集約の隣接行列と時間変化の限界(行と列の和)から動的ネットワークを推論する方法である。 この問題に対する以前のアプローチでは、古典的な反復比例結合 (ipf) 手順、別名シンクホーンのアルゴリズムを応用し、実証的な結果が期待できる。 しかし、ipfを使うための統計的な基礎はよく理解されていない:どの設定の下でipfは、その限界から動的ネットワークを原理的に推定し、どの程度ネットワークを見積もるのか? 本稿では,IPFによって最大推定値が復元される生成ネットワークモデルを特定することにより,そのような設定を確立する。 両モデルとも,IPF の利用に関する暗黙の仮定を明らかにし,IPF のパラメータ推定に対する構造依存誤差境界などの新たな解析を可能にする。 IPFがスパースネットワークデータに収束しない場合、ネットワーク構造への最小限の変更の下でIPFが収束することを保証するアルゴリズムを導入する。 最後に,合成データと実世界データを用いて実験を行い,理論的およびアルゴリズム的貢献の実用的価値を示す。

A common network inference problem, arising from real-world data constraints, is how to infer a dynamic network from its time-aggregated adjacency matrix and time-varying marginals (i.e., row and column sums). Prior approaches to this problem have repurposed the classic iterative proportional fitting (IPF) procedure, also known as Sinkhorn's algorithm, with promising empirical results. However, the statistical foundation for using IPF has not been well understood: under what settings does IPF provide principled estimation of a dynamic network from its marginals, and how well does it estimate the network? In this work, we establish such a setting, by identifying a generative network model whose maximum likelihood estimates are recovered by IPF. Our model both reveals implicit assumptions on the use of IPF in such settings and enables new analyses, such as structure-dependent error bounds on IPF's parameter estimates. When IPF fails to converge on sparse network data, we introduce a principled algorithm that guarantees IPF converges under minimal changes to the network structure. Finally, we conduct experiments with synthetic and real-world data, which demonstrate the practical value of our theoretical and algorithmic contributions.
翻訳日:2024-03-01 16:53:38 公開日:2024-02-28
# ビジュアルエンティティ認識のための接地言語モデル

Grounding Language Models for Visual Entity Recognition ( http://arxiv.org/abs/2402.18695v1 )

ライセンス: Link先を確認
Zilin Xiao, Ming Gong, Paola Cascante-Bonilla, Xingyao Zhang, Jie Wu, Vicente Ordonez(参考訳) Visual Entity RecognitionのためのAutoregressiveモデルであるAutoVERを紹介します。 自動回帰型マルチモーダル大言語モデルを拡張し,検索制約付き生成手法を適用した。 ドメイン外エンティティの低パフォーマンスを軽減し、視覚的な推論を必要とするクエリに優れています。 提案手法は,外部レトリバーを使わずに,厳密な負対を並列に学習することにより,ラベル空間内の類似したエンティティを識別する。 推論中、検索された候補回答のリストは、無効なデコードパスを削除することで言語生成を明示的にガイドする。 提案手法は,最近提案されたOven-Wikiベンチマークにおいて,データセット分割における大幅な改善を実現する。 エンティティの精度は32.7%から61.5%に上がった。 また、unseenとqueryの分割において、かなりの2桁のマージンで優れたパフォーマンスを示す。

We introduce AutoVER, an Autoregressive model for Visual Entity Recognition. Our model extends an autoregressive Multi-modal Large Language Model by employing retrieval augmented constrained generation. It mitigates low performance on out-of-domain entities while excelling in queries that require visually-situated reasoning. Our method learns to distinguish similar entities within a vast label space by contrastively training on hard negative pairs in parallel with a sequence-to-sequence objective without an external retriever. During inference, a list of retrieved candidate answers explicitly guides language generation by removing invalid decoding paths. The proposed method achieves significant improvements across different dataset splits in the recently proposed Oven-Wiki benchmark. Accuracy on the Entity seen split rises from 32.7% to 61.5%. It also demonstrates superior performance on the unseen and query splits by a substantial double-digit margin.
翻訳日:2024-03-01 16:53:17 公開日:2024-02-28
# VOROS:ROC曲線を3Dにリフティング

The VOROS: Lifting ROC curves to 3D ( http://arxiv.org/abs/2402.18689v1 )

ライセンス: Link先を確認
Christopher Ratigan and Lenore Cowen(参考訳) ROC曲線の下の領域は、しばしば異なる二項分類器の相対的性能のランク付けに使用される一般的な測度である。 しかし、前述したように、真のクラス値または誤分類コストが2つのクラス間で非常に不均衡である場合、異なる分類器の利点を補う尺度である。 これらのコストを捉えるために3次元を導入し、自然な方法でROC曲面にROC曲線を持ち上げる。 我々はこの曲面と、このROC曲面上の体積であるVOROSを、ROC曲線の下での2次元領域の3次元一般化として導入する。 期待されるコストやクラス不均衡にのみ制約がある問題に対しては、ROC曲面の適切な部分領域の体積について考慮する。 vorosが古典的なデータセットと現代的なデータセットの両方で、異なる分類器のコストをよりよく捉える方法を示します。

The area under the ROC curve is a common measure that is often used to rank the relative performance of different binary classifiers. However, as has been also previously noted, it can be a measure that ill-captures the benefits of different classifiers when either the true class values or misclassification costs are highly unbalanced between the two classes. We introduce a third dimension to capture these costs, and lift the ROC curve to a ROC surface in a natural way. We study both this surface and introduce the VOROS, the volume over this ROC surface, as a 3D generalization of the 2D area under the ROC curve. For problems where there are only bounds on the expected costs or class imbalances, we restrict consideration to the volume of the appropriate subregion of the ROC surface. We show how the VOROS can better capture the costs of different classifiers on both a classical and a modern example dataset.
翻訳日:2024-03-01 16:53:06 公開日:2024-02-28
# NISQデジタル量子ハードウェアによるトポロジカル量子ウォークの実現

Realizing Topological Quantum Walks on NISQ Digital Quantum Hardware ( http://arxiv.org/abs/2402.18685v1 )

ライセンス: Link先を確認
Mrinal Kanti Giri, Sudhindu Bikash Mandal, Bhanu Pratap Das(参考訳) デジタル量子コンピュータを用いた準周期変調による対角線外オーブリー・アンドレ・ハーパー格子上の量子ウォークについて検討した。 本研究は,AAHモデルのトポロジカルな性質によるエッジ状態の堅牢性を明らかにするとともに,このエッジ状態が位相因子にどのように影響するかを明らかにするために,様々な初期状態,ホッピング変調強度,位相因子について検討することから始まる。 逆に、粒子が格子バルクから量子ウォークを開始すると、特に強いホッピング変調の存在下で、バルクウォーカーがエッジから追い出されるのを観察する。 さらに, 近接相互作用を持つ2粒子の量子ウォーキングについて検討し, 相互作用によるエッジとバルクウォーカーの反発に着目した。 また, 格子バルク内における相互作用粒子の動的挙動を考察し, ホッピング変調と近傍相互作用の複合効果による境界状態の形成を通じて, 興味深いバルク局在を求める。 これらの特徴は、密度進化、量子相関、参加エントロピーなどの物理量を研究し、量子技術における潜在的な応用を探求することによって分析される。

We study the quantum walk on the off-diagonal Aubry-Andre-Harper (AAH) lattice with quasiperiodic modulation using a digital quantum computer. Our investigation starts with exploring the single-particle quantum walk, where we study various initial states, hopping modulation strengths, and phase factors Initiating the quantum walk with a particle at the lattice edge highlights the robustness of the edge state due to the topological nature of the AAH model and reveals how this edge state is influenced by the phase factor. Conversely, when a particle starts the quantum walk from the lattice bulk, we observe the bulk walker being repelled from the edge, especially in the presence of strong hopping modulation. Furthermore, we investigate the quantum walk of two particles with nearest-neighbor interaction, emphasizing the repulsion between edge and bulk walkers caused by the interaction. Also, we explore the dynamics of two interacting particles in the lattice bulk and find interesting bulk localization through the formation of bound states influenced by the combined effect of hopping modulation and nearest-neighbor interaction. These features are analyzed by studying physical quantities like density evolution, quantum correlation, and participation entropy, and exploring their potential applications in quantum technologies.
翻訳日:2024-03-01 16:52:50 公開日:2024-02-28
# 極性符号による量子状態圧縮

Quantum State Compression with Polar Codes ( http://arxiv.org/abs/2402.18684v1 )

ライセンス: Link先を確認
Jack Weinberg, Avijit Mandal, and Henry D. Pfister(参考訳) シューマッハが提案した量子圧縮スキームでは、アリスはボブが圧縮するメッセージを圧縮する。 このアプローチでは、ある程度の失敗の確率があり、成功しても、状態の歪みがあります。 十分大きなブロック長の場合、これら2つの不完全さは、漸近的にソース符号境界に近づく圧縮率を達成しながら任意に小さくすることができる。 しかし、シューマッハ圧縮の直接実装は回路の複雑さに苦しむ。 本稿では,古典的シンドロームのソースコーディングに基づくアプローチについて考察する。 そのアイデアは、線形エラー訂正コードを使用して、メッセージを圧縮してエラーパターンとして扱うことである。 メッセージが訂正可能なエラー(つまりコセットリーダ)であれば、aliceはエラー訂正コードを使用して、メッセージを対応する量子症候群に変換することができる。 極性符号に基づく実装を記述し、シミュレーションする。 極符号に基づく古典的なソースコーディングと同様に、アリスは情報をシンドロームを構成する`frozen' qubitsにマッピングする。 減圧するため、ボブは逐次キャンセル符号化の量子バージョンを利用する。

In the quantum compression scheme proposed by Schumacher, Alice compresses a message that Bob decompresses. In that approach, there is some probability of failure and, even when successful, some distortion of the state. For sufficiently large blocklengths, both of these imperfections can be made arbitrarily small while achieving a compression rate that asymptotically approaches the source coding bound. However, direct implementation of Schumacher compression suffers from poor circuit complexity. In this paper, we consider a slightly different approach based on classical syndrome source coding. The idea is to use a linear error-correcting code and treat the message to be compressed as an error pattern. If the message is a correctable error (i.e., a coset leader) then Alice can use the error-correcting code to convert her message to a corresponding quantum syndrome. An implementation of this based on polar codes is described and simulated. As in classical source coding based on polar codes, Alice maps the information into the ``frozen" qubits that constitute the syndrome. To decompress, Bob utilizes a quantum version of successive cancellation coding.
翻訳日:2024-03-01 16:52:26 公開日:2024-02-28
# Data Interpreter: データサイエンスのためのLLMエージェント

Data Interpreter: An LLM Agent For Data Science ( http://arxiv.org/abs/2402.18679v1 )

ライセンス: Link先を確認
Sirui Hong, Yizhang Lin, Bangbang Liu, Binhao Wu, Danyang Li, Jiaqi Chen, Jiayi Zhang, Jinlin Wang, Lingyao Zhang, Mingchen Zhuge, Taicheng Guo, Tuo Zhou, Wei Tao, Wenyi Wang, Xiangru Tang, Xiangtao Lu, Xinbing Liang, Yaying Fei, Yuheng Cheng, Zongze Xu, Chenglin Wu, Li Zhang, Min Yang, Xiawu Zheng(参考訳) 大規模言語モデル(LLM)に基づくエージェントは顕著な効果を示した。 しかし、それらのパフォーマンスは、リアルタイムなデータ調整、様々なタスク間の複雑な依存関係による最適化の専門知識、正確な推論のための論理的エラーを特定する能力を必要とするデータサイエンスのシナリオで損なわれる可能性がある。 本研究では、データサイエンスにおける問題解決を強化するために、3つの重要なテクニックを強調したコードで解決するためのソリューションであるData Interpreterを紹介する。 1)リアルタイムデータ適応性のための階層的グラフ構造による動的計画、2)実行中のコード習熟度を高めるためのツールの統合、必要な専門知識の充実、3)フィードバックにおける論理的不一貫性の識別、そして体験記録による効率向上。 データインタプリタを様々なデータサイエンスや実世界のタスクで評価する。 オープンソースのベースラインと比較すると、優れたパフォーマンスを示し、機械学習タスクが大幅に改善され、0.86から0.95に増加した。 さらに、数学データセットの26%の増加と112%のオープンエンドタスクの改善が見られた。 ソリューションはhttps://github.com/geekan/MetaGPTでリリースされる。

Large Language Model (LLM)-based agents have demonstrated remarkable effectiveness. However, their performance can be compromised in data science scenarios that require real-time data adjustment, expertise in optimization due to complex dependencies among various tasks, and the ability to identify logical errors for precise reasoning. In this study, we introduce the Data Interpreter, a solution designed to solve with code that emphasizes three pivotal techniques to augment problem-solving in data science: 1) dynamic planning with hierarchical graph structures for real-time data adaptability;2) tool integration dynamically to enhance code proficiency during execution, enriching the requisite expertise;3) logical inconsistency identification in feedback, and efficiency enhancement through experience recording. We evaluate the Data Interpreter on various data science and real-world tasks. Compared to open-source baselines, it demonstrated superior performance, exhibiting significant improvements in machine learning tasks, increasing from 0.86 to 0.95. Additionally, it showed a 26% increase in the MATH dataset and a remarkable 112% improvement in open-ended tasks. The solution will be released at https://github.com/geekan/MetaGPT.
翻訳日:2024-03-01 16:52:13 公開日:2024-02-28
# RORA:ロバストなフリーテキストライタリー評価

RORA: Robust Free-Text Rationale Evaluation ( http://arxiv.org/abs/2402.18678v1 )

ライセンス: Link先を確認
Zhengping Jiang, Yining Lu, Hanjie Chen, Daniel Khashabi, Benjamin Van Durme, Anqi Liu(参考訳) 自由文理性は説明可能なNLPにおいて重要な役割を担い、モデルの意思決定の背後にある知識と推論のギャップを埋める。 しかしながら、潜在的な推論経路の多様性とそれに伴う決定的な根拠の欠如により、それらの評価は依然として課題である。 既存の評価基準は、目標ラベルに対する合理的なサポートの程度に依存するが、ラベルを不注意にリークする根拠を評価するのに不足している。 この問題に対処するため,ラベルリークに対するロバスト自由文Rationale評価法であるRORAを提案する。 RORAは、ラベルを正当化するために合理的に提供される新しい情報を定量化する。 これは条件付きv-情報 \citep{hewitt-etal-2021-conditional} を小さなモデルで悪用できるリーク機能に対して頑健な予測系で評価することで達成される。 RORAは、人書き、合成、またはモデル生成の合理性を評価する既存のアプローチを一貫して上回り、特にラベルリークに対する堅牢性を示す。 また、RORAは人間の判断とよく一致し、多様な自由文理性にまたがる信頼性と正確な測定を提供する。

Free-text rationales play a pivotal role in explainable NLP, bridging the knowledge and reasoning gaps behind a model's decision-making. However, due to the diversity of potential reasoning paths and a corresponding lack of definitive ground truth, their evaluation remains a challenge. Existing evaluation metrics rely on the degree to which a rationale supports a target label, but we find these fall short in evaluating rationales that inadvertently leak the labels. To address this problem, we propose RORA, a Robust free-text Rationale evaluation against label leakage. RORA quantifies the new information supplied by a rationale to justify the label. This is achieved by assessing the conditional V-information \citep{hewitt-etal-2021-conditional} with a predictive family robust against leaky features that can be exploited by a small model. RORA consistently outperforms existing approaches in evaluating human-written, synthetic, or model-generated rationales, particularly demonstrating robustness against label leakage. We also show that RORA aligns well with human judgment, providing a more reliable and accurate measurement across diverse free-text rationales.
翻訳日:2024-03-01 16:51:52 公開日:2024-02-28
# センサ故障・攻撃時のロボットシステムの耐故障性ニューラルネットワークバリア機能

Fault Tolerant Neural Control Barrier Functions for Robotic Systems under Sensor Faults and Attacks ( http://arxiv.org/abs/2402.18677v1 )

ライセンス: Link先を確認
Hongchao Zhang, Luyao Niu, Andrew Clark, Radha Poovendran(参考訳) 安全性は多くのロボットシステムの基本要件である。 制御障壁関数(CBF)に基づくアプローチは、ロボットシステムの安全性を保証するために提案されている。 しかし、これらの手法の有効性はCBFの選択に大きく依存している。 ニューラルネットワークの普遍近似力に触発されて、ニューラルネットワークを使用してCBFを表現する傾向が高まり、ニューラルCBF(NCBF)の概念が導かれる。 しかし現在のCBFは、良質な環境で訓練され、展開されているため、ロボットシステムがセンサーの故障や攻撃を経験するシナリオでは効果がない。 本稿では,センサ故障および攻撃下でのロボットシステムの安全臨界制御合成について検討する。 我々の主な貢献は、障害耐性神経制御バリア機能(FT-NCBF)と呼ばれる新しいCBFの開発と合成である。 FT-NCBFの安全性を保証するために必要かつ十分な条件を導出し、この条件を用いて構築された損失関数を最小化してFT-NCBFを学習するためのデータ駆動手法を開発した。 学習したFT-NCBFを用いて制御入力を合成し、我々のアプローチによる安全保証を正式に証明する。 本稿では,自律移動ロボットの障害物回避問題と宇宙船ランデブー問題とを, https://github.com/HongchaoZhang-HZ/FTNCBF で示す。

Safety is a fundamental requirement of many robotic systems. Control barrier function (CBF)-based approaches have been proposed to guarantee the safety of robotic systems. However, the effectiveness of these approaches highly relies on the choice of CBFs. Inspired by the universal approximation power of neural networks, there is a growing trend toward representing CBFs using neural networks, leading to the notion of neural CBFs (NCBFs). Current NCBFs, however, are trained and deployed in benign environments, making them ineffective for scenarios where robotic systems experience sensor faults and attacks. In this paper, we study safety-critical control synthesis for robotic systems under sensor faults and attacks. Our main contribution is the development and synthesis of a new class of CBFs that we term fault tolerant neural control barrier function (FT-NCBF). We derive the necessary and sufficient conditions for FT-NCBFs to guarantee safety, and develop a data-driven method to learn FT-NCBFs by minimizing a loss function constructed using the derived conditions. Using the learned FT-NCBF, we synthesize a control input and formally prove the safety guarantee provided by our approach. We demonstrate our proposed approach using two case studies: obstacle avoidance problem for an autonomous mobile robot and spacecraft rendezvous problem, with code available via https://github.com/HongchaoZhang-HZ/FTNCBF.
翻訳日:2024-03-01 16:51:33 公開日:2024-02-28
# ヒューマン・アテンション・モデリングの動向, 応用, 課題

Trends, Applications, and Challenges in Human Attention Modelling ( http://arxiv.org/abs/2402.18673v1 )

ライセンス: Link先を確認
Giuseppe Cartella, Marcella Cornia, Vittorio Cuculo, Alessandro D'Amelio, Dario Zanca, Giuseppe Boccignone, Rita Cucchiara(参考訳) 近年、人間の注意モデリングは、視覚探索の基礎となる認知過程を理解するだけでなく、画像や映像処理、視覚言語アプリケーション、言語モデリングなど、様々な領域の問題を解決することを目的とした人工知能モデルのサポートにも特に有用であることが証明されている。 本調査は、現代ディープラーニングモデルに人間の注意のメカニズムを統合する最近の取り組みを概観し、今後の研究の方向性と課題について論じるものである。 現在進行中の研究の概要については、https://github.com/aimagelab/awesome-human-visual-attention.comで公開しています。

Human attention modelling has proven, in recent years, to be particularly useful not only for understanding the cognitive processes underlying visual exploration, but also for providing support to artificial intelligence models that aim to solve problems in various domains, including image and video processing, vision-and-language applications, and language modelling. This survey offers a reasoned overview of recent efforts to integrate human attention mechanisms into contemporary deep learning models and discusses future research directions and challenges. For a comprehensive overview on the ongoing research refer to our dedicated repository available at https://github.com/aimagelab/awesome-human-visual-attention.
翻訳日:2024-03-01 16:51:10 公開日:2024-02-28
# 単純な線形注意言語モデルによるリコールスルートレードオフのバランス

Simple linear attention language models balance the recall-throughput tradeoff ( http://arxiv.org/abs/2402.18668v1 )

ライセンス: Link先を確認
Simran Arora, Sabri Eyuboglu, Michael Zhang, Aman Timalsina, Silas Alberti, Dylan Zinsley, James Zou, Atri Rudra, Christopher R\'e(参考訳) 最近の研究によると、注意に基づく言語モデルはリコール時に優れており、以前に文脈で見られたトークンで世代をグラウンドできる。 しかしながら、注意に基づくモデルの効率は、KV-cacheの攻撃的なメモリ消費による推論中にボトルネッキングされる。 本研究では,リコール時に妥協することなく,言語モデルの効率性(メモリ消費削減など)を向上できるかどうかを検討する。 実験と理論を幅広いアーキテクチャに適用することにより、モデルの状態サイズとリコール能力との間の重要なトレードオフを特定する。 注意への効率的な代替手段(H3、Mamba、RWKV)が一定サイズのリカレント状態を維持しているが、リコールに苦慮していることを示す。 線形およびすべり窓の注意を結合したシンプルなアーキテクチャBASEDを提案する。 リコールメモリトレードオフ曲線のパレートフロンティア(pareto frontier)では,リコールウィンドウサイズとリニアアテンション特徴次元を異にすることにより,リコールメモリトレードオフ曲線の状態サイズをダイヤルし,一方端のアテンションの質を回復し,他方のアテンションの少ない状態サイズを回復することができる。 最大1.3bのパラメータをトレーニングし、最も強いサブクアドドラティックモデル(例えば、mamba)をパープレキシティで一致させ、実際のリコール集約タスクで6.22の精度ポイントでそれらを上回らせることを示す。 線形注意の実装は、しばしば最適化された標準注意実装よりも効率的ではない。 BASEDを競合させるため,1.3bパラメータモデルを用いて1024トークンを生成する場合,言語生成においてFlashAttention-2よりも24倍高いスループットを実現するIO認識アルゴリズムを開発した。 この作業のコードは、https://github.com/hazyresearch/based.で提供される。

Recent work has shown that attention-based language models excel at recall, the ability to ground generations in tokens previously seen in context. However, the efficiency of attention-based models is bottle-necked during inference by the KV-cache's aggressive memory consumption. In this work, we explore whether we can improve language model efficiency (e.g. by reducing memory consumption) without compromising on recall. By applying experiments and theory to a broad set of architectures, we identify a key tradeoff between a model's state size and recall ability. We show that efficient alternatives to attention (e.g. H3, Mamba, RWKV) maintain a fixed-size recurrent state, but struggle at recall. We propose BASED a simple architecture combining linear and sliding window attention. By varying BASED window size and linear attention feature dimension, we can dial the state size and traverse the pareto frontier of the recall-memory tradeoff curve, recovering the full quality of attention on one end and the small state size of attention-alternatives on the other. We train language models up to 1.3b parameters and show that BASED matches the strongest sub-quadratic models (e.g. Mamba) in perplexity and outperforms them on real-world recall-intensive tasks by 6.22 accuracy points. Implementations of linear attention are often less efficient than optimized standard attention implementations. To make BASED competitive, we develop IO-aware algorithms that enable 24x higher throughput on language generation than FlashAttention-2, when generating 1024 tokens using 1.3b parameter models. Code for this work is provided at: https://github.com/HazyResearch/based.
翻訳日:2024-03-01 16:50:59 公開日:2024-02-28
# 公共データに制限のある微分プライベートモデルの事前学習

Pre-training Differentially Private Models with Limited Public Data ( http://arxiv.org/abs/2402.18752v1 )

ライセンス: Link先を確認
Zhiqi Bu, Xinwei Zhang, Mingyi Hong, Sheng Zha, George Karypis(参考訳) 大規模基礎モデルの優れた性能は、形式的な保護を必要とする機密性、私的、著作権のある素材を含む、大量の高品質データを使用することに依存している。 差分プライバシー(DP)は、モデルに提供されるセキュリティの度合いを測る重要な手法であるが、その応用は、トレーニング前の段階でDPを適用する際の性能劣化のため、モデルファインチューニング段階に限られることが多い。 そのため、DPは、最初の事前訓練プロセスで使用されるデータのかなりの部分を保護することができない。 本研究では,まずDPトレーニングの有効性を理論的に把握し,各項目の損失改善を解析する。 我々は,DP最適化者の性能劣化が,限られた公開データを使用することで著しく軽減され,新たなDP継続事前学習戦略がもたらされることを示す。 実証的には、パブリックデータの10%しか使用せず、ImageNet-21kでは41.5\%($\epsilon=8$)、ダウンストリームタスクではPlaces365、iNaturalist-2021では60.0\%の非DP精度を、最先端の標準トレーニングモデルと同等に達成できます。

The superior performance of large foundation models relies on the use of massive amounts of high-quality data, which often contain sensitive, private and copyrighted material that requires formal protection. While differential privacy (DP) is a prominent method to gauge the degree of security provided to the models, its application is commonly limited to the model fine-tuning stage, due to the performance degradation when applying DP during the pre-training stage. Consequently, DP is yet not capable of protecting a substantial portion of the data used during the initial pre-training process. In this work, we first provide a theoretical understanding of the efficacy of DP training by analyzing the per-iteration loss improvement. We make a key observation that DP optimizers' performance degradation can be significantly mitigated by the use of limited public data, which leads to a novel DP continual pre-training strategy. Empirically, using only 10\% of public data, our strategy can achieve DP accuracy of 41.5\% on ImageNet-21k (with $\epsilon=8$), as well as non-DP accuracy of 55.7\% and and 60.0\% on downstream tasks Places365 and iNaturalist-2021, respectively, on par with state-of-the-art standard pre-training and substantially outperforming existing DP pre-trained models.
翻訳日:2024-03-01 16:44:08 公開日:2024-02-28
# ダイズにおける除水ストレスのモニタリングと早期検出のためのマルチセンサとマルチタイムハイスループ・フェノタイピング

Multi-Sensor and Multi-temporal High-Throughput Phenotyping for Monitoring and Early Detection of Water-Limiting Stress in Soybean ( http://arxiv.org/abs/2402.18751v1 )

ライセンス: Link先を確認
Sarah E. Jones, Timilehin Ayanlade, Benjamin Fallen, Talukder Z. Jubery, Arti Singh, Baskar Ganapathysubramanian, Soumik Sarkar, and Asheesh K. Singh(参考訳) 大豆の生産は、極端な気象現象によって悪化する、抗生物質や無生物のストレスの影響を受けやすい。 水制限ストレス、すなわち干ばつはダイズ生産の重大なリスクとして現れ、作物の育種と生産のためのストレスモニタリングの進歩の必要性を強調している。 このプロジェクトはマルチモーダル情報を組み合わせて、干ばつ対策の最も効率的かつ効率的な自動化手法を特定する。 我々は,複数のセンサを用いた多種多様なダイズアクセスについて,(1)ダイズ乾燥ストレス症状の迅速分類のためのパイプラインの開発,(2)乾燥ストレスの早期検出方法について検討した。 高速かつ効率的な表現手段である機械学習(ML)分析と併用して,UAVとセンサを用いた高スループット時系列表現を利用した。 レッドエッジとグリーンのバンドは、キャノピー・ウィルティングストレスの分類に最も効果的であった。 Red-Edge Chlorophyll Vegetation Index (RECI) は視覚症状の発症に先立って, 感受性と耐久大豆の接種を識別した。 異なる植生指標の組み合わせによるダイズワイルティングの事前検出について報告する。 これらの結果は,育種・生産のための保育所のスクリーニングにおいて,早期ストレス検出手法や乾燥反応の迅速分類に寄与する。

Soybean production is susceptible to biotic and abiotic stresses, exacerbated by extreme weather events. Water limiting stress, i.e. drought, emerges as a significant risk for soybean production, underscoring the need for advancements in stress monitoring for crop breeding and production. This project combines multi-modal information to identify the most effective and efficient automated methods to investigate drought response. We investigated a set of diverse soybean accessions using multiple sensors in a time series high-throughput phenotyping manner to: (1) develop a pipeline for rapid classification of soybean drought stress symptoms, and (2) investigate methods for early detection of drought stress. We utilized high-throughput time-series phenotyping using UAVs and sensors in conjunction with machine learning (ML) analytics, which offered a swift and efficient means of phenotyping. The red-edge and green bands were most effective to classify canopy wilting stress. The Red-Edge Chlorophyll Vegetation Index (RECI) successfully differentiated susceptible and tolerant soybean accessions prior to visual symptom development. We report pre-visual detection of soybean wilting using a combination of different vegetation indices. These results can contribute to early stress detection methodologies and rapid classification of drought responses in screening nurseries for breeding and production applications.
翻訳日:2024-03-01 16:43:42 公開日:2024-02-28
# マルチuavミッション計画のための多目的進化アルゴリズム誘導のための重み付け戦略

Weighted strategies to guide a multi-objective evolutionary algorithm for multi-UAV mission planning ( http://arxiv.org/abs/2402.18749v1 )

ライセンス: Link先を確認
Cristian Ramirez-Atencia and Javier Del Ser and David Camacho(参考訳) 無人航空機(UAV)の群れに対する管理とミッションプランニングは、この特定の種類の航空機に関して挑戦的な研究トレンドとして現在まで続いている。 これらの車両は複数の地上管制局 (GCS) によって制御され、そこから特定の地理的分野において異なるタスクを協調的に遂行するよう指示される。 数学的には、UAVの群にタスクをコーディネートし割り当てる問題は制約満足度問題としてモデル化でき、その複雑性と複数の矛盾する基準が、多目的進化アルゴリズム(MOEA)のような多目的解法の採用を動機付けている。 符号化手法は決定変数を表す異なるアレルから構成される一方、適合関数は全ての制約が満たされていることを確認し、問題の最適化基準を最小化する。 複数のタスク、uavとgcを含む複雑な問題において、有効な解の空間に比べて探索の空間が巨大である場合、アルゴリズムの収束率は著しく増加する。 この問題を克服するため,本研究では,新規個体の作成と変異のための重み付きランダムジェネレータを提案する。 本研究の目的は,複数UAVミッション計画におけるMOEAソルバの収束率を,解空間の潜在的に優れた領域に焦点をあてる重み付きランダム戦略を用いて低減することである。 様々なシナリオにわたる広範囲な実験結果は、提案されたアプローチの利点を証明し、na\"ive moeaアプローチに関してこの収束率を特に改善する。

Management and mission planning over a swarm of unmanned aerial vehicle (UAV) remains to date as a challenging research trend in what regards to this particular type of aircrafts. These vehicles are controlled by a number of ground control station (GCS), from which they are commanded to cooperatively perform different tasks in specific geographic areas of interest. Mathematically the problem of coordinating and assigning tasks to a swarm of UAV can be modeled as a constraint satisfaction problem, whose complexity and multiple conflicting criteria has hitherto motivated the adoption of multi-objective solvers such as multi-objective evolutionary algorithm (MOEA). The encoding approach consists of different alleles representing the decision variables, whereas the fitness function checks that all constraints are fulfilled, minimizing the optimization criteria of the problem. In problems of high complexity involving several tasks, UAV and GCS, where the space of search is huge compared to the space of valid solutions, the convergence rate of the algorithm increases significantly. To overcome this issue, this work proposes a weighted random generator for the creation and mutation of new individuals. The main objective of this work is to reduce the convergence rate of the MOEA solver for multi-UAV mission planning using weighted random strategies that focus the search on potentially better regions of the solution space. Extensive experimental results over a diverse range of scenarios evince the benefits of the proposed approach, which notably improves this convergence rate with respect to a na\"ive MOEA approach.
翻訳日:2024-03-01 16:43:20 公開日:2024-02-28
# 未確認領域における微調整機械翻訳メトリクスのゆらぎ

Fine-Tuned Machine Translation Metrics Struggle in Unseen Domains ( http://arxiv.org/abs/2402.18747v1 )

ライセンス: Link先を確認
Vil\'em Zouhar, Shuoyang Ding, Anna Currey, Tatyana Badeka, Jenyuan Wang, Brian Thompson(参考訳) バイオメディカル領域における11の言語対をカバーする新しい多次元品質指標(MQM)アノテートデータセットを導入する。 このデータセットを用いて,人間の生成したmt品質判断で微調整された機械翻訳(mt)メトリクスが,トレーニングと推論の間の領域シフトに対して堅牢かどうかを調べる。 微調整されたメトリクスは、表面形状に依存するメトリクスと、MT品質判断に基づいて微調整されていない事前訓練されたメトリクスとに対して、目に見えない領域シナリオでかなりの性能低下を示します。

We introduce a new, extensive multidimensional quality metrics (MQM) annotated dataset covering 11 language pairs in the biomedical domain. We use this dataset to investigate whether machine translation (MT) metrics which are fine-tuned on human-generated MT quality judgements are robust to domain shifts between training and inference. We find that fine-tuned metrics exhibit a substantial performance drop in the unseen domain scenario relative to metrics that rely on the surface form, as well as pre-trained metrics which are not fine-tuned on MT quality judgments.
翻訳日:2024-03-01 16:42:53 公開日:2024-02-28
# 機械学習によるコンピュータアーキテクチャシミュレーションの高速化

Accelerating Computer Architecture Simulation through Machine Learning ( http://arxiv.org/abs/2402.18746v1 )

ライセンス: Link先を確認
Wajid Ali and Ayaz Akram(参考訳) 本稿では,機械学習技術を活用したコンピュータアーキテクチャシミュレーションの高速化手法を提案する。 従来のコンピュータアーキテクチャシミュレーションは時間がかかり、異なる設計選択を効率的に探索することは困難である。 提案モデルは,アプリケーションの性能を予測するために,アプリケーション機能とマイクロアーキテクチャ機能の組み合わせを利用する。 これらの特徴は、アプリケーションの小さな部分のシミュレーションに由来する。 アーキテクチャ探索において大きなスピードアップを提供する機械学習モデルを構築し,評価することで,我々のアプローチの有効性を実証する。 このモデルでは,根平均二乗誤差が0.1未満の試験データに対してIPC値を予測する能力を示した。

This paper presents our approach to accelerate computer architecture simulation by leveraging machine learning techniques. Traditional computer architecture simulations are time-consuming, making it challenging to explore different design choices efficiently. Our proposed model utilizes a combination of application features and micro-architectural features to predict the performance of an application. These features are derived from simulations of a small portion of the application. We demonstrate the effectiveness of our approach by building and evaluating a machine learning model that offers significant speedup in architectural exploration. This model demonstrates the ability to predict IPC values for the testing data with a root mean square error of less than 0.1.
翻訳日:2024-03-01 16:42:43 公開日:2024-02-28
# マルチUAV計画支援のための多段階意思決定手法の改訂

A revision on Multi-Criteria Decision Making methods for Multi-UAV Mission Planning Support ( http://arxiv.org/abs/2402.18743v1 )

ライセンス: Link先を確認
Cristian Ramirez-Atencia and Victor Rodriguez-Fernandez and David Camacho(参考訳) 過去10年間、無人航空機(UAV)は管理性とリスク回避のために多くの商業用途で広く利用されている。 考慮される主な問題の1つは、複数のuavのミッション計画であり、そこでは、問題の異なる制約を満たすソリューションプランを見出さなければならない。 この問題には、makespanやミッションのコスト、リスクなど、同時に最適化しなければならない複数の変数がある。 したがって、この問題には最適解が多数あり、オペレータはその間に実行される最終解を選択する必要がある。 この決定プロセスにおいてオペレータの作業負荷を削減するためには,DSS(Decision Support System)が必要である。 本研究では,最適解の順序付けと削減を行うランキングとフィルタリングシステムからなるdssの設計を行った。 ランキングシステムでは, ファジィMCDMを含む広範囲の多目的意思決定手法を複数UAVミッション計画シナリオで比較し, いずれの手法が複数UAV決定支援システムに適合するかを検討した。 エキスパートオペレーターは、返却された解を評価し、その結果、ファジィメソッドは概してより良い平均スコアを達成し、他方では、演算子の選好が特定の変数に偏っている場合や、それらの選好が均衡している場合には、全ての試験方法がより良く動作することを示した。 フィルタリングシステムでは,解の近接性に基づく類似度関数が設計されており,その上に,解空間の超体積の多くを失うことなく,解のフィルタリング方法を決定するためのしきい値が実験的に調整されている。

Over the last decade, Unmanned Aerial Vehicles (UAVs) have been extensively used in many commercial applications due to their manageability and risk avoidance. One of the main problems considered is the Mission Planning for multiple UAVs, where a solution plan must be found satisfying the different constraints of the problem. This problem has multiple variables that must be optimized simultaneously, such as the makespan, the cost of the mission or the risk. Therefore, the problem has a lot of possible optimal solutions, and the operator must select the final solution to be executed among them. In order to reduce the workload of the operator in this decision process, a Decision Support System (DSS) becomes necessary. In this work, a DSS consisting of ranking and filtering systems, which order and reduce the optimal solutions, has been designed. With regard to the ranking system, a wide range of Multi-Criteria Decision Making (MCDM) methods, including some fuzzy MCDM, are compared on a multi-UAV mission planning scenario, in order to study which method could fit better in a multi-UAV decision support system. Expert operators have evaluated the solutions returned, and the results show, on the one hand, that fuzzy methods generally achieve better average scores, and on the other, that all of the tested methods perform better when the preferences of the operators are biased towards a specific variable, and worse when their preferences are balanced. For the filtering system, a similarity function based on the proximity of the solutions has been designed, and on top of that, a threshold is tuned empirically to decide how to filter solutions without losing much of the hypervolume of the space of solutions.
翻訳日:2024-03-01 16:42:33 公開日:2024-02-28
# クラス不均衡の影響を緩和する重要サンプリング手法の比較

Comparing Importance Sampling Based Methods for Mitigating the Effect of Class Imbalance ( http://arxiv.org/abs/2402.18742v1 )

ライセンス: Link先を確認
Indu Panigrahi and Richard Zhu(参考訳) 最先端のコンピュータビジョンモデルはデータに大きく依存している。 しかし、多くのデータセットは極端なクラス不均衡を示し、モデルの性能に悪影響を及ぼすことが示されている。 これまで検討されてきたトレーニング時間とデータ生成ソリューションの中で、既存のデータを活用するサブセットが重要なサンプリングである。 この研究の大部分は、現在の最先端データセットのスケール、構成、複雑さを表現できないCIFAR-10とCIFAR-100データセットに重点を置いている。 本研究では,損失再加重,アンダーサンプリング,オーバーサンプリングという,重要なサンプリングから導かれる3つのテクニックを探索し,比較する。 具体的には,これらの手法が2つのエンコーダの性能に与える影響を,プラネットのamazon rainforestデータセットであるimpactful satellite image datasetに対して比較し,別の研究に備えた。 さらに、シーン分類データセットADE20Kで補足実験を行い、コントラスト領域でテストを行い、その結果を明らかにする。 両タイプのエンコーダにおいて,アンダーサンプリングと損失の重み付けは,アンダー表現されたクラスの性能に悪影響を及ぼすことがわかった。 さらに,オーバーサンプリングにより,同一のクラスのパフォーマンスが向上することが示唆された。 興味深いことに、我々の発見は、Planetデータセットにデータに冗長性があることを示唆している。 我々の研究は、プラネットデータセットと類似のドメイン固有データセットのさらなる研究のための基盤を提供することを目的としています。 当社のコードはhttps://github.com/RichardZhu123/514-class-imbalanceで公開しています。

Most state-of-the-art computer vision models heavily depend on data. However, many datasets exhibit extreme class imbalance which has been shown to negatively impact model performance. Among the training-time and data-generation solutions that have been explored, one subset that leverages existing data is importance sampling. A good deal of this work focuses primarily on the CIFAR-10 and CIFAR-100 datasets which fail to be representative of the scale, composition, and complexity of current state-of-the-art datasets. In this work, we explore and compare three techniques that derive from importance sampling: loss reweighting, undersampling, and oversampling. Specifically, we compare the effect of these techniques on the performance of two encoders on an impactful satellite imagery dataset, Planet's Amazon Rainforest dataset, in preparation for another work. Furthermore, we perform supplemental experimentation on a scene classification dataset, ADE20K, to test on a contrasting domain and clarify our results. Across both types of encoders, we find that up-weighting the loss for and undersampling has a negigible effect on the performance on underrepresented classes. Additionally, our results suggest oversampling generally improves performance for the same underrepresented classes. Interestingly, our findings also indicate that there may exist some redundancy in data in the Planet dataset. Our work aims to provide a foundation for further work on the Planet dataset and similar domain-specific datasets. We open-source our code at https://github.com/RichardZhu123/514-class-imbalance for future work on other satellite imagery datasets as well.
翻訳日:2024-03-01 16:42:06 公開日:2024-02-28
# コンパイラのための大規模言語モデルの優先度サンプリング

Priority Sampling of Large Language Models for Compilers ( http://arxiv.org/abs/2402.18734v1 )

ライセンス: Link先を確認
Dejan Grubisic, Chris Cummins, Volker Seeker, Hugh Leather(参考訳) 大規模言語モデルは、コードの生成と最適化に大きな可能性を示している。 Nucleus Smplingのような広く使われているサンプリング法は、生成の多様性を高めるが、低温の繰り返しサンプルと高温の非コヒーレントサンプルを生成することが多い。 さらに、各タスクの温度係数を調整し、ユーザビリティを制限しなければならない。 本稿では,モデルの信頼性によって順序付けられたユニークなサンプルを生成する,単純かつ決定論的サンプリング手法であるプライオリティサンプリングを提案する。 新しいサンプルは、拡張された検索ツリーで最も高い確率で未拡張トークンを拡張する。 さらに、優先順位サンプリングは、制御可能で構造化された探索プロセスを提供する正規表現に基づく生成をサポートする。 プライオリティサンプリングはあらゆるサンプルに対してNucleus Smplingより優れており、オリジナルのモデルの性能は-Ozよりも2.87%から5%向上した。 さらに、オリジナルのモデルのトレーニングに使用するラベルの生成に使用するオートチューナーを、わずか30サンプルで上回っている。

Large language models show great potential in generating and optimizing code. Widely used sampling methods such as Nucleus Sampling increase the diversity of generation but often produce repeated samples for low temperatures and incoherent samples for high temperatures. Furthermore, the temperature coefficient has to be tuned for each task, limiting its usability. We present Priority Sampling, a simple and deterministic sampling technique that produces unique samples ordered by the model's confidence. Each new sample expands the unexpanded token with the highest probability in the augmented search tree. Additionally, Priority Sampling supports generation based on regular expression that provides a controllable and structured exploration process. Priority Sampling outperforms Nucleus Sampling for any number of samples, boosting the performance of the original model from 2.87% to 5% improvement over -Oz. Moreover, it outperforms the autotuner used for the generation of labels for the training of the original model in just 30 samples.
翻訳日:2024-03-01 16:41:46 公開日:2024-02-28
# GAIA: ジェネレーティブAIのカテゴリ基盤

GAIA: Categorical Foundations of Generative AI ( http://arxiv.org/abs/2402.18732v1 )

ライセンス: Link先を確認
Sridhar Mahadevan(参考訳) 本稿では,カテゴリ理論に基づく生成型AIアーキテクチャであるGAIAを提案する。 GAIAはモジュールを単純な複合体として構成する階層モデルに基づいている。 各simplicial complexは、内部パラメータを上位のsimpliceから受信した情報に基づいて更新し、従属のsub-simpliceに更新を中継する。 パラメータ更新は、内角拡張と外角拡張が異なるタイプの学習問題に対応する、単純集合上の昇降ダイアグラムという観点から定式化される。 バックプロパゲーションはパラメータのカテゴリのエンドファクターとしてモデル化され、ディープラーニングの合理化に繋がる。

In this paper, we propose GAIA, a generative AI architecture based on category theory. GAIA is based on a hierarchical model where modules are organized as a simplicial complex. Each simplicial complex updates its internal parameters biased on information it receives from its superior simplices and in turn relays updates to its subordinate sub-simplices. Parameter updates are formulated in terms of lifting diagrams over simplicial sets, where inner and outer horn extensions correspond to different types of learning problems. Backpropagation is modeled as an endofunctor over the category of parameters, leading to a coalgebraic formulation of deep learning.
翻訳日:2024-03-01 16:41:32 公開日:2024-02-28
# ベイズニューラルネットワークを用いた反応乱流閉鎖モデルの事前不確かさ定量化

A Priori Uncertainty Quantification of Reacting Turbulence Closure Models using Bayesian Neural Networks ( http://arxiv.org/abs/2402.18729v1 )

ライセンス: Link先を確認
Graham Pash, Malik Hassanaly, Shashank Yellapantula(参考訳) 大規模渦シミュレーション(LES)におけるサブフィルタスケール(SFS)に物理に基づくクロージャモデル形式が多数提案されているが、直接数値シミュレーション(DNS)から得られる膨大な量のデータが、データ駆動モデリング技術を活用する機会を生み出している。 フレキシブルなデータ駆動モデルは、選択したモデルのデータセットと機能形式に依存しています。 このようなモデルの採用の増加には、データインフォームドとアウト・オブ・ディストリビューションの両方において、確実な不確実性推定が必要である。 本研究ではベイズニューラルネットワーク(BNN)を用いて,反応流モデルにおけるてんかんおよびアレータリックな不確かさを捉える。 特に,乱流予混合火炎の動力学において重要な役割を果たすフィルタ付き進行変数スカラー散逸率をモデル化した。 我々は、BNNモデルが、データ駆動クロージャモデルの不確実性の構造に関するユニークな洞察を提供することを示した。 また,BNNにおけるアウト・オブ・ディストリビューション情報の導入方法を提案する。 このモデルの有効性は,様々な火炎条件と燃料からなるデータセットに対する事前評価によって実証される。

While many physics-based closure model forms have been posited for the sub-filter scale (SFS) in large eddy simulation (LES), vast amounts of data available from direct numerical simulation (DNS) create opportunities to leverage data-driven modeling techniques. Albeit flexible, data-driven models still depend on the dataset and the functional form of the model chosen. Increased adoption of such models requires reliable uncertainty estimates both in the data-informed and out-of-distribution regimes. In this work, we employ Bayesian neural networks (BNNs) to capture both epistemic and aleatoric uncertainties in a reacting flow model. In particular, we model the filtered progress variable scalar dissipation rate which plays a key role in the dynamics of turbulent premixed flames. We demonstrate that BNN models can provide unique insights about the structure of uncertainty of the data-driven closure models. We also propose a method for the incorporation of out-of-distribution information in a BNN. The efficacy of the model is demonstrated by a priori evaluation on a dataset consisting of a variety of flame conditions and fuels.
翻訳日:2024-03-01 16:41:20 公開日:2024-02-28
# プライバシ、メモリ、入力曲率リンクの公開

Unveiling Privacy, Memorization, and Input Curvature Links ( http://arxiv.org/abs/2402.18726v1 )

ライセンス: Link先を確認
Deepak Ravikumar, Efstathia Soufleri, Abolfazl Hashemi, Kaushik Roy(参考訳) ディープニューラルネット(DNN)は多くの新興問題を解決するための普及ツールとなっている。 しかし、トレーニングセットに過度に適合し記憶する傾向がある。 記憶は、一般化、ノイズ学習、プライバシーといったいくつかの概念と密接に関連しているため、非常に興味深い。 記憶の研究のために、フェルドマン(2019)は正式なスコアを提案したが、計算要件は実用性に制限がある。 近年の研究では、入力損失曲率(ロスヘシアン w.r.t 入力の痕跡によって測定される)と記憶を結びつける経験的証拠が示されている。 記憶スコアの計算よりも約3桁効率的であることが判明した。 しかし、メモリ化と入力損失曲率を結びつける理論的理解が欠如している。 本稿では,この関係を解明するだけでなく,差分プライバシー,記憶,入力損失曲率の理論的関係を確立するために解析を拡張した。 まず、差分プライバシーと入力損失曲率の両方を特徴とする記憶の上限を導出する。 第2に,差分プライバシーパラメータによって入力損失曲率が上界であることを示す新たな知見を示す。 さらに,cifarおよびimagenetデータセットの深層モデルを用いて,理論的な予測と実際に観測された結果との間に強い相関関係を示した。

Deep Neural Nets (DNNs) have become a pervasive tool for solving many emerging problems. However, they tend to overfit to and memorize the training set. Memorization is of keen interest since it is closely related to several concepts such as generalization, noisy learning, and privacy. To study memorization, Feldman (2019) proposed a formal score, however its computational requirements limit its practical use. Recent research has shown empirical evidence linking input loss curvature (measured by the trace of the loss Hessian w.r.t inputs) and memorization. It was shown to be ~3 orders of magnitude more efficient than calculating the memorization score. However, there is a lack of theoretical understanding linking memorization with input loss curvature. In this paper, we not only investigate this connection but also extend our analysis to establish theoretical links between differential privacy, memorization, and input loss curvature. First, we derive an upper bound on memorization characterized by both differential privacy and input loss curvature. Second, we present a novel insight showing that input loss curvature is upper-bounded by the differential privacy parameter. Our theoretical findings are further empirically validated using deep models on CIFAR and ImageNet datasets, showing a strong correlation between our theoretical predictions and results observed in practice.
翻訳日:2024-03-01 16:41:00 公開日:2024-02-28
# 勾配降下を伴う学習連想記憶

Learning Associative Memories with Gradient Descent ( http://arxiv.org/abs/2402.18724v1 )

ライセンス: Link先を確認
Vivien Cabannes, Berfin Simsek, Alberto Bietti(参考訳) 本研究はトークン埋め込みの外積を格納する1つの連想メモリモジュールのトレーニングダイナミクスに焦点を当てている。 この問題を,データ分布の特性と埋め込み間の相関に応じて相互作用する粒子系の研究に還元する。 理論と実験を通じて、いくつかの洞察を与えます。 過度にパラメータ化されたシステムでは、 `` 分類マージンの対数的成長が得られる。 しかし,相関埋め込みによるトークン周波数とメモリ干渉の不均衡が,発振性トランザクショナルレジームに繋がることを示した。 振動は大きなステップサイズでより発音され、良質な損失スパイクを引き起こすが、これらの学習速度はダイナミクスを加速し漸近収束を加速する。 低パラメータのレジームでは、クロスエントロピー損失がいかに最適でない暗記スキームに繋がるかを説明している。 最後に,小型トランスフォーマーモデルを用いて,実験結果の有効性を評価する。

This work focuses on the training dynamics of one associative memory module storing outer products of token embeddings. We reduce this problem to the study of a system of particles, which interact according to properties of the data distribution and correlations between embeddings. Through theory and experiments, we provide several insights. In overparameterized regimes, we obtain logarithmic growth of the ``classification margins.'' Yet, we show that imbalance in token frequencies and memory interferences due to correlated embeddings lead to oscillatory transitory regimes. The oscillations are more pronounced with large step sizes, which can create benign loss spikes, although these learning rates speed up the dynamics and accelerate the asymptotic convergence. In underparameterized regimes, we illustrate how the cross-entropy loss can lead to suboptimal memorization schemes. Finally, we assess the validity of our findings on small Transformer models.
翻訳日:2024-03-01 16:40:38 公開日:2024-02-28
# 一般化クラスター相関展開を用いた結合2スピン量子ビットのデコヒーレンスシミュレーション

Simulating decoherence of coupled two spin qubits using generalized cluster correlation expansion ( http://arxiv.org/abs/2402.18722v1 )

ライセンス: Link先を確認
Xiao Chen, Silas Hoffman, James N. Fry, Hai-Ping Cheng(参考訳) 一般化クラスタ相関展開法 (gCCE) を用いて, 核スピンの浴槽の存在下での2つの結合スピン量子ビットのコヒーレンスについて検討した。 このモデルでは、2つの電子スピン量子ビットと等方性交換または磁気双極子相互作用がランダムな核スピンの環境と相互作用する。 2量子化密度行列 (rdm) の経時変化と結果として生じるオフ対角要素の崩壊について検討し, 純粋デファスメント法においてゲート忠実度を計算できるデコヒーレンスに対応する。 我々は、システムが自由進化と動的デカップリングパルスを用いた進化を行う場合のデコヒーレンスを対比する。 さらに,磁気分子を強調するスピン量子ビットを模倣する外部磁場とシステムパラメータに対するデコヒーレンス依存性について検討した。 最後に、核スピン誘起2量子緩和過程のシミュレーションにおけるgCCEの適用と限界について述べる。

We study the coherence of two coupled spin qubits in the presence of a bath of nuclear spins simulated using generalized cluster correlation expansion (gCCE) method. In our model, two electron spin qubits coupled with isotropic exchange or magnetic dipolar interactions interact with an environment of random nuclear spins. We study the time-evolution of the two-qubit reduced density matrix (RDM) and resulting decay of the off diagonal elements, corresponding to decoherence, which allows us to calculate gate fidelity in the regime of pure dephasing. We contrast decoherence when the system undergoes free evolution and evolution with dynamical decoupling pulses applied. Moreover, we study the dependence of decoherence on external magnetic field and system parameters which mimic realistic spin qubits, emphasizing magnetic molecules. Lastly, we comment on the application and limitations of gCCE in simulating nuclear-spin induced two-qubit relaxation processes.
翻訳日:2024-03-01 16:40:25 公開日:2024-02-28
# 組込み変換を用いたオープンセット分類作業における後方攻撃検出モデルペアリング

Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks ( http://arxiv.org/abs/2402.18718v1 )

ライセンス: Link先を確認
Alexander Unnervik, Hatef Otroshi Shahreza, Anjith George, S\'ebastien Marcel(参考訳) バックドア攻撃は、攻撃者が特定の脆弱性を機械学習アルゴリズムに埋め込むことを可能にする。 生体計測シナリオにおけるバックドアの識別の必要性から,異なるトレードオフを持つ新しい手法を提案することができた。 本稿では,オープンセット分類タスクにおけるモデルペアを用いたバックドアの検出を提案する。 プローブモデルの埋め込み空間から参照モデルの埋め込み空間への埋め込みを投影する単純な線形演算を用いて、埋め込みと類似度スコアを比較することができる。 このスコアは、異なるアーキテクチャのモデルが独立して、異なるデータセットでトレーニングされているにもかかわらず、バックドアの存在を示す指標であることを示している。 また,両モデルともバックドアであってもバックドアを検知できることを示した。 ソースコードは再現性のために利用可能である。

Backdoor attacks allow an attacker to embed a specific vulnerability in a machine learning algorithm, activated when an attacker-chosen pattern is presented, causing a specific misprediction. The need to identify backdoors in biometric scenarios has led us to propose a novel technique with different trade-offs. In this paper we propose to use model pairs on open-set classification tasks for detecting backdoors. Using a simple linear operation to project embeddings from a probe model's embedding space to a reference model's embedding space, we can compare both embeddings and compute a similarity score. We show that this score, can be an indicator for the presence of a backdoor despite models being of different architectures, having been trained independently and on different datasets. Additionally, we show that backdoors can be detected even when both models are backdoored. The source code is made available for reproducibility purposes.
翻訳日:2024-03-01 16:40:09 公開日:2024-02-28
# Commonsense Ontologyのマイクロパターン

Commonsense Ontology Micropatterns ( http://arxiv.org/abs/2402.18715v1 )

ライセンス: Link先を確認
Andrew Eells, Brandon Dave, Pascal Hitzler, Cogan Shimizu(参考訳) 以前導入されたModular Ontology Modeling Method (MOMO)は、モジュラーパターンを使ってより複雑な概念を組み立てることで、人間のアナログプロセスを模倣しようと試みている。 これをサポートするため、MOMOはオントロジー設計パターンをプログラム的にクエリ可能な設計ライブラリに整理し、人間と自動化プロセスの両方でオントロジー開発の高速化をサポートする。 しかし、MOMOの大規模展開における大きなボトルネックは、(これまで)利用可能なオントロジー設計パターンが限られていることだ。 同時に、Large Language Modelsは急速に一般的な知識の源となり、場合によっては検索エンジンを質問に置き換えている。 そこで本稿では, LLM で利用可能な共通知識から算出された, 頻繁に発生する名詞を表す104のオントロジー設計パターンの集合を, MOMO で使用可能な完全注釈付きモジュールオントロジー設計ライブラリに編成する。

The previously introduced Modular Ontology Modeling methodology (MOMo) attempts to mimic the human analogical process by using modular patterns to assemble more complex concepts. To support this, MOMo organizes organizes ontology design patterns into design libraries, which are programmatically queryable, to support accelerated ontology development, for both human and automated processes. However, a major bottleneck to large-scale deployment of MOMo is the (to-date) limited availability of ready-to-use ontology design patterns. At the same time, Large Language Models have quickly become a source of common knowledge and, in some cases, replacing search engines for questions. In this paper, we thus present a collection of 104 ontology design patterns representing often occurring nouns, curated from the common-sense knowledge available in LLMs, organized into a fully-annotated modular ontology design library ready for use with MOMo.
翻訳日:2024-03-01 16:39:55 公開日:2024-02-28
# 言語誘導状態抽象化による学習

Learning with Language-Guided State Abstractions ( http://arxiv.org/abs/2402.18759v1 )

ライセンス: Link先を確認
Andi Peng, Ilia Sucholutsky, Belinda Z. Li, Theodore R. Sumers, Thomas L. Griffiths, Jacob Andreas, Julie A. Shah(参考訳) 模倣学習のための状態抽象化を設計するために自然言語を使用するためのフレームワークについて述べる。 高次元の観測空間における一般化されたポリシー学習は、適切に設計された状態表現によって促進される。 これらの状態表現は、通常手動で指定されるか、他の労働集約的なラベル付け手順に由来する。 提案手法であるlga(language-guided abstraction)は自然言語の監督と言語モデル(lms)からの背景知識を組み合わせて,未認識のタスクに合わせた状態表現を自動的に構築する。 LGAでは、ユーザはまず、自然言語で対象タスクの(おそらく不完全な)記述を提供する。次に、事前訓練されたLMは、このタスク記述を、無関係な特徴を隠蔽する状態抽象関数に変換し、最後に、少数のデモとLGA生成抽象状態を用いて模倣ポリシーを訓練する。 シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものに似た状態抽象化をもたらすが、そのごく一部で、これらの抽象化は素早い相関や曖昧な仕様の存在下での一般化と堅牢性を改善する。 本稿では,スポットロボットを用いた移動操作タスクにおける学習抽象化の有用性について述べる。

We describe a framework for using natural language to design state abstractions for imitation learning. Generalizable policy learning in high-dimensional observation spaces is facilitated by well-designed state representations, which can surface important features of an environment and hide irrelevant ones. These state representations are typically manually specified, or derived from other labor-intensive labeling procedures. Our method, LGA (language-guided abstraction), uses a combination of natural language supervision and background knowledge from language models (LMs) to automatically build state representations tailored to unseen tasks. In LGA, a user first provides a (possibly incomplete) description of a target task in natural language; next, a pre-trained LM translates this task description into a state abstraction function that masks out irrelevant features; finally, an imitation policy is trained using a small number of demonstrations and LGA-generated abstract states. Experiments on simulated robotic tasks show that LGA yields state abstractions similar to those designed by humans, but in a fraction of the time, and that these abstractions improve generalization and robustness in the presence of spurious correlations and ambiguous specifications. We illustrate the utility of the learned abstractions on mobile manipulation tasks with a Spot robot.
翻訳日:2024-03-01 16:30:29 公開日:2024-02-28
# 要約モデルの比較にはどの程度のアノテーションが必要か?

How Much Annotation is Needed to Compare Summarization Models? ( http://arxiv.org/abs/2402.18756v1 )

ライセンス: Link先を確認
Chantal Shaib, Joe Barrow, Alexa F. Siu, Byron C. Wallace, Ani Nenkova(参考訳) 最近の命令調整モデルは要約などのテキスト生成タスクにおいて高度に機能し、安定したペースでリリースされることが期待されている。 実際には、自信を持って選択したい場合もありますが、最小限の労力で、新しいドメインや目的に適用した場合、最高の要約モデルを実行します。 本研究では,ニュース要約の文脈で望ましいモデルを選択するために必要なテストサンプルサイズを実証的に検討する。 実験結果から,100例未満のシステムにおいて,比較評価は自動評価と人的評価の両方に迅速に収束することが明らかとなった。 人間の選好データは、ダウンストリームのさまざまな要約タスクで、自動スコアが選好ランキングをどのように再現できるかを定量化する。 自動メトリクスはより小さなサンプルサイズで安定しているが、人間の好みに応じてモデルの勝利率を適度に予測できる指標はいくつかしかない。

Modern instruction-tuned models have become highly capable in text generation tasks such as summarization, and are expected to be released at a steady pace. In practice one may now wish to choose confidently, but with minimal effort, the best performing summarization model when applied to a new domain or purpose. In this work, we empirically investigate the test sample size necessary to select a preferred model in the context of news summarization. Empirical results reveal that comparative evaluation converges quickly for both automatic and human evaluation, with clear preferences for a system emerging from under 100 examples. The human preference data allows us to quantify how well automatic scores can reproduce preference rankings across a variety of downstream summarization tasks. We find that, while automatic metrics are stable at smaller sample sizes, only some automatic metrics are able to moderately predict model win rates according to human preference.
翻訳日:2024-03-01 16:30:06 公開日:2024-02-28
# ライクな体型:オンライン食事と健康情報をどのように信頼するか(18-26)

Like-minded, like-bodied: How users (18-26) trust online eating and health information ( http://arxiv.org/abs/2402.18753v1 )

ライセンス: Link先を確認
Rachel Xu, Nhu Le, Rebekah Park, Laura Murray(参考訳) 本稿では,18~26歳のインターネット利用者42人を対象に,ソーシャルメディアと食事習慣の関係について検討した。 米国とインドでエスノグラフィーを行い、オンラインで食事や健康情報をナビゲートする方法を観察した。 参加者がオンライン上で「良い生活」とラベル付けした語彙を通じて自己を表現できることがわかりました。 被験者は無意識に無秩序な食事の行動に関わり、積極的に刺激した。 彼らはまた、個人的な証言を尊重し、同様の信念や体を共有しているコンテンツクリエイターから簡単にヒントを試した。 そうすることで、彼らは確率的思考を捨てて、自らを危険にさらした。 研究では、ソーシャルメディアのフィードが一方向の参加者に影響を与えていないこと、そして参加者の健康に対する内的見解を反映していることが判明した。 混乱した食事習慣のオンライン拡散を減らすには、若者の社会的文脈の中で対処する必要がある。

This paper investigates the relationship between social media and eating practices amongst 42 internet users aged 18-26. We conducted an ethnography in the US and India to observe how they navigated eating and health information online. We found that participants portrayed themselves online through a vocabulary we have labeled "the good life": performing holistic health by displaying a socially-ideal body. In doing so, participants unconsciously engaged in behaviors of disordered eating while actively eschewing them. They also valued personal testimonies, and readily tested tips from content creators who shared similar beliefs and bodies to them. In doing so, they discarded probabilistic thinking and opened themselves to harm. Our study found that their social media feeds did not unidirectionally influence participants - they also reflected participants' internalized views of health, in an intertwined, non-linear journey. Reducing the online spread of disordered eating practices requires addressing it within young people's social context.
翻訳日:2024-03-01 16:29:49 公開日:2024-02-28
# genainet: 知識伝達と推論によるワイヤレス集団インテリジェンスの実現

GenAINet: Enabling Wireless Collective Intelligence via Knowledge Transfer and Reasoning ( http://arxiv.org/abs/2402.16631v2 )

ライセンス: Link先を確認
Hang Zou, Qiyang Zhao, Lina Bariah, Yu Tian, Mehdi Bennis, Samson Lasaulce, Merouane Debbah, Faouzi Bader(参考訳) 生成的人工知能(GenAI)と通信ネットワークは、6Gで画期的なシナジーを持つことが期待されている。 無線ネットワークを介してGenAIエージェントを接続することは、集団知能の力を解き放ち、人工知能(AGI)の道を開く可能性がある。 しかし、現在の無線ネットワークは「データパイプ」として設計されており、GenAIのパワーに対応・活用するには適していない。 本稿では,分散GenAIエージェントが知識(高レベル概念や抽象概念)を伝達して任意のタスクを遂行するGenAINetフレームワークを提案する。 我々はまず、ネットワークプロトコルとアプリケーションの両方を管理するGenAI機能を統合したネットワークアーキテクチャを提供する。 そこで本研究では,セマンティクスネイティブなジェナイネットを提案することにより,効果的なコミュニケーションと推論の問題を検討する。 具体的には、GenAIエージェントは、マルチモーダルな生データからセマンティックな概念を抽出し、それらのセマンティックな関係を表す知識ベースを構築する。 このパラダイムの下では、エージェントは効率的なコミュニケーションでより良い決定を下すために、他のエージェントの経験から素早く学習することができる。 さらに,無線機器問合せにおいて,知識の抽出と伝達がコミュニケーションの削減によってクエリの正確性を向上させることを示す2つのケーススタディを実施し,分散エージェントが協調推論によって意思決定を改善できることを示す。 最後に、階層的セマンティックレベル通信世界モデルの開発は、集団的知性ネットワークへの鍵となる道であると論じる。

Generative artificial intelligence (GenAI) and communication networks are expected to have groundbreaking synergies in 6G. Connecting GenAI agents over a wireless network can potentially unleash the power of collective intelligence and pave the way for artificial general intelligence (AGI). However, current wireless networks are designed as a "data pipe" and are not suited to accommodate and leverage the power of GenAI. In this paper, we propose the GenAINet framework in which distributed GenAI agents communicate knowledge (high-level concepts or abstracts) to accomplish arbitrary tasks. We first provide a network architecture integrating GenAI capabilities to manage both network protocols and applications. Building on this, we investigate effective communication and reasoning problems by proposing a semantic-native GenAINet. Specifically, GenAI agents extract semantic concepts from multi-modal raw data, build a knowledgebase representing their semantic relations, which is retrieved by GenAI models for planning and reasoning. Under this paradigm, an agent can learn fast from other agents' experience for making better decisions with efficient communications. Furthermore, we conduct two case studies where in wireless device query, we show that extracting and transferring knowledge can improve query accuracy with reduced communication; and in wireless power control, we show that distributed agents can improve decisions via collaborative reasoning. Finally, we address that developing a hierarchical semantic level Telecom world model is a key path towards network of collective intelligence.
翻訳日:2024-03-01 11:21:02 公開日:2024-02-28
# 逆翻訳による脱獄攻撃に対するLLMの防衛

Defending LLMs against Jailbreaking Attacks via Backtranslation ( http://arxiv.org/abs/2402.16459v2 )

ライセンス: Link先を確認
Yihan Wang, Zhouxing Shi, Andrew Bai, Cho-Jui Hsieh(参考訳) 多くの大きな言語モデル(LLM)は、有害な要求を拒否するように訓練されているが、それでも、その有害な意図を隠すためのオリジナルのプロンプトを書き換えるジェイルブレイク攻撃に対して脆弱である。 本稿では, 'backtranslation' による脱獄攻撃に対して LLM を防御する新しい手法を提案する。 具体的には、ターゲットLSMが入力プロンプトから生成した初期応答を考慮し、その応答につながる可能性のある入力プロンプトを推論するよう言語モデルに促す。 推論されたプロンプトは、LSMの応答に基づいて生成され、攻撃者が直接操作しないため、元のプロンプトの実際の意図を明らかにする傾向にある、バックトランスレートプロンプトと呼ばれる。 次に、再送信プロンプトでターゲットLSMを再度実行し、モデルが再送信プロンプトを拒否した場合、元のプロンプトを拒否する。 提案する防御は,その有効性と効率性にいくつかの利点がある。 我々は,我々の防衛がベースラインを著しく上回っていることを実証的に証明し,また,我々の防衛が良性入力プロンプトの生成品質にほとんど影響を与えていないことを実証した。

Although many large language models (LLMs) have been trained to refuse harmful requests, they are still vulnerable to jailbreaking attacks, which rewrite the original prompt to conceal its harmful intent. In this paper, we propose a new method for defending LLMs against jailbreaking attacks by ``backtranslation''. Specifically, given an initial response generated by the target LLM from an input prompt, our backtranslation prompts a language model to infer an input prompt that can lead to the response. The inferred prompt is called the backtranslated prompt which tends to reveal the actual intent of the original prompt, since it is generated based on the LLM's response and is not directly manipulated by the attacker. We then run the target LLM again on the backtranslated prompt, and we refuse the original prompt if the model refuses the backtranslated prompt. We explain that the proposed defense provides several benefits on its effectiveness and efficiency. We empirically demonstrate that our defense significantly outperforms the baselines, in the cases that are hard for the baselines, and our defense also has little impact on the generation quality for benign input prompts.
翻訳日:2024-03-01 11:20:37 公開日:2024-02-28
# セマンティックスムーシングによる脱獄攻撃に対する大規模言語モデルの構築

Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing ( http://arxiv.org/abs/2402.16192v2 )

ライセンス: Link先を確認
Jiabao Ji, Bairu Hou, Alexander Robey, George J. Pappas, Hamed Hassani, Yang Zhang, Eric Wong, Shiyu Chang(参考訳) 適応型大規模言語モデル(LLM)は、ターゲットのLLMの保護を回避し、それらを騙して不快なコンテンツを生成するジェイルブレイク攻撃に対して脆弱である。 最初の防御はトークンベースの脅威モデルに対する約束を示すが、意味攻撃に対する堅牢性を提供し、堅牢性と名目上のパフォーマンスの間の不利なトレードオフを避ける防御は存在しない。 このニーズを満たすために、与えられた入力プロンプトの複数の意味変換されたコピーの予測を集約するスムーズな防御であるSEMANTICSMOOTHを提案する。 実験の結果,semanticsmooth は gcg, pair, autodan 攻撃に対して最先端の堅牢性を実現し,命令追従や alpacaeval などのベンチマークに追従した命令上で強い名目性能を維持した。 コードはhttps://github.com/UCSB-NLP-Chang/SemanticSmoothで公開されている。

Aligned large language models (LLMs) are vulnerable to jailbreaking attacks, which bypass the safeguards of targeted LLMs and fool them into generating objectionable content. While initial defenses show promise against token-based threat models, there do not exist defenses that provide robustness against semantic attacks and avoid unfavorable trade-offs between robustness and nominal performance. To meet this need, we propose SEMANTICSMOOTH, a smoothing-based defense that aggregates the predictions of multiple semantically transformed copies of a given input prompt. Experimental results demonstrate that SEMANTICSMOOTH achieves state-of-the-art robustness against GCG, PAIR, and AutoDAN attacks while maintaining strong nominal performance on instruction following benchmarks such as InstructionFollowing and AlpacaEval. The codes will be publicly available at https://github.com/UCSB-NLP-Chang/SemanticSmooth.
翻訳日:2024-03-01 11:19:42 公開日:2024-02-28
# 合成マイノリティオーバーサンプリング技術(smote)への量子的アプローチ

A Quantum Approach to Synthetic Minority Oversampling Technique (SMOTE) ( http://arxiv.org/abs/2402.17398v2 )

ライセンス: Link先を確認
Nishikanta Mohanty, Bikash K. Behera, Christopher Ferrie and Pravat Dash(参考訳) 本稿では,機械学習データセットにおけるクラス不均衡の問題を解くために,量子コンピューティング技術を用いた新しい解法であるQuantum-SMOTE法を提案する。 シンセティックマイノリティオーバーサンプリング技術(SMOTE)にインスパイアされた量子SMOTEは、スワップテストや量子回転といった量子プロセスを用いて合成データポイントを生成する。 このプロセスは、k-ネアレスト近傍 (knn) とユークリッド距離 (euclidean distances) を用いた従来のスモートアルゴリズムと異なり、近隣に頼らずにマイノリティクラスデータポイントから合成インスタンスを生成することができる。 このアルゴリズムは、特定のデータセット要求に対するカスタマイズを可能にする回転角、マイノリティパーセンテージ、分割係数などのハイパーパラメータを導入することで、合成データ生成プロセスに対するより大きな制御を主張する。 このアプローチはtelecomchurnの公開データセット上でテストされ、ランダムフォレストとロジスティック回帰という2つの著名な分類アルゴリズムと共に評価され、その影響と合成データのさまざまな比率を決定する。

The paper proposes the Quantum-SMOTE method, a novel solution that uses quantum computing techniques to solve the prevalent problem of class imbalance in machine learning datasets. Quantum-SMOTE, inspired by the Synthetic Minority Oversampling Technique (SMOTE), generates synthetic data points using quantum processes such as swap tests and quantum rotation. The process varies from the conventional SMOTE algorithm's usage of K-Nearest Neighbors (KNN) and Euclidean distances, enabling synthetic instances to be generated from minority class data points without relying on neighbor proximity. The algorithm asserts greater control over the synthetic data generation process by introducing hyperparameters such as rotation angle, minority percentage, and splitting factor, which allow for customization to specific dataset requirements. The approach is tested on a public dataset of TelecomChurn and evaluated alongside two prominent classification algorithms, Random Forest and Logistic Regression, to determine its impact along with varying proportions of synthetic data.
翻訳日:2024-03-01 11:11:18 公開日:2024-02-28
# 欠測データを用いたヘテロスケダスティックPCAの推論

Inference for Heteroskedastic PCA with Missing Data ( http://arxiv.org/abs/2107.12365v2 )

ライセンス: Link先を確認
Yuling Yan, Yuxin Chen, Jianqing Fan(参考訳) 本稿では,主成分分析(PCA)のための信頼性領域を高次元で構築する方法について述べる。 非線形・非凸推定器の不確かさの計算は一般に高次元では難しいが、この課題は欠落データやヘテロスケダスティックノイズの存在によってさらに複雑になる。 本稿では,HeteroPCA (Zhang et al., 2022) と呼ばれる推定器を用いて,データ不足を伴うスパイク共分散モデルの下で主部分空間の有効推論を行う手法を提案する。 我々はヘテロpcaに対する非漸近分布保証を開発し、これらを主部分空間の信頼領域とスパイク共分散行列の入射信頼区間の両方を計算するためにどのように呼び出すかを示す。 提案手法は完全にデータ駆動であり,ノイズレベルに関する事前知識を必要とせず,不均質なランダムノイズに適応する。

This paper studies how to construct confidence regions for principal component analysis (PCA) in high dimension, a problem that has been vastly under-explored. While computing measures of uncertainty for nonlinear/nonconvex estimators is in general difficult in high dimension, the challenge is further compounded by the prevalent presence of missing data and heteroskedastic noise. We propose a novel approach to performing valid inference on the principal subspace under a spiked covariance model with missing data, on the basis of an estimator called HeteroPCA (Zhang et al., 2022). We develop non-asymptotic distributional guarantees for HeteroPCA, and demonstrate how these can be invoked to compute both confidence regions for the principal subspace and entrywise confidence intervals for the spiked covariance matrix. Our inference procedures are fully data-driven and adaptive to heteroskedastic random noise, without requiring prior knowledge about the noise levels.
翻訳日:2024-03-01 09:20:40 公開日:2024-02-28
# ニューラルネットワークによる難解なショートレートモデル分布の近似

Approximating intractable short ratemodel distribution with neural network ( http://arxiv.org/abs/1912.12615v8 )

ライセンス: Link先を確認
Anna Knezevic, Nikolai Dokuchaev(参考訳) 提案手法は, 学習したデータセットと検証データの両方において不偏推定値に対して優れた結果が得られることを示すため, 難解な短率モデル(ドリフトと全パーセンタイル分布を調整した場合)の前の時間ステップと比較して各時間ステップを予測できるアルゴリズムを提案する。

We propose an algorithm which predicts each subsequent time step relative to the previous timestep of intractable short rate model (when adjusted for drift and overall distribution of previous percentile result) and show that the method achieves superior outcomes to the unbiased estimate both on the trained dataset and different validation data.
翻訳日:2024-03-01 09:20:21 公開日:2024-02-28
# 測定値の少ないQAOA

The QAOA with Few Measurements ( http://arxiv.org/abs/2205.06845v6 )

ライセンス: Link先を確認
Anthony M. Polloreno and Graeme Smith(参考訳) 量子近似最適化アルゴリズム(quantum approximation optimization algorithm,qaoa)は、当初組合せ最適化問題を解くために開発されたが、量子コンピュータの性能評価の標準となっている。 完全な記述型ベンチマーク技術は、多くの量子ビット(n \gtrsim 10$)に対して禁止的に高価であるため、QAOAは実際に計算ベンチマークとして機能することが多い。 qaoaは、量子サブルーチンの最適なパラメータを見つけようとする古典的な最適化サブルーチンを含む。 残念ながら、QAOAで使用される多くのオプティマイザは、最小化されるエネルギーの信頼できる推定を得るためにパラメータ空間の点当たりの多くのショット(N \gtrsim 1000$)を必要とする。 しかしながら、中性原子量子コンピュータのような実験的な量子コンピューティングプラットフォームは、これらのシステムで使用される古典的な最適化サブルーチンに固有の要件を課している。 本稿では,QAOAの2つの勾配のない古典最適化器の性能について検討し,N=1$とn=16$であっても最適化が可能であることを実証する。

The Quantum Approximate Optimization Algorithm (QAOA) was originally developed to solve combinatorial optimization problems, but has become a standard for assessing the performance of quantum computers. Fully descriptive benchmarking techniques are often prohibitively expensive for large numbers of qubits ($n \gtrsim 10$), so the QAOA often serves in practice as a computational benchmark. The QAOA involves a classical optimization subroutine that attempts to find optimal parameters for a quantum subroutine. Unfortunately, many optimizers used for the QAOA require many shots ($N \gtrsim 1000$) per point in parameter space to get a reliable estimate of the energy being minimized. However, some experimental quantum computing platforms such as neutral atom quantum computers have slow repetition rates, placing unique requirements on the classical optimization subroutine used in the QAOA in these systems. In this paper we investigate the performance of two choices of gradient-free classical optimizer for the QAOA - dual annealing and natural evolution strategies - and demonstrate that optimization is possible even with $N=1$ and $n=16$.
翻訳日:2024-02-29 19:45:07 公開日:2024-02-28
# ディジタル量子コンピュータ上での従属散逸量子システムのn$-point相関関数のロバストな測定

Robust measurements of $n$-point correlation functions of driven-dissipative quantum systems on a digital quantum computer ( http://arxiv.org/abs/2204.12400v2 )

ライセンス: Link先を確認
Lorenzo Del Re, Brian Rost, Michael Foss-Feig, A. F. Kemper and J. K. Freericks(参考訳) 我々は、駆動、散逸、あるいはそれ以外は開あるいは非平衡量子系に適用可能な$n$-point相関関数の統一階層法を提案し、実証する。 本発明の方法は、制御操作によりシステムとアシラキュービットを相互作用させ、その後直ちにアシラを測定することにより、システムの時間進化を繰り返し中断する。 本手法のロバスト性について,アダマールテストのような他のアシラベース干渉法と比較して検討し,オープン量子システムの短期量子シミュレーションにおけるその利点を強調する。 本手法を量子コンピュータ上に実装し, 単粒子グリーン関数を駆動散逸性フェルミオン系で測定する。 この研究は、駆動散逸系に対する動的相関関数が、短期量子コンピュータでロバストに測定できることを示す。

We propose and demonstrate a unified hierarchical method to measure $n$-point correlation functions that can be applied to driven, dissipative, or otherwise open or non-equilibrium quantum systems. In this method, the time evolution of the system is repeatedly interrupted by interacting an ancilla qubit with the system through a controlled operation, and measuring the ancilla immediately afterwards. We discuss the robustness of this method as compared to other ancilla-based interferometric techniques (such as the Hadamard test), and highlight its advantages for near-term quantum simulations of open quantum systems. We implement the method on a quantum computer in order to measure single-particle Green's functions of a driven-dissipative fermionic system. This work shows that dynamical correlation functions for driven-dissipative systems can be robustly measured with near-term quantum computers.
翻訳日:2024-02-29 19:44:45 公開日:2024-02-28
# ビームサーチにおける明快さのコール:どのように機能し、いつ止まるか

A Call for Clarity in Beam Search: How It Works and When It Stops ( http://arxiv.org/abs/2204.05424v3 )

ライセンス: Link先を確認
Jungo Kasai, Keisuke Sakaguchi, Ronan Le Bras, Dragomir Radev, Yejin Choi, and Noah A. Smith(参考訳) ビーム検索によるテキスト生成は、幅広いアプリケーションで成功している。 文献では主に見過ごされているが、一般的に使われているビームデコーディングの実装(例えば、Hugging Face Transformers や Fairseq)は、最初に提供されたヒューリスティック(英語版)を用いており、このセットのサイズがビームサイズに達すると停止する。 この結果に基づき,このビーム復号化実装の簡単な修正である忍耐係数を導入し,停止基準を一般化し,探索の深さに柔軟性を与える。 実験結果から,この忍耐率の調整により,ニューステキストの要約や機械翻訳における強い事前学習モデルの復号性能が向上することが示された。 このアプローチは1行のコードだけを変更して,任意の実装に簡単に組み込むことができます。 さらに,ビーム復号化の異なるバージョンは要約において大きな性能差をもたらし,研究におけるビーム探索実装の明確化の必要性が示された。 私たちのコードは出版時に利用可能になります。

Text generation with beam search has proven successful in a wide range of applications. We point out that, though largely overlooked in the literature, the commonly-used implementation of beam decoding (e.g., Hugging Face Transformers and fairseq) uses a first come, first served heuristic: it keeps a set of already completed sequences over time steps and stops when the size of this set reaches the beam size. Based on this finding, we introduce a patience factor, a simple modification to this beam decoding implementation, that generalizes the stopping criterion and provides flexibility to the depth of search. Empirical results demonstrate that adjusting this patience factor improves decoding performance of strong pretrained models on news text summarization and machine translation over diverse language pairs, with a negligible inference slowdown. Our approach only modifies one line of code and can be thus readily incorporated in any implementation. Further, we find that different versions of beam decoding result in large performance differences in summarization, demonstrating the need for clarity in specifying the beam search implementation in research work. Our code will be available upon publication.
翻訳日:2024-02-29 19:44:28 公開日:2024-02-28
# PerfectDou: DouDizhuを統括する完璧な情報蒸留

PerfectDou: Dominating DouDizhu with Perfect Information Distillation ( http://arxiv.org/abs/2203.16406v7 )

ライセンス: Link先を確認
Guan Yang, Minghuan Liu, Weijun Hong, Weinan Zhang, Fei Fang, Guangjun Zeng, Yue Lin(参考訳) 挑戦的なマルチプレイヤーカードゲームとして、DouDizhuは最近、不完全な情報ゲームにおける競争やコラボレーションの分析に多くの注目を集めている。 本稿では,ゲームを支配する最先端のdoudizhu aiシステムであるperfectdouを提案する。 詳細は,エージェントがグローバル情報を利用して,まるで完璧な情報ゲームであるかのようにポリシーのトレーニングをガイドし,トレーニングされたポリシーを実際のゲーム中に不完全な情報ゲームをプレイするために使用できる完全学習・不完全実行フレームワークを採用する。 この目的のために,DouDizhuのカードとゲームの特徴を特徴付け,完全かつ不完全な情報を表現する。 システムをトレーニングするために、並列トレーニングパラダイムにおいて、一般化したアドバンテージ推定による近位政策最適化を採用する。 実験では、PerfectDouが既存のAIプログラムをすべて破り、最先端のパフォーマンスを達成する方法と理由を示します。

As a challenging multi-player card game, DouDizhu has recently drawn much attention for analyzing competition and collaboration in imperfect-information games. In this paper, we propose PerfectDou, a state-of-the-art DouDizhu AI system that dominates the game, in an actor-critic framework with a proposed technique named perfect information distillation. In detail, we adopt a perfect-training-imperfect-execution framework that allows the agents to utilize the global information to guide the training of the policies as if it is a perfect information game and the trained policies can be used to play the imperfect information game during the actual gameplay. To this end, we characterize card and game features for DouDizhu to represent the perfect and imperfect information. To train our system, we adopt proximal policy optimization with generalized advantage estimation in a parallel training paradigm. In experiments we show how and why PerfectDou beats all existing AI programs, and achieves state-of-the-art performance.
翻訳日:2024-02-29 19:44:07 公開日:2024-02-28
# 局所的非局所ジョイントネットワークによる表情重要領域の適応的強化

Adaptively Enhancing Facial Expression Crucial Regions via Local Non-Local Joint Network ( http://arxiv.org/abs/2203.14045v2 )

ライセンス: Link先を確認
Guanghui Shi, Shasha Mao, Shuiping Gou, Dandan Yan, Licheng Jiao, Lin Xiong(参考訳) 顔表情データにおけるクラス間差が小さいため、顔表情認識(FER)は依然として難しい研究である。 ferの顔面重要領域の重要性の観点から、既存の研究の多くは、ferの性能を改善するためにいくつかの注釈付き重要点からの事前情報を利用する。 しかし、特に広大な野生の表情画像において、顔の重要点を手動でアノテートするのは複雑で時間を要する。 そこで本論文では, FERの特徴学習において, 顔重要領域を適応的に照らすために, 局所非局所関節ネットワークを提案する。 提案手法では,複数の局所ネットワークのアンサンブルを提案し,複数の局所領域に対応する局所特徴を抽出し,非局所注意ネットワークに対処して各局所領域の意義を探索する,顔局所情報と非局所情報に基づいて2つの部分を構築する。 特に、非局所ネットワークによって得られる注意重みを局所部に供給し、顔のグローバル情報と局所情報との対話的なフィードバックを実現する。 興味深いことに、地域に応じた非局所的な重量は徐々に更新され、より重要な領域により高い重量が与えられる。 さらに、u-netを用いて、表情画像の奥行き意味情報と低階層的詳細情報の統合的特徴を抽出する。 最後に,提案手法は,5つのベンチマークデータセットの最先端手法と比較して,より競争力のある性能を実現することを示す。 特筆すべきは, 局所領域に対応する非局所重みの分析により, 顔ランドマーク情報を用いずに, 特徴学習過程において重要な領域を自動拡張できることである。

Facial expression recognition (FER) is still one challenging research due to the small inter-class discrepancy in the facial expression data. In view of the significance of facial crucial regions for FER, many existing researches utilize the prior information from some annotated crucial points to improve the performance of FER. However, it is complicated and time-consuming to manually annotate facial crucial points, especially for vast wild expression images. Based on this, a local non-local joint network is proposed to adaptively light up the facial crucial regions in feature learning of FER in this paper. In the proposed method, two parts are constructed based on facial local and non-local information respectively, where an ensemble of multiple local networks are proposed to extract local features corresponding to multiple facial local regions and a non-local attention network is addressed to explore the significance of each local region. Especially, the attention weights obtained by the non-local network is fed into the local part to achieve the interactive feedback between the facial global and local information. Interestingly, the non-local weights corresponding to local regions are gradually updated and higher weights are given to more crucial regions. Moreover, U-Net is employed to extract the integrated features of deep semantic information and low hierarchical detail information of expression images. Finally, experimental results illustrate that the proposed method achieves more competitive performance compared with several state-of-the art methods on five benchmark datasets. Noticeably, the analyses of the non-local weights corresponding to local regions demonstrate that the proposed method can automatically enhance some crucial regions in the process of feature learning without any facial landmark information.
翻訳日:2024-02-29 19:43:49 公開日:2024-02-28
# エンド・ツー・エンドビデオ学習におけるバッチ正規化の落とし穴--手術ワークフロー分析に関する研究

On the Pitfalls of Batch Normalization for End-to-End Video Learning: A Study on Surgical Workflow Analysis ( http://arxiv.org/abs/2203.07976v3 )

ライセンス: Link先を確認
Dominik Rivoir, Isabel Funke, Stefanie Speidel(参考訳) バッチの他のサンプルに依存するバッチ正規化(BN)固有の性質は、シーケンシャルモデリングを含むいくつかのタスクで問題を引き起こすことが知られている。 しかし、BN関連の問題は、CNN(Convolutional Neural Networks)でBNをユビキタスに使用しているにもかかわらず、長いビデオ理解のためにはほとんど研究されていない。 特に外科的ワークフロー分析では、事前訓練された特徴抽出器の欠如が複雑で多段階の訓練パイプラインに繋がったため、BN問題に対する限られた認識がCNNと時間モデルの訓練の利点を隠蔽していた可能性がある。 本稿では,ビデオ学習におけるBNの落とし穴を分析し,期待する「暖房」効果などのオンラインタスクに特有な課題を含む。 BNの特性がエンドツーエンド学習の大きな障害となるのを観察する。 しかし、BNフリーのバックボーンを用いて、単純なCNN-LSTMでさえ、時間的文脈を最大化する適切なエンドツーエンドのトレーニング戦略を利用することで、3つの外科的ワークフローベンチマークにおけるアートの状態を破る。 外科的作業において,BNの落とし穴に対する意識は効果的なエンドツーエンド学習に不可欠である。 自然ビデオデータセットの結果を再現することで、私たちの洞察がビデオ学習の他の分野にも役立つことを願っています。 コードは: \url{https://gitlab.com/nct_tso_public/pitfalls_bn}

Batch Normalization's (BN) unique property of depending on other samples in a batch is known to cause problems in several tasks, including sequential modeling. Yet, BN-related issues are hardly studied for long video understanding, despite the ubiquitous use of BN in CNNs (Convolutional Neural Networks) for feature extraction. Especially in surgical workflow analysis, where the lack of pretrained feature extractors has led to complex, multi-stage training pipelines, limited awareness of BN issues may have hidden the benefits of training CNNs and temporal models end to end. In this paper, we analyze pitfalls of BN in video learning, including issues specific to online tasks such as a 'cheating' effect in anticipation. We observe that BN's properties create major obstacles for end-to-end learning. However, using BN-free backbones, even simple CNN-LSTMs beat the state of the art {\color{\colorrevtwo}on three surgical workflow benchmarks} by utilizing adequate end-to-end training strategies which maximize temporal context. We conclude that awareness of BN's pitfalls is crucial for effective end-to-end learning in surgical tasks. By reproducing results on natural-video datasets, we hope our insights will benefit other areas of video learning as well. Code is available at: \url{https://gitlab.com/nct_tso_public/pitfalls_bn}
翻訳日:2024-02-29 19:43:23 公開日:2024-02-28
# クリフォード変形表面符号

Clifford-deformed Surface Codes ( http://arxiv.org/abs/2201.07802v3 )

ライセンス: Link先を確認
Arpit Dua, Aleksander Kubica, Liang Jiang, Steven T. Flammia, Michael J. Gullans(参考訳) 北エフの表面符号の様々な実現は、偏りのあるパウリ雑音に対して驚くほどよく機能する。 これらのポテンシャルゲインにより、単一量子ビットのクリフォード演算子を適用して、表面符号から得られるクリフォード変形曲面符号(CDSC)の性能を調べた。 まず,3-\times 3$ square 格子上でcdscを解析し,ノイズバイアスにより,論理誤差率が桁違いに変化することを確認した。 観測された振る舞いを説明するために,非バイアス雑音の標準距離を下げる実効距離$d'$を導入する。 熱力学的限界におけるCDSC性能を調べるため,ランダムCDSCに着目した。 量子符号の統計力学的マッピングを用いて、無限バイアスで50\%の閾値を持つランダムCDSC族を記述した位相図を明らかにする。 高閾値領域では、典型的コード実現は、最もよく知られた翻訳不変符号のしきい値とサブスレッショルド論理誤差率を有限バイアスで上回ることを示す。 高速なランダムCDSCファミリーに属する翻訳不変CDSCを構築することにより、これらのランダムCDSCファミリーの実用的妥当性を示す。 また、我々の翻訳不変CDSCは、XZZXやXY符号のようなよく知られた翻訳不変CDSCよりも優れていることを示す。

Various realizations of Kitaev's surface code perform surprisingly well for biased Pauli noise. Attracted by these potential gains, we study the performance of Clifford-deformed surface codes (CDSCs) obtained from the surface code by applying single-qubit Clifford operators. We first analyze CDSCs on the $3\times 3$ square lattice and find that, depending on the noise bias, their logical error rates can differ by orders of magnitude. To explain the observed behavior, we introduce the effective distance $d'$, which reduces to the standard distance for unbiased noise. To study CDSC performance in the thermodynamic limit, we focus on random CDSCs. Using the statistical mechanical mapping for quantum codes, we uncover a phase diagram that describes random CDSC families with $50\%$ threshold at infinite bias. In the high-threshold region, we further demonstrate that typical code realizations outperform the thresholds and subthreshold logical error rates, at finite bias, of the best-known translationally invariant codes. We demonstrate the practical relevance of these random CDSC families by constructing a translation-invariant CDSC belonging to a high-performance random CDSC family. We also show that our translation-invariant CDSC outperforms well-known translation-invariant CDSCs such as the XZZX and XY codes.
翻訳日:2024-02-29 19:42:55 公開日:2024-02-28
# CoFi: 高速長点クラウドマップにおけるLiDARローカライゼーションのための粗いICP

CoFi: Coarse-to-Fine ICP for LiDAR Localization in an Efficient Long-lasting Point Cloud Map ( http://arxiv.org/abs/2110.10194v2 )

ライセンス: Link先を確認
Yecheng Lyu, Xinming Huang, Ziming Zhang(参考訳) 近年、LiDAR計測と局在化が研究の関心を集めている。 既存の研究では、反復的最近点(ICP)が正確かつ効率的であるため広く使われている。 しかし、その非凸性とその局所的反復戦略により、ICPベースの手法は局所最適に陥りやすくなり、それによって正確な初期化が要求される。 本稿では,LiDARローカライゼーションのための粗いICPアルゴリズムであるCoFiを提案する。 具体的には、提案アルゴリズムは複数のボクセル解像度で入力点集合をダウンサンプリングし、粗い点集合から細かな点集合への変換を徐々に洗練する。 さらに,LiDARフレームから意味的特徴点を抽出し,CoFiを適用して効率的な点クラウドマップ上でのポーズを推定する,地図に基づくLiDARローカライゼーションアルゴリズムを提案する。 LiDARスキャンセマンティックセグメンテーションのためのCylinder3Dアルゴリズムの助けを借りて、提案したCoFiローカライゼーションアルゴリズムは、KITTIオドメトリーベンチマークの最先端性能を実証し、文献よりも大幅に改善した。

LiDAR odometry and localization has attracted increasing research interest in recent years. In the existing works, iterative closest point (ICP) is widely used since it is precise and efficient. Due to its non-convexity and its local iterative strategy, however, ICP-based method easily falls into local optima, which in turn calls for a precise initialization. In this paper, we propose CoFi, a Coarse-to-Fine ICP algorithm for LiDAR localization. Specifically, the proposed algorithm down-samples the input point sets under multiple voxel resolution, and gradually refines the transformation from the coarse point sets to the fine-grained point sets. In addition, we propose a map based LiDAR localization algorithm that extracts semantic feature points from the LiDAR frames and apply CoFi to estimate the pose on an efficient point cloud map. With the help of the Cylinder3D algorithm for LiDAR scan semantic segmentation, the proposed CoFi localization algorithm demonstrates the state-of-the-art performance on the KITTI odometry benchmark, with significant improvement over the literature.
翻訳日:2024-02-29 19:42:33 公開日:2024-02-28
# 並列回帰によるエンド・ツー・エンド高密度ビデオグラウンド

End-to-End Dense Video Grounding via Parallel Regression ( http://arxiv.org/abs/2109.11265v5 )

ライセンス: Link先を確認
Fengyuan Shi, Weilin Huang, Limin Wang(参考訳) video groundingは、言語クエリが与えられたビデオの中で、対応するビデオモーメントをローカライズすることを目的としている。 既存のメソッドは、プロポーザル・アンド・マッチや融合・アンド・検出問題としてキャストすることで、間接的にこのタスクに対処することが多い。 これらのサロゲート問題の解決には、トレーニング中の高度なラベル割り当てと、ほぼ重複した結果の手作りの削除が必要となることが多い。 一方、既存の作品では、単一の文を入力としてスパースビデオのグラウンド化に重点を置いており、不明瞭な記述のため、不明瞭なローカライゼーションをもたらす可能性がある。 本稿では,複数のモーメントと段落を同時に入力としてローカライズすることにより,高密度ビデオグラウンドングの新たな問題に取り組む。 言語条件付回帰としてのビデオグラウンドングの観点から、トランスフォーマライクアーキテクチャ(prvg)を再提案することにより、エンドツーエンドの並列デコーディングパラダイムを提案する。 私たちのPRVGのキーデザインは、言語をクエリとして使用し、言語に変調された視覚表現に基づいてモーメント境界を直接回帰することです。 設計の単純さにより、我々のPRVGフレームワークは異なるテストスキーム(疎あるいは密接なグラウンド)に適用でき、後処理のテクニックを使わずに効率的な推論が可能になる。 さらに,モデルの収束に寄与するモーメント持続時間に不変なprvgのトレーニングのガイドとして,堅牢な提案レベルの注意損失を考案する。 我々は、ActivityNet CaptionsとTACoSの2つのビデオグラウンドベンチマークで実験を行い、PRVGが従来の手法を大幅に上回ることを示す。 また,ビデオグラウンディングにおける並列回帰パラダイムの有効性を検討するために,詳細な研究を行った。

Video grounding aims to localize the corresponding video moment in an untrimmed video given a language query. Existing methods often address this task in an indirect way, by casting it as a proposal-and-match or fusion-and-detection problem. Solving these surrogate problems often requires sophisticated label assignment during training and hand-crafted removal of near-duplicate results. Meanwhile, existing works typically focus on sparse video grounding with a single sentence as input, which could result in ambiguous localization due to its unclear description. In this paper, we tackle a new problem of dense video grounding, by simultaneously localizing multiple moments with a paragraph as input. From a perspective on video grounding as language conditioned regression, we present an end-to-end parallel decoding paradigm by re-purposing a Transformer-alike architecture (PRVG). The key design in our PRVG is to use languages as queries, and directly regress the moment boundaries based on language-modulated visual representations. Thanks to its simplicity in design, our PRVG framework can be applied in different testing schemes (sparse or dense grounding) and allows for efficient inference without any post-processing technique. In addition, we devise a robust proposal-level attention loss to guide the training of PRVG, which is invariant to moment duration and contributes to model convergence. We perform experiments on two video grounding benchmarks of ActivityNet Captions and TACoS, demonstrating that our PRVG can significantly outperform previous methods. We also perform in-depth studies to investigate the effectiveness of parallel regression paradigm on video grounding.
翻訳日:2024-02-29 19:42:11 公開日:2024-02-28
# スコアベースのポイントクラウドDenoising

Score-Based Point Cloud Denoising ( http://arxiv.org/abs/2107.10981v5 )

ライセンス: Link先を確認
Shitong Luo, Wei Hu(参考訳) 走査装置から取得した点雲はノイズによって引き起こされることが多く、表面再構成や解析などの下流タスクに影響する。 ノイズのある点雲の分布は、ノイズのないサンプルの集合の分布と見なすことができる。 $p(x)$ ある種のノイズモデル $n$ と畳み込み、そのモードが基礎となるクリーンサーフェスである $(p * n)(x)$ となる。 ノイズの多い点群を妄想するために、各点の位置を反復的に更新する$p * n$ via gradient ascent から各点の対数類似度を増やすことを提案する。 p * n$ はテスト時に未知であり、勾配上昇を行うにはスコア(すなわち、ログ確率関数の勾配)のみが必要であるので、入力としてノイズのある点雲のみを与えられた$p * n$ のスコアを推定するニューラルネットワークアーキテクチャを提案する。 ネットワークを訓練する目的関数を導出し,推定したスコアを活かした復調アルゴリズムを開発する。 実験により,提案モデルは様々なノイズモデルの下で最先端の手法よりも優れており,点群アップサンプリングなど他のタスクに適用できる可能性を示している。 コードは \url{https://github.com/luost26/score-denoise} で入手できる。

Point clouds acquired from scanning devices are often perturbed by noise, which affects downstream tasks such as surface reconstruction and analysis. The distribution of a noisy point cloud can be viewed as the distribution of a set of noise-free samples $p(x)$ convolved with some noise model $n$, leading to $(p * n)(x)$ whose mode is the underlying clean surface. To denoise a noisy point cloud, we propose to increase the log-likelihood of each point from $p * n$ via gradient ascent -- iteratively updating each point's position. Since $p * n$ is unknown at test-time, and we only need the score (i.e., the gradient of the log-probability function) to perform gradient ascent, we propose a neural network architecture to estimate the score of $p * n$ given only noisy point clouds as input. We derive objective functions for training the network and develop a denoising algorithm leveraging on the estimated scores. Experiments demonstrate that the proposed model outperforms state-of-the-art methods under a variety of noise models, and shows the potential to be applied in other tasks such as point cloud upsampling. The code is available at \url{https://github.com/luost26/score-denoise}.
翻訳日:2024-02-29 19:41:14 公開日:2024-02-28
# 衝突発見のNISQ複雑さ

The NISQ Complexity of Collision Finding ( http://arxiv.org/abs/2211.12954v2 )

ライセンス: Link先を確認
Yassine Hamoudi, Qipeng Liu, Makrand Sinha(参考訳) 近代暗号の基本原理である衝突耐性ハッシュは、同じハッシュ値を生成する異なる入力を見つける効率的な方法がないことを保証している。 この性質は、様々な暗号アプリケーションのセキュリティを支え、その複雑さを理解することが重要である。 この問題の複雑さは古典的な設定ではよく理解されており、衝突を見つけるには$\Theta(N^{1/2})$クエリが必要である。 しかし、量子コンピューティングの出現は、量子逆数$\unicode{x2013}$が量子クエリのパワーを持つので、より効率的に衝突を見つけることができるため、新しい課題をもたらした。 brassard氏、h\"oyer氏、tapp氏、aaronson氏、そしてshi氏は、完全な量子敵は衝突を見つけるために$\theta(n^{1/3})$クエリを必要とし、より長いハッシュ出力が必要となり、セキュリティに必要な鍵長の効率に影響を及ぼすことを示した。 本稿では,ノイズ・中間スケール量子(NISQ)時代における量子攻撃の影響について考察する。 本研究では,nisqアルゴリズムの3つの異なるモデルを調査し,それらすべてに対する厳密な境界を達成した。(1)適応型量子・古典型問合せを行うハイブリッドアルゴリズム,(2)ノイズの多いオラクルにアクセスする量子アルゴリズム,デ強調・非分極化チャネルに属する量子アルゴリズム,(3)最大量子深さに上限を持つハイブリッドアルゴリズム,すなわち低深さ量子回路によって支援される古典的アルゴリズムである。 実際、我々の結果は、NISQとフルスケール量子コンピュータの間の全ての状態を扱う。 これまでは、画像前探索問題の結果のみがsunとzheng、rosmanis、chen、cotler、huang、liのモデルで知られていたが、衝突発見問題については知られていない。

Collision-resistant hashing, a fundamental primitive in modern cryptography, ensures that there is no efficient way to find distinct inputs that produce the same hash value. This property underpins the security of various cryptographic applications, making it crucial to understand its complexity. The complexity of this problem is well-understood in the classical setting and $\Theta(N^{1/2})$ queries are needed to find a collision. However, the advent of quantum computing has introduced new challenges since quantum adversaries $\unicode{x2013}$ equipped with the power of quantum queries $\unicode{x2013}$ can find collisions much more efficiently. Brassard, H\"oyer and Tapp and Aaronson and Shi established that full-scale quantum adversaries require $\Theta(N^{1/3})$ queries to find a collision, prompting a need for longer hash outputs, which impacts efficiency in terms of the key lengths needed for security. This paper explores the implications of quantum attacks in the Noisy-Intermediate Scale Quantum (NISQ) era. In this work, we investigate three different models for NISQ algorithms and achieve tight bounds for all of them: (1) A hybrid algorithm making adaptive quantum or classical queries but with a limited quantum query budget, or (2) A quantum algorithm with access to a noisy oracle, subject to a dephasing or depolarizing channel, or (3) A hybrid algorithm with an upper bound on its maximum quantum depth; i.e., a classical algorithm aided by low-depth quantum circuits. In fact, our results handle all regimes between NISQ and full-scale quantum computers. Previously, only results for the pre-image search problem were known for these models by Sun and Zheng, Rosmanis, Chen, Cotler, Huang and Li while nothing was known about the collision finding problem.
翻訳日:2024-02-29 19:35:14 公開日:2024-02-28
# スタイル転送のための言語モデルを置き換える

Replacing Language Model for Style Transfer ( http://arxiv.org/abs/2211.07343v2 )

ライセンス: Link先を確認
Pengyu Cheng, Ruineng Li(参考訳) 本稿では、テキストスタイル転送(TST)のためのシーケンス・ツー・シーケンス言語モデリングフレームワークである置換言語モデル(RLM)を紹介する。 本手法では,ソース文の各トークンを,目的文に類似した意味を持つテキストスパンに自己回帰的に置き換える。 新しいスパンは、置き換えられたトークンのローカルコンテキストの意味をよりよく保存できる、非回帰的なマスク付き言語モデルを介して生成される。 このRLM生成方式は, 自己回帰モデルの柔軟性と非自己回帰モデルの精度を収集し, 文レベルと単語レベルの転送方法のギャップを埋める。 生成スタイルをより正確に制御するために,RLMの隠蔽表現に対してトークンレベルスタイル・コンテント・アンタングルを行う。 実世界のテキストデータセットにおける実験結果は、他のTSTベースラインと比較してRTMの有効性を示す。 コードはhttps://github.com/Linear95/RLMにある。

We introduce replacing language model (RLM), a sequence-to-sequence language modeling framework for text style transfer (TST). Our method autoregressively replaces each token of the source sentence with a text span that has a similar meaning but in the target style. The new span is generated via a non-autoregressive masked language model, which can better preserve the local-contextual meaning of the replaced token. This RLM generation scheme gathers the flexibility of autoregressive models and the accuracy of non-autoregressive models, which bridges the gap between sentence-level and word-level style transfer methods. To control the generation style more precisely, we conduct a token-level style-content disentanglement on the hidden representations of RLM. Empirical results on real-world text datasets demonstrate the effectiveness of RLM compared with other TST baselines. The code is at https://github.com/Linear95/RLM.
翻訳日:2024-02-29 19:34:35 公開日:2024-02-28
# 自動車利用予測のためのオンライン学習モデル

Online Learning Models for Vehicle Usage Prediction During COVID-19 ( http://arxiv.org/abs/2210.16002v2 )

ライセンス: Link先を確認
Tobias Lindroth, Axel Svensson, Niklas {\AA}kerblom, Mitra Pourabdollah, Morteza Haghir Chehreghani(参考訳) 現在、より持続可能な輸送手段への移行が進行中であり、燃焼エンジン車からバッテリー電気自動車(BEV)への切り替えが重要な部分となっている。 BEVにはサステナビリティの観点から多くの利点があるが、運転距離の制限や長時間の充電といった問題は燃焼エンジンからの遷移を遅らせる。 これらの問題を緩和する1つの方法は、バッテリーのエネルギー効率を増加させるバッテリーの温熱前処理を行うことである。 しかし、バッテリ熱プリコンディショニングを最適に実行するには、車両の使用パターン、すなわち車両の使用方法と使用時期を知る必要がある。 本研究は,オンライン機械学習モデルを用いて,1日1ドライブの出発時刻と距離を推定する。 オンライン機械学習モデルは、新型コロナウイルス(COVID-19)パンデミックの間、一連のBEVから収集された歴史的運転データに基づいてトレーニングされ、評価される。 さらに、予測モデルを拡張して、予測の不確かさを定量化し、予測を使用するか、削除するかを判断することができる。 この結果から, 最良性能予測モデルでは, 出発時刻の予測では平均絶対誤差が2.75時間, 走行距離の予測では13.37kmとなった。

Today, there is an ongoing transition to more sustainable transportation, for which an essential part is the switch from combustion engine vehicles to battery electric vehicles (BEVs). BEVs have many advantages from a sustainability perspective, but issues such as limited driving range and long recharge times slow down the transition from combustion engines. One way to mitigate these issues is by performing battery thermal preconditioning, which increases the energy efficiency of the battery. However, to optimally perform battery thermal preconditioning, the vehicle usage pattern needs to be known, i.e., how and when the vehicle will be used. This study attempts to predict the departure time and distance of the first drive each day using online machine learning models. The online machine learning models are trained and evaluated on historical driving data collected from a fleet of BEVs during the COVID-19 pandemic. Additionally, the prediction models are extended to quantify the uncertainty of their predictions, which can be used to decide whether the prediction should be used or dismissed. Based on our results, the best-performing prediction models yield an aggregated mean absolute error of 2.75 hours when predicting departure time and 13.37 km when predicting trip distance.
翻訳日:2024-02-29 19:33:54 公開日:2024-02-28
# 相互情報正規化オフライン強化学習

Mutual Information Regularized Offline Reinforcement Learning ( http://arxiv.org/abs/2210.07484v3 )

ライセンス: Link先を確認
Xiao Ma, Bingyi Kang, Zhongwen Xu, Min Lin, Shuicheng Yan(参考訳) オフラインRLの最大の課題は、アウト・オブ・ディストリビューション・アクションがクエリーされたときに現れる分布シフトである。 既存の手法の多くは、政策改善や評価中に行動方針から逸脱する政策や価値を罰することでこの問題に対処している。 本研究では,政策改善の方向性を直接拘束することで,データセット内の状態と行動間の相互情報の観点から,オフラインRLにアプローチする新しいMISAフレームワークを提案する。 MISAはポリシーとQ値によってパラメータ化された相互情報の下位境界を構成する。 この下限を最適化することは、オフラインデータセット上のワンステップ改善ポリシーの可能性を最大化するのと同値である。 したがって、我々は政策改善の方向性をデータ多様体に限定する。 得られたアルゴリズムは、相互情報正規化を追加することにより、政策評価と改善を同時に強化する。 MISAは保守的なQ-ラーニング(CQL)と行動規則化(TD3+BC)を特別なケースとして統合する一般的なフレームワークである。 MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。 さらに、我々の広範な実験により、MISAはD4RLベンチマークの様々なタスクにおける幅広いベースライン、例えば体育運動タスクで742.9ポイントを達成している。 私たちのコードはhttps://github.com/sail-sg/MISAで利用可能です。

The major challenge of offline RL is the distribution shift that appears when out-of-distribution actions are queried, which makes the policy improvement direction biased by extrapolation errors. Most existing methods address this problem by penalizing the policy or value for deviating from the behavior policy during policy improvement or evaluation. In this work, we propose a novel MISA framework to approach offline RL from the perspective of Mutual Information between States and Actions in the dataset by directly constraining the policy improvement direction. MISA constructs lower bounds of mutual information parameterized by the policy and Q-values. We show that optimizing this lower bound is equivalent to maximizing the likelihood of a one-step improved policy on the offline dataset. Hence, we constrain the policy improvement direction to lie in the data manifold. The resulting algorithm simultaneously augments the policy evaluation and improvement by adding mutual information regularizations. MISA is a general framework that unifies conservative Q-learning (CQL) and behavior regularization methods (e.g., TD3+BC) as special cases. We introduce 3 different variants of MISA, and empirically demonstrate that tighter mutual information lower bound gives better offline RL performance. In addition, our extensive experiments show MISA significantly outperforms a wide range of baselines on various tasks of the D4RL benchmark,e.g., achieving 742.9 total points on gym-locomotion tasks. Our code is available at https://github.com/sail-sg/MISA.
翻訳日:2024-02-29 19:33:36 公開日:2024-02-28
# 状態依存的トロッター極限とその近似

State-dependent Trotter Limits and their approximations ( http://arxiv.org/abs/2209.14787v2 )

ライセンス: Link先を確認
Daniel Burgarth, Niklas Galke, Alexander Hahn, Lauritz van Luijk(参考訳) トロッター積公式は量子系の数値シミュレーションにおいて重要な道具である。 しかし、コンピュータは分子中の粒子の位置や電磁場の振幅といった連続的な自由度を扱うことはできない。 したがって、これらの変数を識別してデジタルシミュレーションに役立てる必要がある。 ここでは、この近似離散物理学の妥当性を結論付けるのに十分な条件を与える。 本質的には、状態依存のトロッターエラーに依存しており、独立な関心を持つ明示的な境界を確立する。

The Trotter product formula is a key instrument in numerical simulations of quantum systems. However, computers cannot deal with continuous degrees of freedom, such as the position of particles in molecules, or the amplitude of electromagnetic fields. It is therefore necessary to discretize these variables to make them amenable to digital simulations. Here, we give sufficient conditions to conclude the validity of this approximate discretized physics. Essentially, it depends on the state-dependent Trotter error, for which we establish explicit bounds that are also of independent interest.
翻訳日:2024-02-29 19:32:50 公開日:2024-02-28
# 地球の重力場における光子対と量子メモリの絡み合いダイナミクス

Entanglement dynamics of photon pairs and quantum memories in the gravitational field of the earth ( http://arxiv.org/abs/2209.02099v3 )

ライセンス: Link先を確認
Roy Barzel, Mustafa G\"undo\u{g}an, Markus Krutzik, Dennis R\"atzel, Claus L\"ammerzahl(参考訳) 地球の重力場におけるマッハ・ツェンダーとホン・ウー・マンデル干渉計の光状態と量子記憶に対する重力による絡み合いダイナミクス(普遍的デコヒーレンス機構の基礎)の影響について検討した。 香港・ウーマンデル干渉計における近未来技術の影響を目撃できる可能性は高い。 これは、光量子論によって予測される多粒子効果と一般相対性理論によって予測される効果を組み合わせた理論モデリングの実験的なテストである。 本稿は,地球規模の量子通信ネットワークにおいて重要な要素であると考えられる空間ベースの量子メモリに対する相対論的重力効果を初めて分析した。

We investigate the effect of entanglement dynamics due to gravity -- the basis of a mechanism of universal decoherence -- for photonic states and quantum memories in Mach-Zehnder and Hong-Ou-Mandel interferometry setups in the gravitational field of the earth. We show that chances are good to witness the effect with near-future technology in Hong-Ou-Mandel interferometry. This would represent an experimental test of theoretical modeling combining a multi-particle effect predicted by the quantum theory of light and an effect predicted by general relativity. Our article represents the first analysis of relativistic gravitational effects on space-based quantum memories which are expected to be an important ingredient for global quantum communication networks.
翻訳日:2024-02-29 19:32:43 公開日:2024-02-28
# 大規模コンテキストを用いたCTA画像からのキドニー多構造セグメンテーション

Using Large Context for Kidney Multi-Structure Segmentation from CTA Images ( http://arxiv.org/abs/2208.04525v3 )

ライセンス: Link先を確認
Weiwei Cao and Yuzhu Cao(参考訳) 手術ベースの腎癌治療(腹腔鏡下部分腎摘出術など)において, 3D CTAからの多施設(腎臓, 腎房, 動脈, 静脈など)の正確な自動分割が最も重要な課題である。 本稿は,MICCAI 2022 KIPA チャレンジにおける多構造セグメンテーション法の主な技術について概説する。 本論文の主な貢献は,大容量のコンテキスト情報処理機能を備えた3次元UNetを設計することである。 本手法は,MICCAI 2022 KIPA Chal-lengeオープンテストデータセットで8位,平均8.2。 私たちのコードとトレーニングされたモデルは、https://github.com/fengjiejiejiejie/kipa22_nnunetで公開されている。

Accurate and automated segmentation of multi-structure (i.e., kidneys, renal tu-mors, arteries, and veins) from 3D CTA is one of the most important tasks for surgery-based renal cancer treatment (e.g., laparoscopic partial nephrectomy). This paper briefly presents the main technique details of the multi-structure seg-mentation method in MICCAI 2022 KIPA challenge. The main contribution of this paper is that we design the 3D UNet with the large context information cap-turing capability. Our method ranked eighth on the MICCAI 2022 KIPA chal-lenge open testing dataset with a mean position of 8.2. Our code and trained models are publicly available at https://github.com/fengjiejiejiejie/kipa22_nnunet.
翻訳日:2024-02-29 19:32:29 公開日:2024-02-28
# トップダウンクレジット割り当てネットワークを用いた深層ニューラルネットワークの生物学的に妥当なトレーニング

Biologically Plausible Training of Deep Neural Networks Using a Top-down Credit Assignment Network ( http://arxiv.org/abs/2208.01416v2 )

ライセンス: Link先を確認
Jian-Hui Chen, Cheng-Lin Liu, Zuoren Wang(参考訳) バックプロパゲーションアルゴリズムベースのDeep Neural Networksが広く採用されているにもかかわらず、BPアルゴリズムの生物学的可能性により、新しいDNNモデルの進化が制限される可能性がある。 BPを置き換える生物学的に妥当なアルゴリズムを見つけるために,我々は生体脳に固有のトップダウン機構に注目した。 生体脳におけるトップダウン接続は高レベル認知機能において重要な役割を果たすが、そのニューラルネットワーク学習への応用はいまだに不明である。 本研究では,トップダウンクレジット割り当てネットワーク(tdca-network)を用いてボトムアップネットワークをトレーニングするために設計された2レベルトレーニングフレームワークを提案する。 TDCAネットワークは、ニューラルネットワークトレーニングで広く使われている従来の損失関数とバックプロパゲーションアルゴリズムの代わりに機能する。 さらに、TDCAネットワークのパラメータの複雑さを著しく低減し、ネットワークの性能を損なうことなくトレーニングを劇的に加速させる、脳にインスパイアされた信用拡散機構を導入し、非凸関数最適化、教師付き学習、強化学習を含む実験により、よく訓練されたTDCAネットワークは、様々な設定においてバックプロパゲーションに優れることが明らかになった。 ロスランドスケープにおける更新軌跡の可視化は、BPベースの軌跡が通常閉じ込められる局所的なミニマをバイパスするTDCAネットワークの能力を示している。 TDCA-networkはマルチタスク最適化にも優れており、教師付き学習における異なるデータセット間の堅牢な一般化性と強化学習における未確認タスク設定を実証している。 さらに、TDCAネットワークは様々なアーキテクチャでニューラルネットワークをトレーニングする有望な可能性を秘めている。

Despite the widespread adoption of Backpropagation algorithm-based Deep Neural Networks, the biological infeasibility of the BP algorithm could potentially limit the evolution of new DNN models. To find a biologically plausible algorithm to replace BP, we focus on the top-down mechanism inherent in the biological brain. Although top-down connections in the biological brain play crucial roles in high-level cognitive functions, their application to neural network learning remains unclear. This study proposes a two-level training framework designed to train a bottom-up network using a Top-Down Credit Assignment Network (TDCA-network). The TDCA-network serves as a substitute for the conventional loss function and the back-propagation algorithm, widely used in neural network training. We further introduce a brain-inspired credit diffusion mechanism, significantly reducing the TDCA-network's parameter complexity, thereby greatly accelerating training without compromising the network's performance.Our experiments involving non-convex function optimization, supervised learning, and reinforcement learning reveal that a well-trained TDCA-network outperforms back-propagation across various settings. The visualization of the update trajectories in the loss landscape indicates the TDCA-network's ability to bypass local minima where BP-based trajectories typically become trapped. The TDCA-network also excels in multi-task optimization, demonstrating robust generalizability across different datasets in supervised learning and unseen task settings in reinforcement learning. Moreover, the results indicate that the TDCA-network holds promising potential to train neural networks across diverse architectures.
翻訳日:2024-02-29 19:32:13 公開日:2024-02-28
# RealTime QA: 現時点での回答は?

RealTime QA: What's the Answer Right Now? ( http://arxiv.org/abs/2207.13332v2 )

ライセンス: Link先を確認
Jungo Kasai, Keisuke Sakaguchi, Yoichi Takahashi, Ronan Le Bras, Akari Asai, Xinyan Yu, Dragomir Radev, Noah A. Smith, Yejin Choi, Kentaro Inui(参考訳) 我々は,リアルタイムqa(dynamic question answering, 動的質問応答)プラットフォームを導入し,定期的にシステムを評価する(このバージョンでは毎週)。 REALTIME QAは現在の世界について問い合わせ、QAシステムは新しい出来事や情報に関する質問に答える必要がある。 したがって、オープンドメインのQAデータセットにおける静的な従来の仮定に挑戦し、瞬時にアプリケーションを追跡する。 GPT-3 や T5 など,大規模事前学習型言語モデルに基づく強力なベースラインモデルを構築した。 当社のベンチマークは継続中の取り組みであり,過去1年間のリアルタイム評価結果を示す。 実験結果から, GPT-3は, 新たに取得した文書に基づいて, 情報検索の重要性を浮き彫りにする。 しかし,検索した文書が回答を見つけるのに十分な情報を提供していない場合,GPT-3は時代遅れの回答を返す傾向にある。 オープンドメインのQAシステムはそのような解決不可能なケースを識別し、ユーザや検索モジュールと通信して検索結果を変更できるだろうか? 我々は,REALTIME QAが質問応答等の即時適用の進展を加速させることを期待している。

We introduce REALTIME QA, a dynamic question answering (QA) platform that announces questions and evaluates systems on a regular basis (weekly in this version). REALTIME QA inquires about the current world, and QA systems need to answer questions about novel events or information. It therefore challenges static, conventional assumptions in open-domain QA datasets and pursues instantaneous applications. We build strong baseline models upon large pretrained language models, including GPT-3 and T5. Our benchmark is an ongoing effort, and this paper presents real-time evaluation results over the past year. Our experimental results show that GPT-3 can often properly update its generation results, based on newly-retrieved documents, highlighting the importance of up-to-date information retrieval. Nonetheless, we find that GPT-3 tends to return outdated answers when retrieved documents do not provide sufficient information to find an answer. This suggests an important avenue for future research: can an open-domain QA system identify such unanswerable cases and communicate with the user or even the retrieval module to modify the retrieval results? We hope that REALTIME QA will spur progress in instantaneous applications of question answering and beyond.
翻訳日:2024-02-29 19:31:42 公開日:2024-02-28
# 保存則と量子誤差補正--一般化マッチングデコーダに向けて

Conservation laws and quantum error correction: towards a generalised matching decoder ( http://arxiv.org/abs/2207.06428v2 )

ライセンス: Link先を確認
Benjamin J. Brown(参考訳) フォールトトレラントな量子計算アーキテクチャにはデコーディングアルゴリズムが不可欠である。 この観点から、我々は、スケーラブルな量子コンピューティングを実証する主要な取り組みの基盤となる、プロトタイプな量子低密度パリティチェックコードである、表面符号の復号アルゴリズムについて検討する。 議論の中心は、最小ウェイトのパーフェクトマッチングデコーダです。 デコーダは、表面コード安定化素子間の物質的対称性によって生じる基礎構造を利用する。 これらの対称性に集中することにより、最小限の完全整合デコーダが他の種類の符号に対してどのように一般化されるかという問題に対処し始める。 まず、他のコードと一致するデコーダの例を調べることで、この問題に対処する。 これには、特定の構造やバイアスを示すノイズモデルを修正するために特別に開発された復号アルゴリズムが含まれる。 さらに,特定の特性を持つ符号に対して,最小重み付き完全整合デコーダを構築する方式を提案する。 私たちが利用する特性は、トポロジカルなコードでは一般的です。 我々は提案のより広い適用性について議論し、任意の安定化符号に対して一般化されたマッチングデコーダを設計する方法を示すために対処できるいくつかの質問を提案する。

Decoding algorithms are essential to fault-tolerant quantum-computing architectures. In this perspective we explore decoding algorithms for the surface code; a prototypical quantum low-density parity-check code that underlies many of the leading efforts to demonstrate scalable quantum computing. Central to our discussion is the minimum-weight perfect-matching decoder. The decoder works by exploiting underlying structure that arises due to materialised symmetries among surface-code stabilizer elements. By concentrating on these symmetries, we begin to address the question of how a minimum-weight perfect-matching decoder might be generalised for other families of codes. We approach this question first by investigating examples of matching decoders for other codes. These include decoding algorithms that have been specialised to correct for noise models that demonstrate a particular structure or bias with respect to certain codes. In addition to this, we propose a systematic way of constructing a minimum-weight perfect-matching decoder for codes with certain characteristic properties. The properties we make use of are common among topological codes. We discuss the broader applicability of the proposal, and we suggest some questions we can address that may show us how to design a generalised matching decoder for arbitrary stabilizer codes.
翻訳日:2024-02-29 19:31:24 公開日:2024-02-28
# 対向攻撃に対するベイズニューラルネットワークのロバスト性について

On the Robustness of Bayesian Neural Networks to Adversarial Attacks ( http://arxiv.org/abs/2207.06154v3 )

ライセンス: Link先を確認
Luca Bortolussi, Ginevra Carbone, Luca Laurenti, Andrea Patane, Guido Sanguinetti, Matthew Wicker(参考訳) 敵攻撃に対する脆弱性は、安全クリティカルなアプリケーションでディープラーニングを採用する上で、大きなハードルのひとつです。 実践的かつ理論的な大きな努力にもかかわらず、敵対的攻撃に頑健なディープラーニングモデルをトレーニングすることは、いまだに未解決の問題である。 本稿では,ベイズニューラルネットワーク(BNN)の大規模・過パラメータ化限界における敵攻撃の幾何学的構造を解析する。 この限界において、データ分布の縮退(つまり、データが周囲空間の低次元部分多様体上にある場合)の結果、勾配に基づく攻撃に対する脆弱性が生じることを示す。 直接的な結果として,この制限下では,BNN後部は勾配に基づく攻撃に対して堅牢であることを示す。 また,bnn後方分布に対する損失の予測勾配は,後方からサンプリングされたニューラルネットワークが勾配に基づく攻撃に対して脆弱である場合においても消失することを示した。 MNIST、Fashion MNIST、および半衛星データセットに関する実験結果は、ハミルトン・モンテカルロと変分推論で訓練されたBNNによって、この一連の議論をサポートし、BNNは、勾配に基づく攻撃と勾配のない攻撃の両方に対して高い精度と堅牢性の両方を表示できることを示した。

Vulnerability to adversarial attacks is one of the principal hurdles to the adoption of deep learning in safety-critical applications. Despite significant efforts, both practical and theoretical, training deep learning models robust to adversarial attacks is still an open problem. In this paper, we analyse the geometry of adversarial attacks in the large-data, overparameterized limit for Bayesian Neural Networks (BNNs). We show that, in the limit, vulnerability to gradient-based attacks arises as a result of degeneracy in the data distribution, i.e., when the data lies on a lower-dimensional submanifold of the ambient space. As a direct consequence, we demonstrate that in this limit BNN posteriors are robust to gradient-based adversarial attacks. Crucially, we prove that the expected gradient of the loss with respect to the BNN posterior distribution is vanishing, even when each neural network sampled from the posterior is vulnerable to gradient-based attacks. Experimental results on the MNIST, Fashion MNIST, and half moons datasets, representing the finite data regime, with BNNs trained with Hamiltonian Monte Carlo and Variational Inference, support this line of arguments, showing that BNNs can display both high accuracy on clean data and robustness to both gradient-based and gradient-free based adversarial attacks.
翻訳日:2024-02-29 19:31:03 公開日:2024-02-28
# スパースグラフの半教師付きクラスタリング:情報理論閾値を越えて

Semi-Supervised Clustering of Sparse Graphs: Crossing the Information-Theoretic Threshold ( http://arxiv.org/abs/2205.11677v4 )

ライセンス: Link先を確認
Junda Sheng and Thomas Strohmer(参考訳) 確率ブロックモデルは、ネットワーク構造データのクラスタリングとコミュニティ検出のための標準ランダムグラフモデルである。 この問題に関する広範な研究は、ケステン・スティグム閾値における相転移が数学的および応用的な観点から特に興味深い、多くの重要な結果を生み出している。 ネットワークトポロジに基づく推定器は,モデルパラメータが一定のしきい値以下であれば,スパースグラフの確率よりも大幅に向上する。 それでも、地平線をユビキタスな半教師付き設定に少し拡張すれば、そのような基本的な制限は完全に消える。 ラベルの任意の割合が明らかにされると、検出問題はパラメータ領域全体で実現可能であることが証明される。 さらに,ラベル情報をグラフ構造と統合するために,組合せと最適化に基づく2つの効率的なアルゴリズムを導入する。 我々の研究は、ネットワークと半定値プログラム研究の確率モデルに新しい視点をもたらす。

The stochastic block model is a canonical random graph model for clustering and community detection on network-structured data. Decades of extensive study on the problem have established many profound results, among which the phase transition at the Kesten-Stigum threshold is particularly interesting both from a mathematical and an applied standpoint. It states that no estimator based on the network topology can perform substantially better than chance on sparse graphs if the model parameter is below a certain threshold. Nevertheless, if we slightly extend the horizon to the ubiquitous semi-supervised setting, such a fundamental limitation will disappear completely. We prove that with an arbitrary fraction of the labels revealed, the detection problem is feasible throughout the parameter domain. Moreover, we introduce two efficient algorithms, one combinatorial and one based on optimization, to integrate label information with graph structures. Our work brings a new perspective to the stochastic model of networks and semidefinite program research.
翻訳日:2024-02-29 19:30:40 公開日:2024-02-28
# インシシット複合カーネルによるニューラルネットワークへの事前知識の導入

Incorporating Prior Knowledge into Neural Networks through an Implicit Composite Kernel ( http://arxiv.org/abs/2205.07384v8 )

ライセンス: Link先を確認
Ziyang Jiang, Tongshu Zheng, Yiling Liu, and David Carlson(参考訳) ニューラルネットワーク(NN)学習を事前知識でガイドすることは困難である。 対照的に、空間的滑らかさや季節性といった多くの既知の性質は、ガウス過程 (GP) において適切なカーネルを選択することでモデル化が簡単である。 多くのディープラーニングアプリケーションは、そのような既知の特性をモデル化することで拡張することができる。 例えば、畳み込みニューラルネットワーク(CNN)は、強い季節的影響を受けるリモートセンシングで頻繁に使用される。 本稿では,ニューラルネットワークによって暗黙的に定義されたカーネルと,既知の特性(季節性など)をモデル化するために選択された第2のカーネル関数を組み合わせることで,ディープラーニングの強みとGPの明確なモデリング能力を組み合わせることを提案する。 我々は,暗黙的複合カーネル (ick) と呼ばれるnystrom近似に基づくディープネットワークと効率的なマッピングを組み合わせることで,この概念を実装した。 次にサンプル・テン・オプティマイズ法を適用し,全gp後方分布を近似する。 ICKは、合成データセットと実世界のデータセットの両方において、優れた性能と柔軟性を有することを示す。 ICKフレームワークは、多くのアプリケーションでニューラルネットワークに事前情報を含めることができると信じている。

It is challenging to guide neural network (NN) learning with prior knowledge. In contrast, many known properties, such as spatial smoothness or seasonality, are straightforward to model by choosing an appropriate kernel in a Gaussian process (GP). Many deep learning applications could be enhanced by modeling such known properties. For example, convolutional neural networks (CNNs) are frequently used in remote sensing, which is subject to strong seasonal effects. We propose to blend the strengths of deep learning and the clear modeling capabilities of GPs by using a composite kernel that combines a kernel implicitly defined by a neural network with a second kernel function chosen to model known properties (e.g., seasonality). We implement this idea by combining a deep network and an efficient mapping based on the Nystrom approximation, which we call Implicit Composite Kernel (ICK). We then adopt a sample-then-optimize approach to approximate the full GP posterior distribution. We demonstrate that ICK has superior performance and flexibility on both synthetic and real-world data sets. We believe that ICK framework can be used to include prior information into neural networks in many applications.
翻訳日:2024-02-29 19:30:26 公開日:2024-02-28
# 一方向ホッピングを用いたBose Hubbardモデルの厳密解

Exact solution of the Bose Hubbard model with unidirectional hopping ( http://arxiv.org/abs/2305.00439v2 )

ライセンス: Link先を確認
Mingchen Zheng, Yi Qiao, Yupeng Wang, Junpeng Cao, Shu Chen(参考訳) 一方向ホッピングのある1次元ボースハバードモデルが正確に解くことができる。 代数的bethe ansatz法を適用し,モデルの可積分性を証明し,bethe ansatz方程式を導出する。 正確な固有値スペクトルはこれらの方程式を解くことで得られる。 Bethe根の分布は、基底状態における超流動モット絶縁体転移の存在を明らかにし、臨界点を決定する。 境界パラメータを調整することにより,相互作用が存在する場合でも非エルミート皮膚効果の存在を実証するが,熱力学限界におけるモット絶縁体状態を完全に抑制する。 その結果, 完全可解な非エルミート多体系の新しいクラスを示し, エルミート対応を持たず, 非ヘルミート多体系のために開発された各種数値手法のベンチマークとして利用できる。

A one-dimensional Bose Hubbard model with unidirectional hopping is shown to be exactly solvable. Applying the algebraic Bethe ansatz method, we prove the integrability of the model and derive the Bethe ansatz equations. The exact eigenvalue spectrum can be obtained by solving these equations. The distribution of Bethe roots reveals the presence of a superfluid-Mott insulator transition at the ground state, and the critical point is determined. By adjusting the boundary parameter, we demonstrate the existence of non-Hermitian skin effect even in the presence of interaction, but it is completely suppressed for the Mott insulator state in the thermodynamical limit. Our result represents a new class of exactly solvable non-Hermitian many-body systems, which have no Hermitian correspondence and can be used as a benchmark for various numerical techniques developed for non-Hermitian many-body systems.
翻訳日:2024-02-29 19:25:37 公開日:2024-02-28
# 自動運転のための合成データセット:調査

Synthetic Datasets for Autonomous Driving: A Survey ( http://arxiv.org/abs/2304.12205v2 )

ライセンス: Link先を確認
Zhihang Song, Zimin He, Xingyu Li, Qiming Ma, Ruibo Ming, Zhiqi Mao, Huaxin Pei, Lihui Peng, Jianming Hu, Danya Yao, Yi Zhang(参考訳) 自動運転技術は近年盛んになりつつあり、大量の高品質なデータを欲しがっている。 しかし、実世界のデータセットが、高価で時間のかかる実験やラベル付けコストのため、要件変更のペースに追随するのは困難である。 そのため、より多くの研究者が、現実世界の効果的な補足としてリッチで変更可能なデータを容易に生成し、アルゴリズムのパフォーマンスを向上させるために、合成データセットに目を向けている。 本稿では, 合成データセット生成手法の進化を概説し, 自律運転研究における単一およびマルチタスクカテゴリに関連する合成データセットの現在までの成果を概説する。 また,人工データセットが自律運転関連アルゴリズムテストにおける評価,ギャップテスト,肯定的効果,特に信頼性と安全性において果たす役割について論じる。 最後に、一般的な傾向と開発方向について論じる。 私たちの知る限りでは、自動運転における合成データセットの適用に焦点を当てた初めての調査である。 この調査はまた、自動運転技術の現実的な展開の問題への意識を高め、研究者に可能な解決策を提供する。

Autonomous driving techniques have been flourishing in recent years while thirsting for huge amounts of high-quality data. However, it is difficult for real-world datasets to keep up with the pace of changing requirements due to their expensive and time-consuming experimental and labeling costs. Therefore, more and more researchers are turning to synthetic datasets to easily generate rich and changeable data as an effective complement to the real world and to improve the performance of algorithms. In this paper, we summarize the evolution of synthetic dataset generation methods and review the work to date in synthetic datasets related to single and multi-task categories for to autonomous driving study. We also discuss the role that synthetic dataset plays the evaluation, gap test, and positive effect in autonomous driving related algorithm testing, especially on trustworthiness and safety aspects. Finally, we discuss general trends and possible development directions. To the best of our knowledge, this is the first survey focusing on the application of synthetic datasets in autonomous driving. This survey also raises awareness of the problems of real-world deployment of autonomous driving technology and provides researchers with a possible solution.
翻訳日:2024-02-29 19:25:22 公開日:2024-02-28
# V2X通信支援自律運転における中断型協調認識

Interruption-Aware Cooperative Perception for V2X Communication-Aided Autonomous Driving ( http://arxiv.org/abs/2304.11821v2 )

ライセンス: Link先を確認
Shunli Ren, Zixing Lei, Zi Wang, Mehrdad Dianati, Yafei Wang, Siheng Chen, Wenjun Zhang(参考訳) 協調的な知覚は、v2x通信を介して近隣のエージェントと情報を交換することで、個々の車両の認識能力の制限を超える自動運転車の知覚性能を著しく向上させることができる。 しかし、既存のほとんどの仕事はエージェント間の理想的なコミュニケーションを前提としており、不完全なv2x通信によって引き起こされる重要かつ一般的な \textit{interruption issues} を無視している。 そこで本研究では,v2x通信支援自律運転における通信中断に頑健な協調認識システムであるv2x通信中断回避協調認識(v2x-incop)を提案する。 包括的回復を実現するため,V2X通信条件に基づいて複数の空間的特徴を抽出し,欠落情報の予測に最も重要な情報を取得する通信適応型マルチスケール時空間予測モデルを設計した。 さらに回復性能を向上させるために,予測モデルに明示的かつ直接的な監督を与えるための知識蒸留フレームワークと,モデルのトレーニングを安定化するカリキュラム学習戦略を採用する。 3つの公的な協調認識データセットの実験から,コミュニケーション中断が協調知覚に与える影響を緩和するために提案手法が有効であることが示された。

Cooperative perception can significantly improve the perception performance of autonomous vehicles beyond the limited perception ability of individual vehicles by exchanging information with neighbor agents through V2X communication. However, most existing work assume ideal communication among agents, ignoring the significant and common \textit{interruption issues} caused by imperfect V2X communication, where cooperation agents can not receive cooperative messages successfully and thus fail to achieve cooperative perception, leading to safety risks. To fully reap the benefits of cooperative perception in practice, we propose V2X communication INterruption-aware COoperative Perception (V2X-INCOP), a cooperative perception system robust to communication interruption for V2X communication-aided autonomous driving, which leverages historical cooperation information to recover missing information due to the interruptions and alleviate the impact of the interruption issue. To achieve comprehensive recovery, we design a communication-adaptive multi-scale spatial-temporal prediction model to extract multi-scale spatial-temporal features based on V2X communication conditions and capture the most significant information for the prediction of the missing information. To further improve recovery performance, we adopt a knowledge distillation framework to give explicit and direct supervision to the prediction model and a curriculum learning strategy to stabilize the training of the model. Experiments on three public cooperative perception datasets demonstrate that the proposed method is effective in alleviating the impacts of communication interruption on cooperative perception.
翻訳日:2024-02-29 19:25:02 公開日:2024-02-28
# モデル所有者決定に対する虚偽の主張

False Claims against Model Ownership Resolution ( http://arxiv.org/abs/2304.06607v4 )

ライセンス: Link先を確認
Jian Liu, Rui Zhang, Sebastian Szyller, Kui Ren, N. Asokan(参考訳) ディープニューラルネットワーク(DNN)モデルは、モデル所有者の貴重な知的特性であり、競争上の優位性を構成する。 したがって,モデル盗難から保護する技術を開発することが重要である。 モデルオーナシップ解決(mor: model ownership resolution)は、モデル盗難を抑止するテクニックのクラスである。 MORスキームにより、被疑者が被疑者モデルに対して、透かしや指紋などの証拠を提示することにより、被疑者が被疑者モデルから盗まれたか、又は被疑者が所有するソースモデルから引き出されたものであることを示す。 既存のmorスキームの多くは、悪意のある容疑者に対して堅牢性を優先し、容疑者モデルが実際に盗まれたモデルであれば、告発者が勝つことを保証している。 本稿では,文学における一般的なMORスキームが,異なる,等しく重要だが不十分な,頑健さの懸念に対して脆弱であることを示す。 我々は、悪質な告発者が、盗まれていない独立した容疑者モデルに対して、いかに偽の主張を行うかを示す。 我々の中核的な考え方は、悪意のある告発者は、独立した被疑者モデルに対する証拠としてうまく機能する(伝達可能な)逆例を見つけることによって、特定されたMORプロセスから(検出なしで)逸脱することができるということです。 この目的のために、まず共通のMORスキームの手順を一般化し、この一般化の下では、偽主張に対する防御は、(伝達可能な)逆例を防ぐのと同じくらい困難であることを示す。 体系的な実証的評価を通じて、偽クレーム攻撃は、実世界のモデルであるamazonのrekognition apiを含む、我々の一般化に従うmorスキームで常に成功することを実証する。

Deep neural network (DNN) models are valuable intellectual property of model owners, constituting a competitive advantage. Therefore, it is crucial to develop techniques to protect against model theft. Model ownership resolution (MOR) is a class of techniques that can deter model theft. A MOR scheme enables an accuser to assert an ownership claim for a suspect model by presenting evidence, such as a watermark or fingerprint, to show that the suspect model was stolen or derived from a source model owned by the accuser. Most of the existing MOR schemes prioritize robustness against malicious suspects, ensuring that the accuser will win if the suspect model is indeed a stolen model. In this paper, we show that common MOR schemes in the literature are vulnerable to a different, equally important but insufficiently explored, robustness concern: a malicious accuser. We show how malicious accusers can successfully make false claims against independent suspect models that were not stolen. Our core idea is that a malicious accuser can deviate (without detection) from the specified MOR process by finding (transferable) adversarial examples that successfully serve as evidence against independent suspect models. To this end, we first generalize the procedures of common MOR schemes and show that, under this generalization, defending against false claims is as challenging as preventing (transferable) adversarial examples. Via systematic empirical evaluation, we demonstrate that our false claim attacks always succeed in the MOR schemes that follow our generalization, including against a real-world model: Amazon's Rekognition API.
翻訳日:2024-02-29 19:24:24 公開日:2024-02-28
# プライバシー保護型連合学習のためのゲーム理論フレームワーク

A Game-theoretic Framework for Privacy-preserving Federated Learning ( http://arxiv.org/abs/2304.05836v3 )

ライセンス: Link先を確認
Xiaojin Zhang, Lixin Fan, Siwei Wang, Wenjie Li, Kai Chen, Qiang Yang(参考訳) 連合学習では、良性参加者はグローバルなモデルを協調的に最適化することを目指している。 しかし、 \textit{semi-honest} 敵の存在下では、 \textit{privacy leakage} のリスクは無視できない。 既存の研究は防御機構の設計や攻撃機構の発明に重点を置いている。 被告側と攻撃側の間での戦いは終わらないように思われるが、我々は1つの重要な疑問に気を配っている。 そこで本稿では,計算コスト,FLモデルユーティリティ,プライバシリークリスクなどを含む各支払額の観点から,FLディフェンダーとアタッカーの両方を考慮に入れた最初のゲーム理論フレームワークを提案する。 我々はこのゲームをFLPG(Federated Learning Privacy Game)と名付け、ディフェンダーもアタッカーもすべての参加者の報酬を意識していない。 この状況に固有の \textit{incomplete information} を扱うために,2つの主要な責務を持つ \textit{oracle} と FLPG を関連付けることを提案する。 第一に、オラクルはプレイヤーに対する支払いの下位と上位のバウンドを提供する。 第2に、oracleは相関デバイスとして動作し、各プレイヤーに提案するアクションをプライベートに提供します。 この新たな枠組みにより,守備隊と攻撃隊の最適戦略を解析する。 さらに、私たちは、合理的な意思決定者として、攻撃者が常にoracleの提案である \textit{not to attack}に従うべき条件を導出して示します。

In federated learning, benign participants aim to optimize a global model collaboratively. However, the risk of \textit{privacy leakage} cannot be ignored in the presence of \textit{semi-honest} adversaries. Existing research has focused either on designing protection mechanisms or on inventing attacking mechanisms. While the battle between defenders and attackers seems never-ending, we are concerned with one critical question: is it possible to prevent potential attacks in advance? To address this, we propose the first game-theoretic framework that considers both FL defenders and attackers in terms of their respective payoffs, which include computational costs, FL model utilities, and privacy leakage risks. We name this game the federated learning privacy game (FLPG), in which neither defenders nor attackers are aware of all participants' payoffs. To handle the \textit{incomplete information} inherent in this situation, we propose associating the FLPG with an \textit{oracle} that has two primary responsibilities. First, the oracle provides lower and upper bounds of the payoffs for the players. Second, the oracle acts as a correlation device, privately providing suggested actions to each player. With this novel framework, we analyze the optimal strategies of defenders and attackers. Furthermore, we derive and demonstrate conditions under which the attacker, as a rational decision-maker, should always follow the oracle's suggestion \textit{not to attack}.
翻訳日:2024-02-29 19:23:54 公開日:2024-02-28
# ディープグラフ表現学習に関する包括的調査

A Comprehensive Survey on Deep Graph Representation Learning ( http://arxiv.org/abs/2304.05055v3 )

ライセンス: Link先を確認
Wei Ju, Zheng Fang, Yiyang Gu, Zequn Liu, Qingqing Long, Ziyue Qiao, Yifang Qin, Jianhao Shen, Fang Sun, Zhiping Xiao, Junwei Yang, Jingyang Yuan, Yusheng Zhao, Yifan Wang, Xiao Luo, Ming Zhang(参考訳) グラフ表現学習は、高次元スパースグラフ構造化データを低次元密度ベクトルに効果的に符号化することを目的としており、これは機械学習やデータマイニングなど様々な分野で広く研究されている基本的なタスクである。 古典的なグラフ埋め込み手法は、グラフ内の連結ノードの埋め込みベクトルが比較的近い距離を維持できるという基本的な考え方に従っており、グラフ内のノード間の構造情報を保存できる。 しかし、これは以下の点で最適である。 (i)従来の手法は、学習性能を制限する限られたモデル能力を有する。 (二)既存の技術は一般に教師なしの学習戦略に依存し、最新の学習パラダイムと相容れない。 (iii)表現学習と下流課題は相互に依存し、協調的に強化されるべきである。 ディープラーニングの成功により、深層グラフ表現学習は、浅い(伝統的な)手法よりも大きな可能性と利点を示し、過去10年間、特にグラフニューラルネットワークにおいて、多くの深層グラフ表現学習技術が提案されてきた。 本研究では,現在の深層グラフ表現学習アルゴリズムの包括的調査を行い,現状の文献の新しい分類法を提案する。 具体的には,グラフ表現学習の基本要素を体系的に要約し,グラフニューラルネットワークアーキテクチャと最新の学習パラダイムを用いて既存のアプローチを分類する。 さらに,本調査は,深層グラフ表現学習の実践的かつ有望な応用も提供する。 最後に、我々は新たな視点を述べ、今後のさらなる調査に値する挑戦的な方向性を提案する。

Graph representation learning aims to effectively encode high-dimensional sparse graph-structured data into low-dimensional dense vectors, which is a fundamental task that has been widely studied in a range of fields, including machine learning and data mining. Classic graph embedding methods follow the basic idea that the embedding vectors of interconnected nodes in the graph can still maintain a relatively close distance, thereby preserving the structural information between the nodes in the graph. However, this is sub-optimal due to: (i) traditional methods have limited model capacity which limits the learning performance; (ii) existing techniques typically rely on unsupervised learning strategies and fail to couple with the latest learning paradigms; (iii) representation learning and downstream tasks are dependent on each other which should be jointly enhanced. With the remarkable success of deep learning, deep graph representation learning has shown great potential and advantages over shallow (traditional) methods, there exist a large number of deep graph representation learning techniques have been proposed in the past decade, especially graph neural networks. In this survey, we conduct a comprehensive survey on current deep graph representation learning algorithms by proposing a new taxonomy of existing state-of-the-art literature. Specifically, we systematically summarize the essential components of graph representation learning and categorize existing approaches by the ways of graph neural network architectures and the most recent advanced learning paradigms. Moreover, this survey also provides the practical and promising applications of deep graph representation learning. Last but not least, we state new perspectives and suggest challenging directions which deserve further investigations in the future.
翻訳日:2024-02-29 19:23:30 公開日:2024-02-28
# 医療報告作成のためのクロスモーダル因果介入

Cross-Modal Causal Intervention for Medical Report Generation ( http://arxiv.org/abs/2303.09117v4 )

ライセンス: Link先を確認
Weixing Chen, Yang Liu, Ce Wang, Jiarui Zhu, Shen Zhao, Guanbin Li, Cheng-Lin Liu and Liang Lin(参考訳) 医療報告生成(MRG)は、放射線医の重荷を軽減し、所定の放射線画像に従って対応する医療報告を自動生成するコンピュータ支援診断および医薬指導に不可欠である。 しかし,視覚・言語バイアスによって引き起こされる画像テキストデータのスプリアス相関から,病変領域を正確に記述する正確なレポートの作成が困難である。 さらに、クロスモーダルな共同創設者は通常観察不能であり、明示的に排除することは困難である。 本稿では,MRGのクロスモーダルデータバイアス,すなわちクロスモーダル因果介入を新たな視点から緩和し,視覚的疎結合モジュール(VDM)と言語的疎結合モジュール(LDM)からなるMRGのための新しい視覚言語因果干渉(VLCI)フレームワークを提案する。 具体的には、汎用的な意味抽出器がないため、vdmは高価な細かなアノテーションを使わずにパッチベースのローカルおよびグローバル機能からvisual confoundersを探索し、分離する。 同時に、医学の分野全体を包含する知識の欠如により、ldmは用語データベースを構築することなく、突出した視覚特徴と高周波コンテキストによって引き起こされる言語共起者を排除している。 IU-XrayとMIMIC-CXRデータセットの大規模な実験により、我々のVLCIは最先端のMRG法よりも大幅に優れていることが示された。 コードとモデルはhttps://github.com/WissingChen/VLCIで入手できる。

Medical report generation (MRG) is essential for computer-aided diagnosis and medication guidance, which can relieve the heavy burden of radiologists by automatically generating the corresponding medical reports according to the given radiology image. However, due to the spurious correlations within image-text data induced by visual and linguistic biases, it is challenging to generate accurate reports reliably describing lesion areas. Moreover, the cross-modal confounders are usually unobservable and challenging to be eliminated explicitly. In this paper, we aim to mitigate the cross-modal data bias for MRG from a new perspective, i.e., cross-modal causal intervention, and propose a novel Visual-Linguistic Causal Intervention (VLCI) framework for MRG, which consists of a visual deconfounding module (VDM) and a linguistic deconfounding module (LDM), to implicitly mitigate the visual-linguistic confounders by causal front-door intervention. Specifically, due to the absence of a generalized semantic extractor, the VDM explores and disentangles the visual confounders from the patch-based local and global features without expensive fine-grained annotations. Simultaneously, due to the lack of knowledge encompassing the entire field of medicine, the LDM eliminates the linguistic confounders caused by salient visual features and high-frequency context without constructing a terminology database. Extensive experiments on IU-Xray and MIMIC-CXR datasets show that our VLCI significantly outperforms the state-of-the-art MRG methods. The code and models are available at https://github.com/WissingChen/VLCI.
翻訳日:2024-02-29 19:22:43 公開日:2024-02-28
# 生体内X線顕微鏡における剛体運動補償のための極性条件の探索

Exploring Epipolar Consistency Conditions for Rigid Motion Compensation in In-vivo X-ray Microscopy ( http://arxiv.org/abs/2303.00449v2 )

ライセンス: Link先を確認
Mareike Thies, Fabian Wagner, Mingxuan Gu, Siyuan Mei, Yixing Huang, Sabrina Pechmann, Oliver Aust, Daniela Weidner, Georgiana Neag, Stefan Uderhardt, Georg Schett, Silke Christiansen, Andreas Maier(参考訳) マウス前臨床モデルにおける生体内x線顕微鏡(xrm)は、骨ポローシスの特徴である骨の微視的構造変化の同定に重要な役割を担っている。 この方法の複雑さは、マウスの骨の高品質な3D再構成の必要性に起因している。 しかし,呼吸運動と筋の緩やかさは投射データの不整合を招き,非補償再建の成果をもたらす。 遠位極性条件 (ECC) を用いた運動補償は, 臨床CTでは良好な成績を示した。 本稿では,これらのアルゴリズムがxrmデータの修正に適したのか検討する。 異なる剛性運動パターンをシミュレートし、運動補償再構成の品質を評価する。 この方法では、平面外運動の顕微鏡的特徴を復元することができるが、人工物は6自由度を含むより現実的な動きパターンのために残る。 したがって、ECCはプロジェクションデータの初期アライメントに有用であり、続いて再構成法を用いて動きパラメータを微調整する。

Intravital X-ray microscopy (XRM) in preclinical mouse models is of vital importance for the identification of microscopic structural pathological changes in the bone which are characteristic of osteoporosis. The complexity of this method stems from the requirement for high-quality 3D reconstructions of the murine bones. However, respiratory motion and muscle relaxation lead to inconsistencies in the projection data which result in artifacts in uncompensated reconstructions. Motion compensation using epipolar consistency conditions (ECC) has previously shown good performance in clinical CT settings. Here, we explore whether such algorithms are suitable for correcting motion-corrupted XRM data. Different rigid motion patterns are simulated and the quality of the motion-compensated reconstructions is assessed. The method is able to restore microscopic features for out-of-plane motion, but artifacts remain for more realistic motion patterns including all six degrees of freedom of rigid motion. Therefore, ECC is valuable for the initial alignment of the projection data followed by further fine-tuning of motion parameters using a reconstruction-based method.
翻訳日:2024-02-29 19:21:53 公開日:2024-02-28
# ベイジアンテンソル列車分解によるストリームデータ復元

Streaming data recovery via Bayesian tensor train decomposition ( http://arxiv.org/abs/2302.12148v2 )

ライセンス: Link先を確認
Yunyu Huang, Yani Feng, Qifeng Liao(参考訳) 本稿では,高次ストリーミングデータにおける潜在構造を近似することにより,ベイズテンソルトレイン(TT)分解法を用いて,ストリーミングデータを復元する。 ストリーミング変分ベイズ法に基づいて,ストリーミングデータに対するベイズテンソル分解法にTTフォーマットを導入し,TTコアの後部を定式化する。 TTフォーマットのベイズフレームワークのおかげで、提案アルゴリズム(SPTT)は高次、不完全、ノイズのある特性でストリーミングデータを復元するのに優れている。 合成および実世界のデータセットを用いた実験では,ストリーミングデータに対する最先端ベイズテンソル分解法と比較して精度が向上した。

In this paper, we study a Bayesian tensor train (TT) decomposition method to recover streaming data by approximating the latent structure in high-order streaming data. Drawing on the streaming variational Bayes method, we introduce the TT format into Bayesian tensor decomposition methods for streaming data, and formulate posteriors of TT cores. Thanks to the Bayesian framework of the TT format, the proposed algorithm (SPTT) excels in recovering streaming data with high-order, incomplete, and noisy properties. The experiments in synthetic and real-world datasets show the accuracy of our method compared to state-of-the-art Bayesian tensor decomposition methods for streaming data.
翻訳日:2024-02-29 19:21:39 公開日:2024-02-28
# SegForestNet: 空間分割に基づく空中画像分割

SegForestNet: Spatial-Partitioning-Based Aerial Image Segmentation ( http://arxiv.org/abs/2302.01585v2 )

ライセンス: Link先を確認
Daniel Gritzner, J\"orn Ostermann(参考訳) 航空画像のセグメンテーションは、地図の自動作成や森林破壊の追跡といったアプリケーションの基盤である。 これらの用途でよく用いられる真の直交写真では、多くの物体や領域は多角形によってよく近似することができる。 しかし、この事実は最先端のセマンティックセグメンテーションモデルによって利用されることは稀である。 代わりに、ほとんどのモデルは任意の領域形状を許容することにより、予測において不要な自由度を許容する。 そこで我々は,効率的な多角形表現である二分空間分割木を予測するディープラーニングモデルを改良した。 改良には、新しい機能デコーダアーキテクチャと、どちらも廃止される勾配を避ける新しい差別化可能なBSPツリーレンダラーが含まれている。 さらに,予測木によって定義された空間分割を改善するために,新たな損失関数を設計した。 さらに,拡張モデルは複数の木を同時に予測し,クラス固有のセグメンテーションを予測する。 さらなる貢献として、最適化されたトレーニングプロセスと比較して、最適でないトレーニングプロセスの影響を検討する。 PFNetや我々のモデルのような航空画像に最適化されたモデルアーキテクチャは、最適でない条件下では利点を示すが、この利点は最適な訓練条件下では消える。 この観察にもかかわらず、我々のモデルは、例えば自動車のような小さな長方形の物体に対してより良い予測を行う。

Aerial image segmentation is the basis for applications such as automatically creating maps or tracking deforestation. In true orthophotos, which are often used in these applications, many objects and regions can be approximated well by polygons. However, this fact is rarely exploited by state-of-the-art semantic segmentation models. Instead, most models allow unnecessary degrees of freedom in their predictions by allowing arbitrary region shapes. We therefore present a refinement of our deep learning model which predicts binary space partitioning trees, an efficient polygon representation. The refinements include a new feature decoder architecture and a new differentiable BSP tree renderer which both avoid vanishing gradients. Additionally, we designed a novel loss function specifically designed to improve the spatial partitioning defined by the predicted trees. Furthermore, our expanded model can predict multiple trees at once and thus can predict class-specific segmentations. As an additional contribution, we investigate the impact of a non-optimal training process in comparison to an optimized training process. While model architectures optimized for aerial images, such as PFNet or our own model, show an advantage under non-optimal conditions, this advantage disappears under optimal training conditions. Despite this observation, our model still makes better predictions for small rectangular objects, e.g., cars.
翻訳日:2024-02-29 19:21:27 公開日:2024-02-28
# 超伝導・狭窄型超導体トランスモン量子ビットの性能解析

Performance Analysis of Superconductor-constriction-Superconductor Transmon Qubits ( http://arxiv.org/abs/2301.04276v3 )

ライセンス: Link先を確認
Mingzhao Liu, Charles T. Black(参考訳) 本研究は、超伝導体-絶縁体-超導体(sis)ジョセフソン接合を共平面超伝導体-狭窄超導体(scs)ナノブリッジ接合に置き換えた超伝導トランスモン量子ビット設計の計算解析を示す。 ギンツブルク-ランダウ理論の範囲内では、ナノブリッジscsトランスモンはsisトランスモンよりも電荷分散が向上し、非調和性が小さいことが判明した。 これらの計算は、ギガヘルツ周波数scsトランスモン演算と互換性のある超伝導材料特性と接合寸法を推定するための枠組みを提供する。

This work presents a computational analysis of a superconducting transmon qubit design, in which the superconductor-insulator-superconductor (SIS) Josephson junction is replaced by a co-planar, superconductor-constriction-superconductor (ScS) nanobridge junction. Within the scope of Ginzburg-Landau theory, we find that the nanobridge ScS transmon has an improved charge dispersion compared to the SIS transmon, with a tradeoff of smaller anharmonicity. These calculations provide a framework for estimating the superconductor material properties and junction dimensions compatible with gigahertz frequency ScS transmon operation.
翻訳日:2024-02-29 19:21:09 公開日:2024-02-28
# deepgoplus推論の数値安定性

Numerical Stability of DeepGOPlus Inference ( http://arxiv.org/abs/2212.06361v4 )

ライセンス: Link先を確認
In\'es Gonzalez Pepe, Yohan Chatelain, Gregory Kiar, Tristan Glatard(参考訳) 畳み込みニューラルネットワーク(CNN)は現在、利用可能な最も広く使用されているディープニューラルネットワーク(DNN)アーキテクチャの1つであり、多くの問題に対して最先端のパフォーマンスを実現している。 元々はコンピュータビジョンのタスクに応用され、CNNは画像以外の空間的関係のあるデータでもうまく機能し、様々な分野に適用されてきた。 しかし、近年の研究では、DNNにおける数値安定性の課題が強調されている。 これらの課題は、パフォーマンスと信頼性を損なう可能性がある。 本稿では,タンパク質機能を予測するCNNであるDeepGOPlusについて検討する。 DeepGOPlusは最先端のパフォーマンスを達成し、プロテオミクスで出現するタンパク質配列をうまく利用し、注釈を付けることができる。 本研究では,浮動小数点データの摂動による不確かさを定量化し,モデル推定段階の数値安定性を決定する。 さらに,DeepGOPlus推論に精度の低い浮動小数点フォーマットを用いることで,メモリ消費とレイテンシを低減する機会を探究する。 これは、浮動小数点演算エラーを実験的に定量化するMonte Carlo Arithmeticと、カスタマイズ可能な浮動小数点演算精度フォーマットで結果をエミュレートするVPRECを使用してDeepGOPlusの実行を計測することで実現されている。 deepgoplusモデルの主要な成果物であり、異なる環境にまたがって広く適用できるため、推論の段階に焦点が当てられる。 以上の結果から,DeepGOPlus CNNは数値的に非常に安定しているが,より精度の低い浮動小数点型でしか実装できないことがわかった。 事前学習したdeepgoplusモデルから得られた予測は非常に信頼性が高く,既存の浮動小数点形式を効率的に利用することができる。

Convolutional neural networks (CNNs) are currently among the most widely-used deep neural network (DNN) architectures available and achieve state-of-the-art performance for many problems. Originally applied to computer vision tasks, CNNs work well with any data with a spatial relationship, besides images, and have been applied to different fields. However, recent works have highlighted numerical stability challenges in DNNs, which also relates to their known sensitivity to noise injection. These challenges can jeopardise their performance and reliability. This paper investigates DeepGOPlus, a CNN that predicts protein function. DeepGOPlus has achieved state-of-the-art performance and can successfully take advantage and annotate the abounding protein sequences emerging in proteomics. We determine the numerical stability of the model's inference stage by quantifying the numerical uncertainty resulting from perturbations of the underlying floating-point data. In addition, we explore the opportunity to use reduced-precision floating point formats for DeepGOPlus inference, to reduce memory consumption and latency. This is achieved by instrumenting DeepGOPlus' execution using Monte Carlo Arithmetic, a technique that experimentally quantifies floating point operation errors and VPREC, a tool that emulates results with customizable floating point precision formats. Focus is placed on the inference stage as it is the primary deliverable of the DeepGOPlus model, widely applicable across different environments. All in all, our results show that although the DeepGOPlus CNN is very stable numerically, it can only be selectively implemented with lower-precision floating-point formats. We conclude that predictions obtained from the pre-trained DeepGOPlus model are very reliable numerically, and use existing floating-point formats efficiently.
翻訳日:2024-02-29 19:20:22 公開日:2024-02-28
# 安全な協調フィルタリング

Safe Collaborative Filtering ( http://arxiv.org/abs/2306.05292v2 )

ライセンス: Link先を確認
Riku Togashi, Tatsushi Oka, Naoto Ohsaka, Tetsuro Morimura(参考訳) アルゴリズムの公正性、クラス不均衡、リスクに敏感な意思決定といった現代の機械学習タスクでは、データセット内の挑戦的なサンプルの効果的な処理が保証されるため、優れたテールパフォーマンスが不可欠である。 テールパフォーマンスは、満足度の低いユーザを失うリスクを減らすために、パーソナライズされたレコメンデーションシステムにとって成功の重要な決定要因でもある。 本研究では、平均的なパフォーマンスではなく、満足度の低いユーザの推薦品質を優先する「安全な」協調フィルタリング手法を提案する。 提案手法は,ユーザの損失に対する平均リスクを表す,リスクの条件値(CVaR)を最小化する。 ウェブスケールレコメンデータシステムの計算課題を克服するため、最もスケーラブルな手法を拡張し、最小二乗(iALS)を暗黙的に交互に拡張する頑健で実用的なアルゴリズムを開発した。 実世界のデータセットに対する実証的な評価は、競争力のある計算効率を維持しながら、我々のアプローチの優れたテール性能を示す。

Excellent tail performance is crucial for modern machine learning tasks, such as algorithmic fairness, class imbalance, and risk-sensitive decision making, as it ensures the effective handling of challenging samples within a dataset. Tail performance is also a vital determinant of success for personalized recommender systems to reduce the risk of losing users with low satisfaction. This study introduces a "safe" collaborative filtering method that prioritizes recommendation quality for less-satisfied users rather than focusing on the average performance. Our approach minimizes the conditional value at risk (CVaR), which represents the average risk over the tails of users' loss. To overcome computational challenges for web-scale recommender systems, we develop a robust yet practical algorithm that extends the most scalable method, implicit alternating least squares (iALS). Empirical evaluation on real-world datasets demonstrates the excellent tail performance of our approach while maintaining competitive computational efficiency.
翻訳日:2024-02-29 19:14:24 公開日:2024-02-28
# GCN信頼度予測に基づく協調的移動群集センシングのためのEcient Recruitment Strategy

Eicient Recruitment Strategy for Collaborative Mobile Crowd Sensing Based on GCN Trustworthiness Prediction ( http://arxiv.org/abs/2306.04366v3 )

ライセンス: Link先を確認
Zhongwei Zhan, Yingjie Wang, Peiyong Duan, Akshita Maradapu Vera Venkata Sai, Zhaowei Liu, Chaocan Xiang, Xiangrong Tong, Weilong Wang, Zhipeng Cai(参考訳) CMCS(Collaborative Mobile Crowd Sensing)は、タスクセンシングにおけるチームワークを促進することで、データ品質とカバレッジを向上させる。 既存の戦略は、主に作業者自身の特性に注目し、それらの間の非対称な信頼関係を無視し、タスクユーティリティ評価の合理性に影響を与える。 そこで本稿では,まずミニバッチk-meansクラスタリングアルゴリズムを採用し,エッジサーバをデプロイし,効率的な分散ワーカー採用を実現する。 履歴データとタスク要件を利用して、労働者の能力タイプと距離を取得する。 作業者のソーシャルネットワーク内の信頼指向グラフを、トレーニング用のgraph convolutional network(gcn)フレームワークに入力し、作業者ペア間の非対称信頼性をキャプチャする。 CMCSのシナリオでは、労働者間の高い信頼度によってプライバシリークが防止される。 最終的に、労働者の能力、信頼値、および距離重みを用いて、非方向性採用グラフを構築し、労働者採用問題を最大重量平均グラフ問題(MWASP)に変換する。 Tabu Search Recruitment (TSR) アルゴリズムは,タスク毎のバランスの取れた多目的最適タスクユーティリティワーカーを合理的に採用するために提案される。 4つの実世界のデータセットに対する広範囲なシミュレーション実験は、提案された戦略の有効性を示し、他の戦略よりも優れている。

Collaborative Mobile Crowd Sensing (CMCS) enhances data quality and coverage by promoting teamwork in task sensing, with worker recruitment representing a complex multi-objective optimization problem. Existing strategies mainly focus on the characteristics of workers themselves, neglecting the asymmetric trust relationships between them, which affects the rationality of task utility evaluation. To address this, this paper first employs the Mini-Batch K-Means clustering algorithm and deploys edge servers to enable efficient distributed worker recruitment. Historical data and task requirements are utilized to obtain workers' ability types and distances. A trust-directed graph in the worker's social network is input into the Graph Convolutional Network (GCN) framework for training, capturing asymmetric trustworthiness between worker pairs. Privacy leakage is prevented in CMCS scenarios through high trust values between workers. Ultimately, an undirected recruitment graph is constructed using workers' abilities, trust values, and distance weights, transforming the worker recruitment problem into a Maximum Weight Average Subgraph Problem (MWASP). A Tabu Search Recruitment (TSR) algorithm is proposed to rationally recruit a balanced multi-objective optimal task utility worker set for each task. Extensive simulation experiments on four real-world datasets demonstrate the effectiveness of the proposed strategy, outperforming other strategies.
翻訳日:2024-02-29 19:14:06 公開日:2024-02-28
# Matte Anything: セグメンテーションモデルによるインタラクティブな自然画像マッチング

Matte Anything: Interactive Natural Image Matting with Segment Anything Models ( http://arxiv.org/abs/2306.04121v2 )

ライセンス: Link先を確認
Jingfeng Yao, Xinggang Wang, Lang Ye, and Wenyu Liu(参考訳) 自然画像マット化アルゴリズムは、トリマップガイダンスで透明性マップ(アルファマット)を予測することを目的としている。 しかし、トリマップの作成には多大な労力を要することが多く、大規模なマッチングアルゴリズムの適用を制限している。 この問題に対処するため,様々な簡単なヒントで高品質なα-マットを生成できるインタラクティブな自然画像マッチングモデルであるMatte Anything (MatAny)を提案する。 MatAnyの重要な洞察は、輪郭と透明な予測で自動的に擬似トリマップを生成することである。 本研究では,視覚基盤モデルを活用し,自然画像マッチングの性能向上を図る。 具体的には, セグメンテーションモデルを用いて, ユーザインタラクションによる高品質な輪郭を予測し, 任意のオブジェクトの透明性を予測する。 その後、事前訓練された画像マッチングモデルが擬似トリマップを持つアルファ行列を生成する。 matanyは最もサポートされたインタラクションメソッドと、これまでで最高のパフォーマンスを持つ対話型マットリングアルゴリズムである。 追加の訓練なしで直交視覚モデルから成り立っている。 いくつかの画像マッチングアルゴリズムに対してMateAnyの性能を評価する。 MatAnyはMSEを58.3%改善し、SADを40.6%改善した。 ソースコードと事前訓練されたモデルはhttps://github.com/hustvl/Matte-Anything.comで入手できる。

Natural image matting algorithms aim to predict the transparency map (alpha-matte) with the trimap guidance. However, the production of trimap often requires significant labor, which limits the widespread application of matting algorithms on a large scale. To address the issue, we propose Matte Anything (MatAny), an interactive natural image matting model that could produce high-quality alpha-matte with various simple hints. The key insight of MatAny is to generate pseudo trimap automatically with contour and transparency prediction. In our work, we leverage vision foundation models to enhance the performance of natural image matting. Specifically, we use the segment anything model to predict high-quality contour with user interaction and an open-vocabulary detector to predict the transparency of any object. Subsequently, a pre-trained image matting model generates alpha mattes with pseudo trimaps. MatAny is the interactive matting algorithm with the most supported interaction methods and the best performance to date. It consists of orthogonal vision models without any additional training. We evaluate the performance of MatAny against several current image matting algorithms. MatAny has 58.3% improvement on MSE and 40.6% improvement on SAD compared to the previous image matting methods with simple guidance, achieving new state-of-the-art (SOTA) performance. The source codes and pre-trained models are available at https://github.com/hustvl/Matte-Anything.
翻訳日:2024-02-29 19:13:40 公開日:2024-02-28
# 励起状態量子相転移を利用した精密磁気計測

Precision magnetometry exploiting excited state quantum phase transitions ( http://arxiv.org/abs/2306.01126v4 )

ライセンス: Link先を確認
Qian Wang, Ugo Marzolino(参考訳) 相転移における臨界挙動は精密計測の資源である。 理由は、フィッシャー情報として知られるこの関数が臨界点において超指数関数であり、同時にメトロジープロトコルのパフォーマンスを定量化するからである。 したがって、位相遷移におけるメロジカルプローブの作成により、遷移制御パラメータの測定精度が向上する。 我々は、異なる磁場で励起状態量子相転移を示すリプキン-メシュコフ-グリックモデルに焦点を当てる。 モデルスペクトル特性に基づき、フィッシャー情報の広いピークを示し、高精度磁力計の効率的なスキームを提案する。 lipkin-meshkov-glickモデルは、超伝導と核系のために初めて導入され、最近いくつかの凝縮物プラットフォームで実現された。 上記のメトロロジースキームは、リプキン-メシュコフ-グリック模型をシミュレートできるシステムの微視的性質を測定するためにも利用できる。

Critical behaviour in phase transitions is a resource for enhanced precision metrology. The reason is that the function, known as Fisher information, is superextensive at critical points, and, at the same time, quantifies performances of metrological protocols. Therefore, preparing metrological probes at phase transitions provides enhanced precision in measuring the transition control parameter. We focus on the Lipkin-Meshkov-Glick model that exhibits excited state quantum phase transitions at different magnetic fields. Resting on the model spectral properties, we show broad peaks of the Fisher information, and propose efficient schemes for precision magnetometry. The Lipkin-Meshkov-Glick model was first introduced for superconductivity and for nuclear systems, and recently realised in several condensed matter platforms. The above metrological schemes can be also exploited to measure microscopic properties of systems able to simulate the Lipkin-Meshkov-Glick model.
翻訳日:2024-02-29 19:13:16 公開日:2024-02-28
# 絡み合った光によるLEOクロック同期

LEO Clock Synchronization with Entangled Light ( http://arxiv.org/abs/2305.19639v3 )

ライセンス: Link先を確認
Ronakraj Gosalia, Robert Malaney, Ryan Aguinaldo, Jonathan Green and Peter Brereton(参考訳) 精密ナビゲーションとタイミング、非常に長いベースライン干渉計、次世代通信、センシング、基礎物理学のテストはすべて、高度に同期されたクロックネットワークを必要とする。 高精度の光原子時計の進歩により、同期の精度の要求は古典物理学の限界(つまり標準量子限界、sql)に達している。 基本的な Heisenberg の限界に達するために,SQL を効率よく克服することは,シャープされた光や絡み合った光を使用することで実現できる。 ハイゼンベルク限界へのアプローチは理論的にはよく理解されているが、空間ベースのプラットフォームのような実用的な実装では、その利点は追加のコストと複雑さを上回っている。 エンタングルメントは、失われた衛星から衛星へのチャネルに対するクロック同期において、量子的な優位性をもたらすか? 非対称な損失チャネルでも、2モードの絡み合いの性質によって得られる冗長性が回復可能であることを示す。 さらに,この回復性は,単一モードのスクイーズセンシングよりも改善され,空間ベースのセンシングアプリケーションに対する新しい複雑さとパフォーマンスのトレードオフを示す。

Precision navigation and timing, very-long-baseline interferometry, next-generation communication, sensing, and tests of fundamental physics all require a highly synchronized network of clocks. With the advance of highly-accurate optical atomic clocks, the precision requirements for synchronization are reaching the limits of classical physics (i.e. the standard quantum limit, SQL). Efficiently overcoming the SQL to reach the fundamental Heisenberg limit can be achieved via the use of squeezed or entangled light. Although approaches to the Heisenberg limit are well understood in theory, a practical implementation, such as in space-based platforms, requires that the advantage outweighs the added costs and complexity. Here, we focus on the question: can entanglement yield a quantum advantage in clock synchronization over lossy satellite-to-satellite channels? We answer in the affirmative, showing that the redundancy afforded by the two-mode nature of entanglement allows recoverability even over asymmetrically lossy channels. We further show this recoverability is an improvement over single-mode squeezing sensing, thereby illustrating a new complexity-performance trade-off for space-based sensing applications.
翻訳日:2024-02-29 19:12:59 公開日:2024-02-28
# 説明の活用: 拡張されたテキスト属性グラフ表現学習のためのllm-to-lmインタプリタ

Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning ( http://arxiv.org/abs/2305.19523v4 )

ライセンス: Link先を確認
Xiaoxin He, Xavier Bresson, Thomas Laurent, Adam Perold, Yann LeCun, Bryan Hooi(参考訳) 近年,テキスト対応グラフ(TAG)の表現学習が重要な研究課題となっている。 TAGの典型的な例は、各論文のテキストがノード属性として機能する論文引用グラフである。 初期グラフニューラルネットワーク(gnn)パイプラインは、これらのテキスト属性を、スキップグラムや単語の袋など、浅いあるいは手作りの機能に変換することで処理した。 近年の取り組みは、言語モデル(LM)によるパイプラインの強化に重点を置いている。 GPTやLlama2のような強力な大規模言語モデル(LLM)が出現し、推論能力と一般的な知識を活用できるようになり、LLMのテキストモデリング能力とGNNの構造学習能力を組み合わせた技術の必要性が高まっている。 そこで本研究では,LLMを利用してテキスト情報を特徴として捉え,下流タスクにおけるGNNの性能向上に活用する。 我々はLCMにゼロショット分類の実行を促し、意思決定プロセスのテキスト説明を要求し、LSM-to-LMインタプリタを設計して、これらの説明を下流GNNの情報的特徴に翻訳する。 実験の結果,Cora,PubMed,ogbn-arxiv,および新たに導入した tape-arxiv23 など,確立されたTAG データセットの最先端結果が得られた。 さらに,本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインよりも2.88倍向上した。 最後に,提案手法の汎用性はTAGを超えて拡張され,グラフテキストデータを含む他のタスクを強化する可能性を秘めている。 私たちのコードとデータセットは、https://github.com/xiaoxinhe/tape.com/で利用可能です。

Representation learning on text-attributed graphs (TAGs) has become a critical research problem in recent years. A typical example of a TAG is a paper citation graph, where the text of each paper serves as node attributes. Initial graph neural network (GNN) pipelines handled these text attributes by transforming them into shallow or hand-crafted features, such as skip-gram or bag-of-words features. Recent efforts have focused on enhancing these pipelines with language models (LMs), which typically demand intricate designs and substantial computational resources. With the advent of powerful large language models (LLMs) such as GPT or Llama2, which demonstrate an ability to reason and to utilize general knowledge, there is a growing need for techniques which combine the textual modelling abilities of LLMs with the structural learning capabilities of GNNs. Hence, in this work, we focus on leveraging LLMs to capture textual information as features, which can be used to boost GNN performance on downstream tasks. A key innovation is our use of explanations as features: we prompt an LLM to perform zero-shot classification, request textual explanations for its decision-making process, and design an LLM-to-LM interpreter to translate these explanations into informative features for downstream GNNs. Our experiments demonstrate that our method achieves state-of-the-art results on well-established TAG datasets, including Cora, PubMed, ogbn-arxiv, as well as our newly introduced dataset, tape-arxiv23. Furthermore, our method significantly speeds up training, achieving a 2.88 times improvement over the closest baseline on ogbn-arxiv. Lastly, we believe the versatility of the proposed method extends beyond TAGs and holds the potential to enhance other tasks involving graph-text data. Our codes and datasets are available at: https://github.com/XiaoxinHe/TAPE.
翻訳日:2024-02-29 19:12:39 公開日:2024-02-28
# 信頼あるフェデレーション学習における保護メカニズムの調整のためのメタラーニングフレームワーク

A Meta-learning Framework for Tuning Parameters of Protection Mechanisms in Trustworthy Federated Learning ( http://arxiv.org/abs/2305.18400v3 )

ライセンス: Link先を確認
Xiaojin Zhang, Yan Kang, Lixin Fan, Kai Chen, Qiang Yang(参考訳) 信頼できるフェデレートラーニング(TFL)は通常、プライバシを保証するために保護メカニズムを活用する。 しかし、保護機構は必然的にデータプライバシを保護しながら、ユーティリティ損失や効率の低下をもたらす。 したがって、保護機構とそのパラメータは、 \textit{privacy leakage} と \textit{utility loss} と \textit{efficiency reduction} の最適なトレードオフを打つために慎重に選択する必要がある。 この目的のために、フェデレートされた学習実践者は、3つの要因を測定し、それらの間のトレードオフを最適化し、目の前のアプリケーションに最も適した保護メカニズムを選択するツールが必要である。 本稿では,(1) プライバシー漏洩, ユーティリティ損失, 効率低下のトレードオフを最適化する保護機構の発見問題として, TFL を定式化する枠組みを提案し, (2) 3つの要因の有界測定を正式に定義する。 次に,この最適化問題を近似するメタラーニングアルゴリズムを提案し,ランダム化,準同型暗号,秘密共有,圧縮といった代表的な保護機構の最適保護パラメータを求める。 さらに,これらの最適保護パラメータを実用的な水平連関学習設定で定量化するための推定アルゴリズムの設計を行い,推定誤差の理論的解析を行う。

Trustworthy Federated Learning (TFL) typically leverages protection mechanisms to guarantee privacy. However, protection mechanisms inevitably introduce utility loss or efficiency reduction while protecting data privacy. Therefore, protection mechanisms and their parameters should be carefully chosen to strike an optimal tradeoff between \textit{privacy leakage}, \textit{utility loss}, and \textit{efficiency reduction}. To this end, federated learning practitioners need tools to measure the three factors and optimize the tradeoff between them to choose the protection mechanism that is most appropriate to the application at hand. Motivated by this requirement, we propose a framework that (1) formulates TFL as a problem of finding a protection mechanism to optimize the tradeoff between privacy leakage, utility loss, and efficiency reduction and (2) formally defines bounded measurements of the three factors. We then propose a meta-learning algorithm to approximate this optimization problem and find optimal protection parameters for representative protection mechanisms, including Randomization, Homomorphic Encryption, Secret Sharing, and Compression. We further design estimation algorithms to quantify these found optimal protection parameters in a practical horizontal federated learning setting and provide a theoretical analysis of the estimation error.
翻訳日:2024-02-29 19:12:02 公開日:2024-02-28
# 事前条件付き非凸勾配勾配による騒音測定による低ランク行列の高速・高精度推定

Fast and Accurate Estimation of Low-Rank Matrices from Noisy Measurements via Preconditioned Non-Convex Gradient Descent ( http://arxiv.org/abs/2305.17224v2 )

ライセンス: Link先を確認
Gavin Zhang, Hong-Ming Chiu, Richard Y. Zhang(参考訳) 非凸勾配降下 (non-convex gradient descent) は、ノイズ測定から低ランクの$n\times n$ ground truth matrixを推定する一般的なアプローチである。 しかし、実践者は数十から数百のイテレーションに制限されることがしばしばあり、非凸勾配勾配勾配の遅いあるいは矛盾しない収束は、高品質な推定値を得るのを防ぐことができる。 近年,無騒音時の非凸勾配降下の局所収束の促進にプリコンディショニング技術が有効であることが示されている。 本稿では, 局所収束を最小化するために, ノイズ測定にプリコンディショニングをいかに行うべきかについて述べる。 対称行列検出問題に対して, 提案手法は, 異常条件や過パラメータ化に応答しない線形速度で, 極小誤差に局所収束することが保証される。 提案手法を用いて,60メガピクセルの医用画像復調作業を行い,従来の手法に比べてノイズレベルを著しく低減した。

Non-convex gradient descent is a common approach for estimating a low-rank $n\times n$ ground truth matrix from noisy measurements, because it has per-iteration costs as low as $O(n)$ time, and is in theory capable of converging to a minimax optimal estimate. However, the practitioner is often constrained to just tens to hundreds of iterations, and the slow and/or inconsistent convergence of non-convex gradient descent can prevent a high-quality estimate from being obtained. Recently, the technique of preconditioning was shown to be highly effective at accelerating the local convergence of non-convex gradient descent when the measurements are noiseless. In this paper, we describe how preconditioning should be done for noisy measurements to accelerate local convergence to minimax optimality. For the symmetric matrix sensing problem, our proposed preconditioned method is guaranteed to locally converge to minimax error at a linear rate that is immune to ill-conditioning and/or over-parameterization. Using our proposed preconditioned method, we perform a 60 megapixel medical image denoising task, and observe significantly reduced noise levels compared to previous approaches.
翻訳日:2024-02-29 19:11:36 公開日:2024-02-28
# LEDを用いた量子ランダム数発生装置

Quantum Random Number Generator Based on LED ( http://arxiv.org/abs/2305.16101v3 )

ライセンス: Link先を確認
Mohammadreza Moeini, Mohsen Akbari, Mohammad Mirsadeghi, Hamid Reza Naeij, Nima Haghkish, Ali Hayeri, Mehrdad Malekian(参考訳) 量子乱数生成器(QRNG)は、量子力学の固有の確率的性質に基づいて乱数を生成し、真の乱数生成器(TRNG)となる。 本稿では,LED(発光ダイオード)における自然発光と吸収の変動に基づく乱数を生成する組込みQRNGの設計と製造を行う。 強靭で信頼性の高いQRNGを実現するために,通常の後処理法を比較し,リアルタイムデバイスに対する有限インパルス応答(FIR)法を選択する。 この装置はNISTテストに合格し、生成速度は1Mbit/s、出力データのランダム性が不変である。

Quantum random number generators (QRNGs) produce random numbers based on the intrinsic probabilistic nature of quantum mechanics, making them true random number generators (TRNGs). In this paper, we design and fabricate an embedded QRNG that produces random numbers based on fluctuations of spontaneous emission and absorption in a Light-Emitting Diode (LED). To achieve a robust and reliable QRNG, we compare some usual post-processing methods and select the finite impulse response (FIR) method for a real-time device. This device could pass NIST tests, the generation rate is 1 Mbit/s and the randomness of the output data is invariant in time.
翻訳日:2024-02-29 19:11:13 公開日:2024-02-28
# パラメータ対称性を用いた収束と一般化の改善

Improving Convergence and Generalization Using Parameter Symmetries ( http://arxiv.org/abs/2305.13404v2 )

ライセンス: Link先を確認
Bo Zhao, Robert M. Gower, Robin Walters, Rose Yu(参考訳) 多くのニューラルネットワークでは、パラメータの異なる値が同じ損失値をもたらすことがある。 パラメータ空間対称性はモデルパラメータを変更する損失不変変換である。 テレポーテーションは最適化を加速するためにこのような変換を適用する。 しかし、このアルゴリズムの成功の正確なメカニズムはよく理解されていない。 本稿では,テレポーテーションが短期最適化を高速化するだけでなく,全体の収束時間を短縮することを示す。 さらに、異なる曲率を持つミニマへのテレポートは一般化を改善し、最小曲率と一般化能力の接続を示唆する。 最後に、テレポーテーションを幅広い最適化アルゴリズムに統合し、最適化に基づくメタラーニングにより収束を改善することを示す。 本研究はテレポーテーションの汎用性を示し,最適化に対称性を組み込む可能性を示す。

In many neural networks, different values of the parameters may result in the same loss value. Parameter space symmetries are loss-invariant transformations that change the model parameters. Teleportation applies such transformations to accelerate optimization. However, the exact mechanism behind this algorithm's success is not well understood. In this paper, we show that teleportation not only speeds up optimization in the short-term, but gives overall faster time to convergence. Additionally, teleporting to minima with different curvatures improves generalization, which suggests a connection between the curvature of the minimum and generalization ability. Finally, we show that integrating teleportation into a wide range of optimization algorithms and optimization-based meta-learning improves convergence. Our results showcase the versatility of teleportation and demonstrate the potential of incorporating symmetry in optimization.
翻訳日:2024-02-29 19:11:00 公開日:2024-02-28
# 伝達学習のための効率的なConvBNブロック

Efficient ConvBN Blocks for Transfer Learning and Beyond ( http://arxiv.org/abs/2305.11624v2 )

ライセンス: Link先を確認
Kaichao You, Guo Qin, Anchang Bao, Meng Cao, Ping Huang, Jiulong Shan, Mingsheng Long(参考訳) Convolution-BatchNorm (ConvBN) ブロックは、様々なコンピュータビジョンタスクや他のドメインにおいて重要なコンポーネントである。 ConvBNブロックはTrain、Eval、Deployの3つのモードで操作できる。 Trainモードはスクラッチからモデルのトレーニングには不可欠だが、Evalモードは移行学習などに適しており、Deployモードはモデルのデプロイ用に設計されている。 本稿では,ConvBNブロックの安定性と効率性のトレードオフに着目し,デプロイモードは効率的だが,トレーニングの不安定性に悩まされている。 ジレンマを解決するため,デプロイモードで観測されるトレーニング安定性の低下の原因を理論的に明らかにした。 次に,evalモードとデプロイモードのギャップを埋める新しいチューニングモードを提案する。 提案するチューンモードは、転送学習のためのevalモードと同じくらい安定であり、その計算効率はデプロイモードと密接に一致する。 5ドルのデータセットと12ドルのモデルアーキテクチャにまたがるオブジェクト検出、分類、対角的なサンプル生成に関する広範な実験を通じて、提案したTuneモードは、GPUメモリのフットプリントとトレーニング時間を著しく削減し、効率の良いConvBNブロックをトランスファー学習などに寄与することを示した。 本手法はPyTorch(一般機械学習フレームワーク)とMMCV/MMEngine(コンピュータビジョンフレームワーク)の両方に統合されている。 PyTorchの組み込み機械学習コンパイラのおかげで、効率的なConvBNブロックを楽しむために、実践者は1行のコードが必要だ。

Convolution-BatchNorm (ConvBN) blocks are integral components in various computer vision tasks and other domains. A ConvBN block can operate in three modes: Train, Eval, and Deploy. While the Train mode is indispensable for training models from scratch, the Eval mode is suitable for transfer learning and beyond, and the Deploy mode is designed for the deployment of models. This paper focuses on the trade-off between stability and efficiency in ConvBN blocks: Deploy mode is efficient but suffers from training instability; Eval mode is widely used in transfer learning but lacks efficiency. To solve the dilemma, we theoretically reveal the reason behind the diminished training stability observed in the Deploy mode. Subsequently, we propose a novel Tune mode to bridge the gap between Eval mode and Deploy mode. The proposed Tune mode is as stable as Eval mode for transfer learning, and its computational efficiency closely matches that of the Deploy mode. Through extensive experiments in object detection, classification, and adversarial example generation across $5$ datasets and $12$ model architectures, we demonstrate that the proposed Tune mode retains the performance while significantly reducing GPU memory footprint and training time, thereby contributing efficient ConvBN blocks for transfer learning and beyond. Our method has been integrated into both PyTorch (general machine learning framework) and MMCV/MMEngine (computer vision framework). Practitioners just need one line of code to enjoy our efficient ConvBN blocks thanks to PyTorch's builtin machine learning compilers.
翻訳日:2024-02-29 19:10:48 公開日:2024-02-28
# 共同生成型および予測型デコーダを用いた拡散型音声強調

Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders ( http://arxiv.org/abs/2305.10734v2 )

ライセンス: Link先を確認
Hao Shi, Kazuki Shimada, Masato Hirano, Takashi Shibuya, Yuichiro Koyama, Zhi Zhong, Shusuke Takahashi, Tatsuya Kawahara, Yuki Mitsufuji(参考訳) 拡散に基づく生成音声強調(SE)は近年注目されているが,逆拡散は時間を要する。 1つの解決策は、予測SEシステムによって推定される機能により逆拡散過程を初期化することである。 しかし、パイプライン構造は現在、生成デコーダと予測デコーダの組み合わせについては考慮されていない。 予測デコーダは、予測と拡散に基づく生成SEのさらなる相補性を利用することができる。 本稿では,2つのレベルにまたがる生成的および予測的デコーダを併用した統一システムを提案する。 エンコーダは、生成情報と予測情報の両方を共有符号化レベルで符号化する。 デコードされた特徴レベルでは、生成的および予測的デコーダによって2つのデコードされた特徴を融合する。 特に、2つのseモジュールは初期拡散ステップと最終拡散ステップで融合される:初期融合は拡散プロセスを初期化し、予測seは収束を改善し、最終融合は2つの相補的なse出力を結合してse性能を向上させる。 Voice-Bankデータセットで行った実験は、予測情報を組み込むことで、他のスコアベース拡散SE(StoRMとSGMSE+)と比較して、より高速な復号化とより高いPSSQスコアが得られることを示した。

Diffusion-based generative speech enhancement (SE) has recently received attention, but reverse diffusion remains time-consuming. One solution is to initialize the reverse diffusion process with enhanced features estimated by a predictive SE system. However, the pipeline structure currently does not consider for a combined use of generative and predictive decoders. The predictive decoder allows us to use the further complementarity between predictive and diffusion-based generative SE. In this paper, we propose a unified system that use jointly generative and predictive decoders across two levels. The encoder encodes both generative and predictive information at the shared encoding level. At the decoded feature level, we fuse the two decoded features by generative and predictive decoders. Specifically, the two SE modules are fused in the initial and final diffusion steps: the initial fusion initializes the diffusion process with the predictive SE to improve convergence, and the final fusion combines the two complementary SE outputs to enhance SE performance. Experiments conducted on the Voice-Bank dataset demonstrate that incorporating predictive information leads to faster decoding and higher PESQ scores compared with other score-based diffusion SE (StoRM and SGMSE+).
翻訳日:2024-02-29 19:10:21 公開日:2024-02-28
# 量子貯水池処理による量子状態の諸性質の推定

Estimating many properties of a quantum state via quantum reservoir processing ( http://arxiv.org/abs/2305.06878v3 )

ライセンス: Link先を確認
Yinfei Li, Sanjib Ghosh, Jiangwei Shang, Qihua Xiong, Xiangdong Zhang(参考訳) 量子状態の特性を推定することは、量子情報処理の様々な応用において不可欠である。 後処理の段階で特性を予測するためには、まず量子状態を測定プロトコルで知覚し、取得した情報を格納することが本質である。 本研究では,量子貯水池を用いた任意の量子状態の古典近似を構築するための一般的な枠組みを提案する。 提案手法の重要な利点は,任意の性質を推定するには単一の局所的測定設定のみが必要であるのに対し,従来の手法の多くは指数関数的に計測設定を増加させる必要があることである。 同時に$m$プロパティを見積もるために、古典的な近似のサイズは$\ln m$ とスケールする。 さらに、この推定スキームは非同一の局所次元を持つ高次元システムやハイブリッドシステムにも拡張可能であり、非常に一般的である。 我々は広範な数値シミュレーションで理論的な結果を支持する。

Estimating properties of a quantum state is an indispensable task in various applications of quantum information processing. To predict properties in the post-processing stage, it is inherent to first perceive the quantum state with a measurement protocol and store the information acquired. In this work, we propose a general framework for constructing classical approximations of arbitrary quantum states with quantum reservoirs. A key advantage of our method is that only a single local measurement setting is required for estimating arbitrary properties, while most of the previous methods need exponentially increasing number of measurement settings. To estimate $M$ properties simultaneously, the size of the classical approximation scales as $\ln M$ . Moreover, this estimation scheme is extendable to higher-dimensional systems and hybrid systems with non-identical local dimensions, which makes it exceptionally generic. We support our theoretical findings with extensive numerical simulations.
翻訳日:2024-02-29 19:10:02 公開日:2024-02-28
# PROM: 抽象要約のためのプレトレーニング付きフレーズレベルのコピー機構

PROM: A Phrase-level Copying Mechanism with Pre-training for Abstractive Summarization ( http://arxiv.org/abs/2305.06647v2 )

ライセンス: Link先を確認
Xinbei Ma, Yeyun Gong, Pengcheng He, Hai Zhao, Nan Duan(参考訳) 抽象的な要約における事前学習言語モデルの顕著な成果に基づき、このコピー機構は、事実性、安定性、全体的な性能を改善することで有用であることが証明された。 本研究は,n-gramに対する注意を高める新しいフレーズレベルのコピー機構であるpromを提案し,事前学習によるゼロショット要約に適用する。 PROMは、ソースからコピーできるn-gramのトークンを明示的にピックアップするインジケータ層を追加し、コピー予測の補助損失を算出する。 実証的研究により、PROMはベンチマークの微調整を大幅に改善していることが示された。 ゼロショット設定では、PROMは生コーパスの自己教師付き事前学習に利用され、広範囲の要約データセットに新しい一般的なベースラインを提供する。 さらなる分析により、PROMはより合理的なコピーを行い、忠実に寄与することが示された。

Based on the remarkable achievements of pre-trained language models in abstractive summarization, the copying mechanism has proved helpful by improving the factuality, stability, and overall performance. This work proposes PROM, a new PhRase-level cOpying Mechanism that enhances attention on n-grams, which can be applied to zero-shot summarization with pre-training. PROM adds an indicator layer to explicitly pick up tokens in n-gram that can be copied from the source, and calculates an auxiliary loss for the copying prediction. Empirical studies show that PROM makes significant improvements in fine-tuning on benchmarks. In zero-shot setting, PROM is utilized in the self-supervised pre-training on raw corpora and provides new general baselines on a wide range of summarization datasets. Further analysis shows that PROM performs more reasonable copying and contributes to faithfulness.
翻訳日:2024-02-29 19:09:47 公開日:2024-02-28
# DBAT:クロスリゾリューションパッチを用いた材料セグメンテーション用動的後方アテンション変圧器

DBAT: Dynamic Backward Attention Transformer for Material Segmentation with Cross-Resolution Patches ( http://arxiv.org/abs/2305.03919v2 )

ライセンス: Link先を確認
Yuwen Heng, Srinandan Dasmahapatra, Hansung Kim(参考訳) 濃密な材料セグメンテーションの目的は、各画像画素の材料カテゴリを特定することである。 近年の研究では、画像パッチを用いて材料の特徴を抽出している。 訓練されたネットワークは、セグメンテーション性能を向上させることができるが、それぞれの素材がカバーする画素領域の変動を考慮に入れない固定パッチ解像度を選択する。 本稿では,クロスレゾリューション特徴を集約する動的後方注意変換器(DBAT)を提案する。 dbatは、切り抜いたイメージパッチを入力として入力し、トレーニング中にパッチの解像度を固定するのではなく、各トランスフォーマーステージに隣接するパッチをマージすることで、パッチの解像度を徐々に向上させる。 クロスレゾリューションパッチから抽出した中間機能を明示的に収集し,予測したアテンションマスクと動的にマージする。 実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中でも最高の性能を示している。 複雑なアーキテクチャを持つ他の成功したディープラーニングソリューションと同様に、DBATも解釈可能性の欠如に悩まされている。 この問題に対処するために,本稿ではDBATが利用する特性について検討する。 クロスレゾリューションの特徴と注意重みを解析することにより,DBATが画像パッチからどのように学習するかを解釈する。 さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。 我々はDBATモデルがネットワーク初期化に対してより堅牢であることを示し、他のモデルと比較して変数予測が少ないことを示す。 プロジェクトのコードはhttps://github.com/heng-yuwen/Dynamic-Backward-Attention-Transformerで公開されている。

The objective of dense material segmentation is to identify the material categories for every image pixel. Recent studies adopt image patches to extract material features. Although the trained networks can improve the segmentation performance, their methods choose a fixed patch resolution which fails to take into account the variation in pixel area covered by each material. In this paper, we propose the Dynamic Backward Attention Transformer (DBAT) to aggregate cross-resolution features. The DBAT takes cropped image patches as input and gradually increases the patch resolution by merging adjacent patches at each transformer stage, instead of fixing the patch resolution during training. We explicitly gather the intermediate features extracted from cross-resolution patches and merge them dynamically with predicted attention masks. Experiments show that our DBAT achieves an accuracy of 86.85%, which is the best performance among state-of-the-art real-time models. Like other successful deep learning solutions with complex architectures, the DBAT also suffers from lack of interpretability. To address this problem, this paper examines the properties that the DBAT makes use of. By analysing the cross-resolution features and the attention weights, this paper interprets how the DBAT learns from image patches. We further align features to semantic labels, performing network dissection, to infer that the proposed model can extract material-related features better than other methods. We show that the DBAT model is more robust to network initialisation, and yields fewer variable predictions compared to other models. The project code is available at https://github.com/heng-yuwen/Dynamic-Backward-Attention-Transformer.
翻訳日:2024-02-29 19:09:31 公開日:2024-02-28
# ncart: 表データのための神経分類と回帰木

NCART: Neural Classification and Regression Tree for Tabular Data ( http://arxiv.org/abs/2307.12198v2 )

ライセンス: Link先を確認
Jiaqi Luo, Shixin Xu(参考訳) 深層学習モデルは、決定木の限界に対処し、半教師付き学習、オンライン学習、転帰学習といった貴重な応用を可能にするため、表形式のデータ分析で人気がある。 しかし、これらのディープラーニングアプローチはしばしばトレードオフに遭遇する。 一方、大規模なデータセットや高次元データセットを扱う場合、計算コストが高い場合がある。 一方、解釈性に欠ける可能性があり、小規模なデータセットには適さない可能性がある。 本研究では,これらの課題を克服するために,ニューラル分類と回帰木(NCART)と呼ばれる新しい解釈可能なニューラルネットワークを提案する。 ncartは残差ネットワークの修正版で、完全接続層を複数の可微分可換決定木に置き換える。 アーキテクチャに決定木を統合することで、NCARTはニューラルネットワークのエンドツーエンド機能の恩恵を受けながら、解釈可能性を維持している。 NCARTアーキテクチャの単純さにより、さまざまなサイズのデータセットに適しており、最先端のディープラーニングモデルと比較して計算コストを削減できる。 広範な数値実験により、ncartは既存のディープラーニングモデルよりも優れた性能を示し、木ベースのモデルとの強力な競合として確立された。

Deep learning models have become popular in the analysis of tabular data, as they address the limitations of decision trees and enable valuable applications like semi-supervised learning, online learning, and transfer learning. However, these deep-learning approaches often encounter a trade-off. On one hand, they can be computationally expensive when dealing with large-scale or high-dimensional datasets. On the other hand, they may lack interpretability and may not be suitable for small-scale datasets. In this study, we propose a novel interpretable neural network called Neural Classification and Regression Tree (NCART) to overcome these challenges. NCART is a modified version of Residual Networks that replaces fully-connected layers with multiple differentiable oblivious decision trees. By integrating decision trees into the architecture, NCART maintains its interpretability while benefiting from the end-to-end capabilities of neural networks. The simplicity of the NCART architecture makes it well-suited for datasets of varying sizes and reduces computational costs compared to state-of-the-art deep learning models. Extensive numerical experiments demonstrate the superior performance of NCART compared to existing deep learning models, establishing it as a strong competitor to tree-based models.
翻訳日:2024-02-29 19:04:32 公開日:2024-02-28
# KVN: ステレオポース推定のための微分可能なRANSACによる投票ネットワーク

KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose Estimation ( http://arxiv.org/abs/2307.11543v2 )

ライセンス: Link先を確認
Ivano Donadi and Alberto Pretto(参考訳) オブジェクトポーズ推定は、いくつかのロボティクスや拡張現実アプリケーションで利用される基本的なコンピュータビジョンタスクである。 多くの確立されたアプローチでは、RANSAC (Random sample consensus) を用いて2D-3Dキーポイント対応を予測し、PnP (Perspective-n-Point) アルゴリズムを用いてオブジェクトのポーズを推定する。 RANSACは非微分可能であるため、通信はエンドツーエンドで直接学習することはできない。 本稿では,ステレオ画像に基づく物体ポーズ推定問題に対処する。 一 識別可能なRANSAC層をよく知られた単眼ポーズ推定網に導入すること。 二 複数ビューから情報を融合できる不確実性駆動型多視点pnpソルバの活用 提案手法は,難易度の高い公開ステレオオブジェクトポーズ推定データセットと,透明テーブルウェアデータセット(ttd)と呼ばれるカスタム構築データセットについて評価し,最近の他のアプローチに対して最先端の結果を得る。 さらに,本研究では,RANSAC層が提案手法の精度において重要な役割を担っていることを示す。 本稿では,本手法とTTDデータセットのコードについて述べる。

Object pose estimation is a fundamental computer vision task exploited in several robotics and augmented reality applications. Many established approaches rely on predicting 2D-3D keypoint correspondences using RANSAC (Random sample consensus) and estimating the object pose using the PnP (Perspective-n-Point) algorithm. Being RANSAC non-differentiable, correspondences cannot be directly learned in an end-to-end fashion. In this paper, we address the stereo image-based object pose estimation problem by i) introducing a differentiable RANSAC layer into a well-known monocular pose estimation network; ii) exploiting an uncertainty-driven multi-view PnP solver which can fuse information from multiple views. We evaluate our approach on a challenging public stereo object pose estimation dataset and a custom-built dataset we call Transparent Tableware Dataset (TTD), yielding state-of-the-art results against other recent approaches. Furthermore, in our ablation study, we show that the differentiable RANSAC layer plays a significant role in the accuracy of the proposed method. We release with this paper the code of our method and the TTD dataset.
翻訳日:2024-02-29 19:04:13 公開日:2024-02-28
# 超高速全電子ユニバーサルナノビット

Ultra-Fast All-Electrical Universal Nano-Qubits ( http://arxiv.org/abs/2307.09890v2 )

ライセンス: Link先を確認
David T. S. Perkins, Aires Ferreira(参考訳) 本稿では, 純電気的手法を用いて, 酸化有限グラフェンナノリボン(GNR)系における実空間局在化スピン量子ビットの生成, 制御, 読み出し方法を提案する。 提案するナノ量子ビットは,磁気基板上に配置されたGNRにおけるクーロンの相互作用と相対論的スピン依存相互作用を通じて生じる一重項トリップ状態から形成される。 GNRヘテロ構造に垂直な電場の適用により、近接結合、すなわち量子クエンチが突然変化し、Bloch球上の任意の点にナノキュービットを決定論的に回転させることができる。 これらのスピン量子ビットは、最適な可視性と周波数が10ghzを超えるラビ振動を受けると予測する。 超高速全電法によるグラフェン系量子コンピューティングの実現に向けた新たな道を開く。

We propose how to create, control, and read-out real-space localized spin qubits in proximitized finite graphene nanoribbon (GNR) systems using purely electrical methods. Our proposed nano-qubits are formed of in-gap singlet-triplet states that emerge through the interplay of Coulomb and relativistic spin-dependent interactions in GNRs placed on a magnetic substrate. Application of an electric field perpendicular to the GNR heterostructure leads to a sudden change in the proximity couplings, i.e. a quantum quench, which enables us to deterministically rotate the nano-qubit to any arbitrary point on the Bloch sphere. We predict these spin qubits to undergo Rabi oscillations with optimal visibility and frequencies in excess of 10 GHz. Our findings open up a new avenue for the realization of graphene-based quantum computing with ultra-fast all-electrical methods.
翻訳日:2024-02-29 19:03:54 公開日:2024-02-28
# 変換テンソル低ランク表現による外乱を考慮したロバストデータクラスタリング

Robust Data Clustering with Outliers via Transformed Tensor Low-Rank Representation ( http://arxiv.org/abs/2307.09055v2 )

ライセンス: Link先を確認
Tong Wu(参考訳) 近年、テンソル低ランク表現(TLRR)は、経験的成功と理論的保証によりテンソルデータの回復とクラスタリングの一般的なツールとなっている。 しかし、既存のtlrr法はガウスノイズや粗低ノイズを考慮し、必然的にテンソルデータが異常値やサンプル特有の破損によって汚染されると性能が低下する。 本稿では,t-SVDフレームワークに基づいて,外乱検出とテンソルデータクラスタリングを同時に行う,外乱テンソル低ランク表現(OR-TLRR)法を提案する。 任意の外乱によるテンソル観測では、OR-TLRRは、清潔なデータの行空間を正確に復元し、穏やかな条件下で外乱を検出する性能を保証する。 さらに、データの一部が欠落している場合にケースを扱うためにOR-TLRRの拡張を提案する。 最後に, 合成データおよび実データを用いた広範な実験結果から, 提案手法の有効性を示す。 コードをhttps://github.com/twugithub/2024-AISTATS-ORTLRRでリリースします。

Recently, tensor low-rank representation (TLRR) has become a popular tool for tensor data recovery and clustering, due to its empirical success and theoretical guarantees. However, existing TLRR methods consider Gaussian or gross sparse noise, inevitably leading to performance degradation when the tensor data are contaminated by outliers or sample-specific corruptions. This paper develops an outlier-robust tensor low-rank representation (OR-TLRR) method that provides outlier detection and tensor data clustering simultaneously based on the t-SVD framework. For tensor observations with arbitrary outlier corruptions, OR-TLRR has provable performance guarantee for exactly recovering the row space of clean data and detecting outliers under mild conditions. Moreover, an extension of OR-TLRR is proposed to handle the case when parts of the data are missing. Finally, extensive experimental results on synthetic and real data demonstrate the effectiveness of the proposed algorithms. We release our code at https://github.com/twugithub/2024-AISTATS-ORTLRR.
翻訳日:2024-02-29 19:03:40 公開日:2024-02-28
# シュウィンガーモデルにおけるクォークと中間子の高エネルギー衝突:テンソルネットワークから回路QEDへ

High-Energy Collision of Quarks and Mesons in the Schwinger Model: From Tensor Networks to Circuit QED ( http://arxiv.org/abs/2307.02522v2 )

ライセンス: Link先を確認
Ron Belyansky, Seth Whitsitt, Niklas Mueller, Ali Fahimniya, Elizabeth R. Bennewitz, Zohreh Davoudi, Alexey V. Gorshkov(参考訳) 量子シミュレータにおける高エネルギー粒子衝突の非摂動非平衡ダイナミクスの研究を目的として, 1+1次元の格子量子電磁力学の散乱ダイナミクスについて検討した。 模型のボーソライズドな定式化と熱力学的極限において、一様行列生成状態テンソルネットワークを用いて多粒子波束状態を構築し、時間内に進化させ、衝突後の粒子を検知する。 これにより、異なるエネルギーでモデルが閉じ込められた状態と分解された状態の両方で散乱実験を数値シミュレーションし、クォークと中間子の非弾性生成、中間子崩壊、動的弦の形成と破壊を含む豊富な現象論をもたらす。 弾性および非弾性散乱断面積を時間分解運動量と外部粒子の位置分布とともに求める。 さらに, プラットフォームに固有で, 最小成分と近似を必要とする散乱過程のアナログ回路qed実装を提案し, パーティクルウェーブパック作成と進化のための実用的なスキームを実現する。 本研究は,量子場理論における散乱過程の理解を深める上で,古典的および量子シミュレーションの役割を強調した。

With the aim of studying nonperturbative out-of-equilibrium dynamics of high-energy particle collisions on quantum simulators, we investigate the scattering dynamics of lattice quantum electrodynamics in 1+1 dimensions. Working in the bosonized formulation of the model and in the thermodynamic limit, we use uniform-matrix-product-state tensor networks to construct multi-particle wave-packet states, evolve them in time, and detect outgoing particles post collision. This facilitates the numerical simulation of scattering experiments in both confined and deconfined regimes of the model at different energies, giving rise to rich phenomenology, including inelastic production of quark and meson states, meson disintegration, and dynamical string formation and breaking. We obtain elastic and inelastic scattering cross sections, together with time-resolved momentum and position distributions of the outgoing particles. Furthermore, we propose an analog circuit-QED implementation of the scattering process that is native to the platform, requires minimal ingredients and approximations, and enables practical schemes for particle wave-packet preparation and evolution. This study highlights the role of classical and quantum simulation in enhancing our understanding of scattering processes in quantum field theories in real time.
翻訳日:2024-02-29 19:03:19 公開日:2024-02-28
# カメラISPパイプラインの劣化非依存表現の学習

Learning Degradation-Independent Representations for Camera ISP Pipelines ( http://arxiv.org/abs/2307.00761v2 )

ライセンス: Link先を確認
Yanhui Guo, Fangzhou Luo, Xiaolin Wu(参考訳) 画像信号処理(ISP)パイプラインはデジタルカメラにおいて基本的な役割を担い、生のベイアセンサデータをRGB画像に変換する。 しかし、ISP生成画像は、センサノイズ、分解ノイズ、圧縮アーティファクト、ISOやガンマ値などの誤ったISPハイパーパラメータ設定による悪影響から生じる複合劣化により、通常不完全性に悩まされる。 一般的な意味では、これらのISPの欠陥は劣化と見なすことができる。 isp分解の非常に複雑なメカニズムは、いくつかは未知であるが、画像復元のためのディープニューラルネットワーク(dnn)の一般化能力と下流タスクへの適応性に大きな課題をもたらす。 そこで本研究では, 自己教師付き学習ベースライン表現の洗練を通じて, 劣化非依存表現(DiR)を学習するための新しいDNN手法を提案する。 提案手法は領域一般化能力に優れており,本実験で検証したブラインド画像復元,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな下流タスクにおける最先端の手法よりも優れている。

Image signal processing (ISP) pipeline plays a fundamental role in digital cameras, which converts raw Bayer sensor data to RGB images. However, ISP-generated images usually suffer from imperfections due to the compounded degradations that stem from sensor noises, demosaicing noises, compression artifacts, and possibly adverse effects of erroneous ISP hyperparameter settings such as ISO and gamma values. In a general sense, these ISP imperfections can be considered as degradations. The highly complex mechanisms of ISP degradations, some of which are even unknown, pose great challenges to the generalization capability of deep neural networks (DNN) for image restoration and to their adaptability to downstream tasks. To tackle the issues, we propose a novel DNN approach to learn degradation-independent representations (DiR) through the refinement of a self-supervised learned baseline representation. The proposed DiR learning technique has remarkable domain generalization capability and consequently, it outperforms state-of-the-art methods across various downstream tasks, including blind image restoration, object detection, and instance segmentation, as verified in our experiments.
翻訳日:2024-02-29 19:02:56 公開日:2024-02-28
# 量子センサネットワークにおける検出器センサの初期状態の最適化

Optimizing Initial State of Detector Sensors in Quantum Sensor Networks ( http://arxiv.org/abs/2306.17401v4 )

ライセンス: Link先を確認
Caitao Zhan, Himanshu Gupta, Mark Hillery(参考訳) 本稿では、各センサが「発火」する量子ビット検出器である量子センサのネットワークを考える。 検出器の点火による状態の変化は、ネットワーク内のすべてのセンサーで同じユニタリ演算子によって与えられる。 このような検出器のネットワークは、イベントに最も近いものと思われる発射センサを決定するプロトコルを使用して、イベントのローカライズに使用することができる。 点火センサの判定は、初期状態および使用した測定演算子に応じて誤差の確率を発生させる量子状態判別問題として設定することができる。 本稿では, 火災センサの判定において, 誤差の最小化につながる検出器のネットワークの最適初期大域状態を決定する問題に対処する。 この問題に対して、完全判別が可能な初期状態の存在、すなわちエラーの確率をゼロにするための必要かつ十分な条件を導出する。 この結果から, 初期状態に対する推定最適解を導出し, 予想を証明する経路を提供し, ほぼ最適であると思われる複数の探索ヒューリスティックを用いて, 予測を実証的に検証する。

In this paper, we consider a network of quantum sensors, where each sensor is a qubit detector that "fires," i.e., its state changes when an event occurs close by. The change in state due to the firing of a detector is given by a unitary operator which is the same for all sensors in the network. Such a network of detectors can be used to localize an event, using a protocol to determine the firing sensor which is presumably the one closest to the event. The determination of the firing sensor can be posed as a Quantum State Discrimination problem which incurs a probability of error depending on the initial state and the measurement operator used. In this paper, we address the problem of determining the optimal initial global state of a network of detectors that incur a minimum probability of error in determining the firing sensor. For this problem, we derive necessary and sufficient conditions for the existence of an initial state that allows for perfect discrimination, i.e., zero probability of error. Using insights from this result, we derive a conjectured optimal solution for the initial state, provide a pathway to prove the conjecture, and validate the conjecture empirically using multiple search heuristics that seem to perform near-optimally.
翻訳日:2024-02-29 19:02:35 公開日:2024-02-28
# ドメインシフト下のセマンティックセグメンテーションのための双曲型アクティブラーニング

Hyperbolic Active Learning for Semantic Segmentation under Domain Shift ( http://arxiv.org/abs/2306.11180v4 )

ライセンス: Link先を確認
Luca Franco, Paolo Mandica, Konstantinos Kallidromitis, Devin Guillory, Yu-Teng Li, Trevor Darrell, Fabio Galasso(参考訳) 意味セグメンテーションのためのピクセルレベルアクティブラーニングに双曲ニューラルネットワークアプローチを導入する。 データ統計の分析は、データ不足の指標として、双曲半径の新たな解釈につながる。 HALO(Hyperbolic Active Learning Optimization)では,最も知られていないデータポイントの選択の直感に倣って,先天的な不確実性をデータ取得戦略として活用することを提案する。 広く採用されている予測エントロピーによって補完される双曲半径は、認識論的不確かさを効果的に近似する。 我々は,GTAV$\rightarrow$CityscapesとSynTHIA$\rightarrow$Cityscapesという2つの確立された総合現実的ベンチマークに基づいて,広範な実験分析を行う。 また,Cityscape $\rightarrow$ ACDCで悪天候条件下でのドメイン適応のHALOテストを行い,コンボリューションとアテンションベースのバックボーンのベンチマークを行った。 HALOはドメインシフトの下でセマンティックセグメンテーションを活発に学習するための新しい最先端の学習方法であり、少数のラベル(すなわち1\%)を使いながら教師付きドメイン適応の性能を上回る最初のアクティブな学習手法である。

We introduce a hyperbolic neural network approach to pixel-level active learning for semantic segmentation. Analysis of the data statistics leads to a novel interpretation of the hyperbolic radius as an indicator of data scarcity. In HALO (Hyperbolic Active Learning Optimization), for the first time, we propose the use of epistemic uncertainty as a data acquisition strategy, following the intuition of selecting data points that are the least known. The hyperbolic radius, complemented by the widely-adopted prediction entropy, effectively approximates epistemic uncertainty. We perform extensive experimental analysis based on two established synthetic-to-real benchmarks, i.e. GTAV $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes. Additionally, we test HALO on Cityscape $\rightarrow$ ACDC for domain adaptation under adverse weather conditions, and we benchmark both convolutional and attention-based backbones. HALO sets a new state-of-the-art in active learning for semantic segmentation under domain shift and it is the first active learning approach that surpasses the performance of supervised domain adaptation while using only a small portion of labels (i.e., 1\%).
翻訳日:2024-02-29 19:01:59 公開日:2024-02-28
# MiniLLM: 大規模言語モデルの知識蒸留

MiniLLM: Knowledge Distillation of Large Language Models ( http://arxiv.org/abs/2306.08543v2 )

ライセンス: Link先を確認
Yuxian Gu, Li Dong, Furu Wei, Minlie Huang(参考訳) 知識蒸留 (KD) は, 大規模言語モデル (LLM) の高い計算需要を減らすための有望な手法である。 しかしながら、従来のKDメソッドは、主にホワイトボックス分類モデルや、ChatGPTのようなブラックボックスモデルAPIを模倣する小さなモデルの訓練に適用される。 ホワイトボックスLSMの知識を小さなモデルに効果的に蒸留する方法はまだ未発見であり、オープンソースLSMの繁栄によりより重要になる。 本研究では,LLMをより小さな言語モデルに蒸留するKD手法を提案する。 我々はまず,教師分布の低確率領域を過大評価しないように,生成言語モデル上でKDに適した逆KLDを用いて,標準KDアプローチにおけるKLL(Kulback-Leibler divergence)目標のフォワードを置き換える。 そして、この目的を学習するための効果的な最適化アプローチを導出する。 学生モデルはMiniLLMと名付けられた。 命令追従設定における広範囲な実験により、MiniLLMはベースラインよりも高い全体的な品質、低い露出バイアス、キャリブレーション、高い長文生成性能でより正確な応答を生成することが示された。 提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリーに対してスケーラブルである。 コード、データ、モデルチェックポイントは \url{https://github.com/microsoft/LMOps/tree/main/minillm} で確認できます。

Knowledge Distillation (KD) is a promising technique for reducing the high computational demand of large language models (LLMs). However, previous KD methods are primarily applied to white-box classification models or training small models to imitate black-box model APIs like ChatGPT. How to effectively distill the knowledge of white-box LLMs into small models is still under-explored, which becomes more important with the prosperity of open-source LLMs. In this work, we propose a KD approach that distills LLMs into smaller language models. We first replace the forward Kullback-Leibler divergence (KLD) objective in the standard KD approaches with reverse KLD, which is more suitable for KD on generative language models, to prevent the student model from overestimating the low-probability regions of the teacher distribution. Then, we derive an effective optimization approach to learn this objective. The student models are named MiniLLM. Extensive experiments in the instruction-following setting show that MiniLLM generates more precise responses with higher overall quality, lower exposure bias, better calibration, and higher long-text generation performance than the baselines. Our method is scalable for different model families with 120M to 13B parameters. Our code, data, and model checkpoints can be found in \url{https://github.com/microsoft/LMOps/tree/main/minillm}.
翻訳日:2024-02-29 19:01:10 公開日:2024-02-28
# 大規模言語モデルの調査結果に対する質問

Questioning the Survey Responses of Large Language Models ( http://arxiv.org/abs/2306.07951v3 )

ライセンス: Link先を確認
Ricardo Dominguez-Olmedo, Moritz Hardt, Celestine Mendler-D\"unner(参考訳) 大規模言語モデルの能力向上に伴い、研究者はこれらのモデルに関するあらゆる種類の調査を行い、その反応によって表される人口を調査している。 本研究では,アメリカ合衆国国勢調査局が実施したアメリカ社会調査に基づいて,言語モデルによる調査回答を批判的に検討し,どのような人口の忠実な表現を導出するかを検討する。 まず、モデルの応答は、バイアスの順序付けとラベル付けによって制御され、体系的なバイアスのために調整した後も持続しないモデル間のバリエーションに繋がる。 第二に、モデルの反応にはエントロピーのバリエーションや、典型的にはヒトの集団に見られる統計信号が含まれていない。 その結果、バイナリ分類器は、米国国勢調査の反応とモデル生成データをほぼ完全に区別することができる。 同時に、モデルのトレーニングデータやトレーニング戦略に関係なく、サブグループのエントロピーから、異なるサブグループとモデルの相対的なアライメントを予測することができる。 本研究は, モデルによる調査回答を, 人口と同等に扱うことへの注意を促した。

As large language models increase in capability, researchers have started to conduct surveys of all kinds on these models in order to investigate the population represented by their responses. In this work, we critically examine language models' survey responses on the basis of the well-established American Community Survey by the U.S. Census Bureau and investigate whether they elicit a faithful representations of any human population. Using a de-facto standard multiple-choice prompting technique and evaluating 39 different language models using systematic experiments, we establish two dominant patterns: First, models' responses are governed by ordering and labeling biases, leading to variations across models that do not persist after adjusting for systematic biases. Second, models' responses do not contain the entropy variations and statistical signals typically found in human populations. As a result, a binary classifier can almost perfectly differentiate model-generated data from the responses of the U.S. census. At the same time, models' relative alignment with different demographic subgroups can be predicted from the subgroups' entropy, irrespective of the model's training data or training strategy. Taken together, our findings suggest caution in treating models' survey responses as equivalent to those of human populations.
翻訳日:2024-02-29 19:00:08 公開日:2024-02-28
# 翻訳対称データ学習のための量子畳み込みニューラルネットワークの分割と並列化

Splitting and Parallelizing of Quantum Convolutional Neural Networks for Learning Translationally Symmetric Data ( http://arxiv.org/abs/2306.07331v3 )

ライセンス: Link先を確認
Koki Chinzei, Quoc Hoan Tran, Kazunori Maruyama, Hirotaka Oshima, Shintaro Sato(参考訳) 量子畳み込みニューラルネットワーク(QCNN)は量子機械学習(QML)モデルであり、古典的に難解な問題において量子優位性を達成することが期待されている。 しかし、QCNNはデータ学習に大量の測定値を必要とし、大規模問題における実用的応用を制限している。 この要求を緩和するために、量子データの事前知識を利用して効率的なモデルの設計を行う分割並列QCNN(sp-QCNN)と呼ばれる新しいアーキテクチャを提案する。 このアーキテクチャは、幾何学的量子機械学習から着想を得て、物理学や量子コンピューティング科学でよく見られる翻訳対称量子データをターゲットにしている。 量子回路を翻訳対称性に基づいて分割することにより、sp-QCNNはキュービット数を増やすことなく従来のQCNNを実質的に並列化することができ、キュービット数の順序で測定効率を向上させることができる。 本手法の有効性を示すために,sp-QCNNを量子位相認識タスクに適用し,従来のQCNNと同等の分類精度を達成でき,必要な測定資源を大幅に削減できることを示す。 測定効率が高いため、sp-qcnnは損失関数の勾配推定における統計的誤差を軽減し、学習プロセスを高速化することができる。 これらの結果は、QMLモデルの効率的な設計に事前のデータ知識を組み込む新たな可能性を開き、実用的な量子的優位性をもたらす。

The quantum convolutional neural network (QCNN) is a promising quantum machine learning (QML) model that is expected to achieve quantum advantages in classically intractable problems. However, the QCNN requires a large number of measurements for data learning, limiting its practical applications in large-scale problems. To alleviate this requirement, we propose a novel architecture called split-parallelizing QCNN (sp-QCNN), which exploits the prior knowledge of quantum data to design an efficient model. This architecture draws inspiration from geometric quantum machine learning and targets translationally symmetric quantum data commonly encountered in physics and quantum computing science. By splitting the quantum circuit based on translational symmetry, the sp-QCNN can substantially parallelize the conventional QCNN without increasing the number of qubits and improve the measurement efficiency by an order of the number of qubits. To demonstrate its effectiveness, we apply the sp-QCNN to a quantum phase recognition task and show that it can achieve comparable classification accuracy to the conventional QCNN while considerably reducing the measurement resources required. Due to its high measurement efficiency, the sp-QCNN can mitigate statistical errors in estimating the gradient of the loss function, thereby accelerating the learning process. These results open up new possibilities for incorporating the prior data knowledge into the efficient design of QML models, leading to practical quantum advantages.
翻訳日:2024-02-29 18:59:46 公開日:2024-02-28
# 非線形量子回帰による対物推論の促進

Advancing Counterfactual Inference through Nonlinear Quantile Regression ( http://arxiv.org/abs/2306.05751v3 )

ライセンス: Link先を確認
Shaoan Xie, Biwei Huang, Bin Gu, Tongliang Liu, Kun Zhang(参考訳) 因果的影響を理解し、利用するためには、反事実的な「what if」問合せに対処する能力が不可欠である。 伝統的な反事実推論は、パールの反事実的枠組みの下では、通常、構造的因果モデルへのアクセスまたは推定に依存する。 しかし、実際には、この因果モデルはしばしば未知であり、識別が困難である。 そこで本研究では,事前定義された因果モデルや条件分布の直接推定を必要とせず,観測データと定性的因果構造のみに基づいて,信頼性の高い反事実推論を行うことを目的としている。 この目的のために,反事実推論と量的回帰の新たな関係を確立し,反事実的推論を拡張的量的回帰問題として再構成できることを示す。 そこで本研究では,二段階最適化手法を用いてニューラルネットワークを用いて効率的かつ効果的な反事実推論を行うための実践的フレームワークを提案する。 提案手法は,非知覚データに対する推定反実結果の一般化能力を高め,一般化誤差の上限を与える。 さらに、実証的な証拠は、既存の方法と比較して、その優れた統計効率を示す。 複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。

The capacity to address counterfactual "what if" inquiries is crucial for understanding and making use of causal influences. Traditional counterfactual inference, under Pearls' counterfactual framework, typically depends on having access to or estimating a structural causal model. Yet, in practice, this causal model is often unknown and might be challenging to identify. Hence, this paper aims to perform reliable counterfactual inference based solely on observational data and the (learned) qualitative causal structure, without necessitating a predefined causal model or even direct estimations of conditional distributions. To this end, we establish a novel connection between counterfactual inference and quantile regression and show that counterfactual inference can be reframed as an extended quantile regression problem. Building on this insight, we propose a practical framework for efficient and effective counterfactual inference implemented with neural networks under a bi-level optimization scheme. The proposed approach enhances the capacity to generalize estimated counterfactual outcomes to unseen data, thereby providing an upper bound on the generalization error. Furthermore, empirical evidence demonstrates its superior statistical efficiency in comparison to existing methods. Empirical results conducted on multiple datasets offer compelling support for our theoretical assertions.
翻訳日:2024-02-29 18:59:21 公開日:2024-02-28
# CoCA:長期窓拡張用変圧器におけるコリニア拘束注意を用いたハウジング位置埋め込み

CoCA: Fusing Position Embedding with Collinear Constrained Attention in Transformers for Long Context Window Extending ( http://arxiv.org/abs/2309.08646v3 )

ライセンス: Link先を確認
Shiyi Zhu, Jing Ye, Wei Jiang, Siqiao Xue, Qi Zhang, Yifan Wu, Jianguo Li(参考訳) 自己注意と位置埋め込みは、トランスフォーマーベースのLarge Language Models (LLM) における2つの重要なモジュールである。 しかしながら、それら間の潜在的な関係は、特に長期のコンテキストウィンドウの拡張について、十分に研究されていない。 実際に,ロータリー・ポジション・エンベディング(RoPE)とバニラ・セルフアテンションとの間には,長期のコンテキスト外挿を損なう異常な行動が存在する。 この問題に対処するために,新しい注意機構であるCoCA(Collinear Constrained Attention)を提案する。 具体的には、RoPEと自己注意をシームレスに統合するために、$Q$と$K$の間のコリニア制約を強制する。 計算量や空間の複雑さは最小だが、この統合は長いコンテキストウィンドウの補間能力を大幅に向上させる。 我々は最適化された実装を提供し、既存のトランスフォーマーベースのモデルに代わります。 大規模な実験により、CoCAはコンテキストウィンドウの拡張において極めてよく機能することが示された。 コンテキスト長512でトレーニングされたCoCAベースのGPTモデルは、微調整なしで、コンテキストウィンドウを32K (60$\times$)までシームレスに拡張することができる。 さらに,LLaMA-7BにCOCAを投下することにより,2Kトレーニング長以内で最大32Kの補間が可能となる。 私たちのコードは、https://github.com/codefuse-ai/Collinear-Constrained-Attentionで公開されています。

Self-attention and position embedding are two key modules in transformer-based Large Language Models (LLMs). However, the potential relationship between them is far from well studied, especially for long context window extending. In fact, anomalous behaviors harming long context extrapolation exist between Rotary Position Embedding (RoPE) and vanilla self-attention unveiled by our work. To address this issue, we propose a novel attention mechanism, CoCA (Collinear Constrained Attention). Specifically, we enforce a collinear constraint between $Q$ and $K$ to seamlessly integrate RoPE and self-attention. While only adding minimal computational and spatial complexity, this integration significantly enhances long context window extrapolation ability. We provide an optimized implementation, making it a drop-in replacement for any existing transformer-based models. Extensive experiments show that CoCA performs extraordinarily well in extending context windows. A CoCA-based GPT model, trained with a context length of 512, can seamlessly extend the context window up to 32K (60$\times$), without any fine-tuning. Additionally, by dropping CoCA in LLaMA-7B, we achieve extrapolation up to 32K within only 2K training length. Our code is publicly available at: https://github.com/codefuse-ai/Collinear-Constrained-Attention
翻訳日:2024-02-29 18:54:30 公開日:2024-02-28
# 累積的知識プロセスにおけるエラーのロバストな評価

Errors are Robustly Tamed in Cumulative Knowledge Processes ( http://arxiv.org/abs/2309.05638v2 )

ライセンス: Link先を確認
Anna Brandenberger, Cassandra Marcussen, Elchanan Mossel, Madhu Sudan(参考訳) 本研究では,新しい知識単位の妥当性が導出の正確性とそれに依存する単位の妥当性の両方に依存する社会的な知識蓄積過程について検討する。 この設定における根本的な疑問は、もし新しい導出の一定割合が間違っているなら、社会における一定の知識の一定割合が有効であることを保証するために、一定割合を投資できる。 Ben-Eliezer, Mikulincer, Mossel, Sudan (ITCS 2023) はそのような質問を分析するための具体的な確率モデルを導入し、この問題に対する肯定的な回答を示した。 しかし彼らの研究は、各新しいユニットが1つの既存のユニットに依存する単純なケースに焦点を当てており、ユニットは$\textit{preferential attachment rule}$に従ってアタッチされる。 本研究は, 累積的知識プロセスの一般的なファミリーについて考察するものであり, 新しいユニットは, 様々なアタッチメント機構に従ってアタッチメントし, 既存の複数のユニットに依存することができる。 また、逆ノードの挿入の(ランダムな)分数を許容する。 これらのモデルの$\textit{all}$に対して、多くの単位が依存する単位の有界数をチェックするための単純なヒューリスティックに従う限り、全てのエラーは最終的に排除される。 以上の結果から,新たな単位が導出・提示される際には,十分な注意を要するが,コストがかからない限り,知識単位の大規模な相互依存コレクションの品質維持が可能であることが示唆された。

We study processes of societal knowledge accumulation, where the validity of a new unit of knowledge depends both on the correctness of its derivation and on the validity of the units it depends on. A fundamental question in this setting is: If a constant fraction of the new derivations is wrong, can investing a constant fraction, bounded away from one, of effort ensure that a constant fraction of knowledge in society is valid? Ben-Eliezer, Mikulincer, Mossel, and Sudan (ITCS 2023) introduced a concrete probabilistic model to analyze such questions and showed an affirmative answer to this question. Their study, however, focuses on the simple case where each new unit depends on just one existing unit, and units attach according to a $\textit{preferential attachment rule}$. In this work, we consider much more general families of cumulative knowledge processes, where new units may attach according to varied attachment mechanisms and depend on multiple existing units. We also allow a (random) fraction of insertions of adversarial nodes. We give a robust affirmative answer to the above question by showing that for $\textit{all}$ of these models, as long as many of the units follow simple heuristics for checking a bounded number of units they depend on, all errors will be eventually eliminated. Our results indicate that preserving the quality of large interdependent collections of units of knowledge is feasible, as long as careful but not too costly checks are performed when new units are derived/deposited.
翻訳日:2024-02-29 18:54:09 公開日:2024-02-28
# 視覚モデルと言語モデルにおける句の接地とタスクパフォーマンスに関する共同研究

A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models ( http://arxiv.org/abs/2309.02691v2 )

ライセンス: Link先を確認
Noriyuki Kojima, Hadar Averbuch-Elor, Yoav Artzi(参考訳) 視覚的文脈における自然言語の推論を必要とするタスクの鍵は、言葉とフレーズを画像領域に接地することである。 しかし、この基底を現代のモデルで観察することは複雑であり、たとえそのタスクが一般化に導電性のある方法で対処されたとしても、一般に行われることが予想される。 本稿では,タスク性能と句のグラウンド化を共同で研究する枠組みを提案し,両者の関係を研究するための3つのベンチマークを提案する。 この結果から,現代モデルでは,句の理解能力と課題解決能力の矛盾が示されている。 本稿では,地中フラージングアノテーションのブルートフォーストレーニングによってこれに対処する方法を示し,その生成するダイナミクスを分析する。 コードと利用はhttps://github.com/lil-lab/phrase_grounding.com/。

Key to tasks that require reasoning about natural language in visual contexts is grounding words and phrases to image regions. However, observing this grounding in contemporary models is complex, even if it is generally expected to take place if the task is addressed in a way that is conductive to generalization. We propose a framework to jointly study task performance and phrase grounding, and propose three benchmarks to study the relation between the two. Our results show that contemporary models demonstrate inconsistency between their ability to ground phrases and solve tasks. We show how this can be addressed through brute-force training on ground phrasing annotations, and analyze the dynamics it creates. Code and at available at https://github.com/lil-lab/phrase_grounding.
翻訳日:2024-02-29 18:53:40 公開日:2024-02-28
# RigNet++: 深度補完のためのセマンティック支援反復画像ガイドネットワーク

RigNet++: Semantic Assisted Repetitive Image Guided Network for Depth Completion ( http://arxiv.org/abs/2309.00655v4 )

ライセンス: Link先を確認
Zhiqiang Yan and Xiang Li and Le Hui and Zhenyu Zhang and Jun Li and Jian Yang(参考訳) 深度補完は、この作業を容易にするために色画像がしばしば使用される、疎密な深度マップを回収することを目的としている。 最近の深度法は主に画像誘導学習フレームワークに焦点をあてている。 しかし、画像のぼやけた指示と奥行きの曖昧な構造は、それでもその性能を損なう。 これらの課題に取り組むために,画像誘導ネットワークにおける繰り返し設計を探索し,深度値の段階的かつ十分に復元する。 具体的には、画像誘導分岐と深度生成分岐の両方に繰り返しを具現化する。 前者のブランチでは、複雑な環境の識別画像の特徴を抽出する高密度反復型時間ガラスネットワーク(DRHN)を設計し、深度予測のための強力な文脈的指示を提供する。 後者では,動的畳み込みに基づく反復的誘導(rg)モジュールを提案し,高頻度構造を漸進的にモデル化しながら複雑性を低減できる効率的な畳み込み分解を提案する。 さらに,semantic guidanceブランチでは,よく知られた大規模視覚モデルであるsegment anything(sam)を用いて,rgにsemantic priorを提供する。 さらに,領域認識型空間伝搬ネットワーク(RASPN)を提案する。 最後に,時間飛行(TOF)センサとスマートフォンのカラーカメラによって取得される深度完了タスクのためのTOFDCと呼ばれる新しいデータセットを収集する。 KITTI,NYUv2,Matterport3D,3D60,VKITTI,TOFDC上での最先端性能を実証した。

Depth completion aims to recover dense depth maps from sparse ones, where color images are often used to facilitate this task. Recent depth methods primarily focus on image guided learning frameworks. However, blurry guidance in the image and unclear structure in the depth still impede their performance. To tackle these challenges, we explore a repetitive design in our image guided network to gradually and sufficiently recover depth values. Specifically, the repetition is embodied in both the image guidance branch and depth generation branch. In the former branch, we design a dense repetitive hourglass network (DRHN) to extract discriminative image features of complex environments, which can provide powerful contextual instruction for depth prediction. In the latter branch, we present a repetitive guidance (RG) module based on dynamic convolution, in which an efficient convolution factorization is proposed to reduce the complexity while modeling high-frequency structures progressively. Furthermore, in the semantic guidance branch, we utilize the well-known large vision model, i.e., segment anything (SAM), to supply RG with semantic prior. In addition, we propose a region-aware spatial propagation network (RASPN) for further depth refinement based on the semantic prior constraint. Finally, we collect a new dataset termed TOFDC for the depth completion task, which is acquired by the time-of-flight (TOF) sensor and the color camera on smartphones. Extensive experiments demonstrate that our method achieves state-of-the-art performance on KITTI, NYUv2, Matterport3D, 3D60, VKITTI, and our TOFDC.
翻訳日:2024-02-29 18:53:27 公開日:2024-02-28
# CL-MAE:カリキュラム学習型マスクオートエンコーダ

CL-MAE: Curriculum-Learned Masked Autoencoders ( http://arxiv.org/abs/2308.16572v3 )

ライセンス: Link先を確認
Neelu Madan, Nicolae-Catalin Ristea, Kamal Nasrollahi, Thomas B. Moeslund, Radu Tudor Ionescu(参考訳) マスク付き画像モデリングは、複数の下流タスクで効果的に一般化できる堅牢な表現を生成するための強力なプリテキストタスクとして実証されている。 通常、このアプローチは入力画像のパッチ(トークン)をランダムにマスキングするが、トレーニング中にマスク戦略は変わらない。 本稿では,マスキング戦略をアップデートし,自己監督型再構築作業の複雑さを継続的に高めるカリキュラム学習手法を提案する。 タスクの複雑さを徐々に増大させることで、モデルはより高度で伝達可能な表現を学ぶことができると推測する。 これを容易にするために,異なる複雑なマスクを生成する能力を有する新しい学習可能なマスキングモジュールを導入し,提案モジュールをマスク付きオートエンコーダ(MAE)に統合する。 我々のモジュールは、トレーニング中の動作を調整しながら、MAEと共同でトレーニングされ、パートナーからMAEへ(同じ復元損失を最適化)、敵へ(反対損失を最適化)し、中立状態を通過する。 これらの挙動間の遷移は滑らかであり、マスキングモジュールの再構成損失に乗じる因子によって制御される。 得られたトレーニング手順は、難易度の高いカリキュラムを生成する。 我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。 5つの下流タスクにおける実証的な結果から,カリキュラム学習が自己監督型オートエンコーダに有効であることを示す。 コードはhttps://github.com/ristea/cl-maeでリリースします。

Masked image modeling has been demonstrated as a powerful pretext task for generating robust representations that can be effectively generalized across multiple downstream tasks. Typically, this approach involves randomly masking patches (tokens) in input images, with the masking strategy remaining unchanged during training. In this paper, we propose a curriculum learning approach that updates the masking strategy to continually increase the complexity of the self-supervised reconstruction task. We conjecture that, by gradually increasing the task complexity, the model can learn more sophisticated and transferable representations. To facilitate this, we introduce a novel learnable masking module that possesses the capability to generate masks of different complexities, and integrate the proposed module into masked autoencoders (MAE). Our module is jointly trained with the MAE, while adjusting its behavior during training, transitioning from a partner to the MAE (optimizing the same reconstruction loss) to an adversary (optimizing the opposite loss), while passing through a neutral state. The transition between these behaviors is smooth, being regulated by a factor that is multiplied with the reconstruction loss of the masking module. The resulting training procedure generates an easy-to-hard curriculum. We train our Curriculum-Learned Masked Autoencoder (CL-MAE) on ImageNet and show that it exhibits superior representation learning capabilities compared to MAE. The empirical results on five downstream tasks confirm our conjecture, demonstrating that curriculum learning can be successfully used to self-supervise masked autoencoders. We release our code at https://github.com/ristea/cl-mae.
翻訳日:2024-02-29 18:53:00 公開日:2024-02-28
# 量子電池の遠隔充電と劣化抑制

Remote Charging and Degradation Suppression for the Quantum Battery ( http://arxiv.org/abs/2308.13784v2 )

ライセンス: Link先を確認
Wan-Lu Song, Hai-Bin Liu, Bin Zhou, Wan-Li Yang, and Jun-Hong An(参考訳) 量子バッテリ(qb)は、量子効果を利用してエネルギーを貯蔵し供給する。 しかし、この分野には2つの課題がある。 一つは環境誘起脱コヒーレンスがQBのエネルギー損失と老化を引き起こすことであり、もう一つは充電器-QB結合強度の低下と距離の増大によりQBの充電が非効率になる。 本稿では、QBと充電器を矩形中空金属導波路に結合させることにより、遠隔充電を実現するQB方式を提案する。 導波路中のqb,帯電器,電磁環境からなる全系のエネルギースペクトルに2つの境界状態が形成される限り,理想的な帯電を実現することが判明した。 脱コヒーレンスの構造的役割を用いて、我々のQBは老化に免疫を持つ。 さらに、直接の充電器とqbのやりとりを使わずに、長距離ワイヤレス充電の方式で動作します。 この2つの課題を効果的に克服し, 貯留層工学によるqbの実践的実現に向けた洞察に富んだガイドラインを提供する。

The quantum battery (QB) makes use of quantum effects to store and supply energy, which may outperform its classical counterpart. However, there are two challenges in this field. One is that the environment-induced decoherence causes the energy loss and aging of the QB, the other is that the decreasing of the charger-QB coupling strength with increasing their distance makes the charging of the QB become inefficient. Here, we propose a QB scheme to realize a remote charging via coupling the QB and the charger to a rectangular hollow metal waveguide. It is found that an ideal charging is realized as long as two bound states are formed in the energy spectrum of the total system consisting of the QB, the charger, and the electromagnetic environment in the waveguide. Using the constructive role of the decoherence, our QB is immune to the aging. Additionally, without resorting to the direct charger-QB interaction, our scheme works in a way of long-range and wireless-like charging. Effectively overcoming the two challenges, our result supplies an insightful guideline to the practical realization of the QB by reservoir engineering.
翻訳日:2024-02-29 18:52:31 公開日:2024-02-28
# 計算集約的目標確率分布を用いた正規化流の訓練

Training normalizing flows with computationally intensive target probability distributions ( http://arxiv.org/abs/2308.13294v2 )

ライセンス: Link先を確認
Piotr Bialas, Piotr Korcyl, Tomasz Stebel(参考訳) モンテカルロシミュレーションの文脈において、特に正規化フローと呼ばれる機械学習技術は、ターゲット確率分布を効果的に近似できるため、ますます普及している。 格子場理論(LFT)の場合、標的分布は作用の指数関数によって与えられる。 リパラメトリゼーション(reparametrization)トリック(reparametrization trick)に基づいた共通損失関数の勾配推定器は、フィールドに対する作用の微分の計算を必要とする。 これは、qcdにおけるフェルミオン作用のような複雑で非局所的な動作に対する重要な計算コストを示すことができる。 本稿では,この問題を回避する強化アルゴリズムに基づく流れの正規化のための推定器を提案する。 ウィルソンフェルミオンを臨界値に持つ2次元シュウィンガーモデルに適用し、壁時計時間の観点からは最大10倍高速であるとともに、再パラメータ化トリック推定器よりも最大30-%少ないメモリを必要とすることを示した。 また、より数値的に安定であり、単精度計算と半フロートテンソルコアの使用が可能である。 我々は,これらの改良の原点を詳細に分析する。 対象確率分布が計算集約的な場合において、これらの利点はLFTの領域外にも現れると信じている。

Machine learning techniques, in particular the so-called normalizing flows, are becoming increasingly popular in the context of Monte Carlo simulations as they can effectively approximate target probability distributions. In the case of lattice field theories (LFT) the target distribution is given by the exponential of the action. The common loss function's gradient estimator based on the "reparametrization trick" requires the calculation of the derivative of the action with respect to the fields. This can present a significant computational cost for complicated, non-local actions like e.g. fermionic action in QCD. In this contribution, we propose an estimator for normalizing flows based on the REINFORCE algorithm that avoids this issue. We apply it to two dimensional Schwinger model with Wilson fermions at criticality and show that it is up to ten times faster in terms of the wall-clock time as well as requiring up to $30\%$ less memory than the reparameterization trick estimator. It is also more numerically stable allowing for single precision calculations and the use of half-float tensor cores. We present an in-depth analysis of the origins of those improvements. We believe that these benefits will appear also outside the realm of the LFT, in each case where the target probability distribution is computationally intensive.
翻訳日:2024-02-29 18:52:10 公開日:2024-02-28
# 局在量子場理論からの粒子検出器

Particle Detectors from Localized Quantum Field Theories ( http://arxiv.org/abs/2308.11698v2 )

ライセンス: Link先を確認
T. Rick Perche, Jos\'e Polo-G\'omez, Bruno de S. L. Torres, Eduardo Mart\'in-Mart\'inez(参考訳) 量子場理論における局所化プローブに対する完全相対論的モデルを提案する。 さらに、自由量子場と相互作用する局所量子場理論から粒子検出器モデルを得ることが可能であることを示す。 特に、局所化された場の到達不能な自由度をトレースすると、粒子検出器モデルが得られる。 これにより、粒子検出器モデル、すなわち、時空の拡張領域における自由場理論と結合する量子自由度が生じる。 さらに, 従来の粒子検出器モデルと完全相対論的局所場との予測は摂動理論の指導次数と完全に一致することを示した。

We present a fully relativistic model for localized probes in quantum field theory. Furthermore, we show that it is possible to obtain particle detector models from localized quantum field theories that interact with a free quantum field. In particular, a particle detector model is obtained when one traces out over inaccessible degrees of freedom of the localized field. This gives rise to a particle detector model, that is, a quantum degree of freedom that couples to a free field theory in an extended region of spacetime. Moreover, we show that the predictions of traditional particle detector models and fully relativistic localized fields completely coincide to leading order in perturbation theory.
翻訳日:2024-02-29 18:51:49 公開日:2024-02-28
# 非小細胞肺癌(NSCLC)患者の生存予測におけるクロスモーダルアテンションに基づくマルチモーダルフュージョン

Cross-modality Attention-based Multimodal Fusion for Non-small Cell Lung Cancer (NSCLC) Patient Survival Prediction ( http://arxiv.org/abs/2308.09831v2 )

ライセンス: Link先を確認
Ruining Deng, Nazim Shaikh, Gareth Shannon, Yao Nie(参考訳) がん予後と生存予後予測は治療反応推定および様々な治療群への階層化に不可欠である。 癌予後に関連する医療領域は、病理画像データやゲノム情報などの非画像データなど、多種多様である。 これまでマルチモーダル学習は、同一対象の異なるモーダルから情報を抽出し集約することにより、臨床予測モデルの性能を高める可能性を示してきた。 このアプローチは単一のモダリティ学習を上回り、多くの医学的応用においてコンピュータ支援診断と予後を改善する。 本研究は,非小細胞肺癌(NSCLC)における患者生存予測のためのモダリティ特異的知識の統合を目的とした,モダリティ横断型マルチモーダル融合パイプラインを提案する。 異なるモダリティから特徴を結合またはまとめる代わりに、マルチモダリティ特徴を取り入れる際に、交叉モダリティ関係を持つ特徴融合における各モダリティの重要性を計測する。 組織画像データとRNA-seqデータのみを用いてc-indexを0.5772と0.5885で達成した単一モダリティと比較して, 本実験ではc-index 0.6587が得られた。

Cancer prognosis and survival outcome predictions are crucial for therapeutic response estimation and for stratifying patients into various treatment groups. Medical domains concerned with cancer prognosis are abundant with multiple modalities, including pathological image data and non-image data such as genomic information. To date, multimodal learning has shown potential to enhance clinical prediction model performance by extracting and aggregating information from different modalities of the same subject. This approach could outperform single modality learning, thus improving computer-aided diagnosis and prognosis in numerous medical applications. In this work, we propose a cross-modality attention-based multimodal fusion pipeline designed to integrate modality-specific knowledge for patient survival prediction in non-small cell lung cancer (NSCLC). Instead of merely concatenating or summing up the features from different modalities, our method gauges the importance of each modality for feature fusion with cross-modality relationship when infusing the multimodal features. Compared with single modality, which achieved c-index of 0.5772 and 0.5885 using solely tissue image data or RNA-seq data, respectively, the proposed fusion approach achieved c-index 0.6587 in our experiment, showcasing the capability of assimilating modality-specific knowledge from varied modalities.
翻訳日:2024-02-29 18:51:41 公開日:2024-02-28
# 言語モデルとしての中国語スペル訂正

Chinese Spelling Correction as Rephrasing Language Model ( http://arxiv.org/abs/2308.08796v3 )

ライセンス: Link先を確認
Linfeng Liu, Hongqiu Wu, Hai Zhao(参考訳) 本稿では,中国語の綴り誤りの検出と訂正を目的とした中国語綴り訂正(csc)について述べる。 現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。 しかし、ある文字を別の文字にタグ付けする過程において、訂正が過度に条件付けされているという重大な欠陥に注意する。 これは人間の考え方とは逆で、個人は前に記憶されたエラーパターンにのみ依存するのではなく、その意味論に基づいて完全な文を言い換える。 このような直感的学習プロセスは、機械スペル訂正の一般化可能性と伝達可能性のボトルネックをもたらす。 そこで本研究では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。 この新たなトレーニングパラダイムは、微調整およびゼロショットのCSCベンチマークにまたがる、最先端の新たな結果を達成する。 また,CSCが他のタスクと共同で訓練された場合,変換可能な言語表現も学習する。

This paper studies Chinese Spelling Correction (CSC), which aims to detect and correct the potential spelling errors in a given sentence. Current state-of-the-art methods regard CSC as a sequence tagging task and fine-tune BERT-based models on sentence pairs. However, we note a critical flaw in the process of tagging one character to another, that the correction is excessively conditioned on the error. This is opposite from human mindset, where individuals rephrase the complete sentence based on its semantics, rather than solely on the error patterns memorized before. Such a counter-intuitive learning process results in the bottleneck of generalizability and transferability of machine spelling correction. To address this, we propose Rephrasing Language Model (ReLM), where the model is trained to rephrase the entire sentence by infilling additional slots, instead of character-to-character tagging. This novel training paradigm achieves the new state-of-the-art results across fine-tuned and zero-shot CSC benchmarks, outperforming previous counterparts by a large margin. Our method also learns transferable language representation when CSC is jointly trained with other tasks.
翻訳日:2024-02-29 18:51:17 公開日:2024-02-28
# ソーシャルネットワークにおける非対称オピニオン分極の量子力学的モデリング

Quantum-Mechanical Modelling of Asymmetric Opinion Polarisation in Social Networks ( http://arxiv.org/abs/2308.02132v2 )

ライセンス: Link先を確認
Ivan S. Maksymov and Ganna Pogrebna(参考訳) 本研究では,人間の信念を物理系の量子化エネルギーレベルとして表す量子力学モデルを提案する。 このモデルは、意見の過激化の非対称性を示す幅広い実験および実世界のデータを再現し、意見のダイナミクスに関する新しい視点を基礎としている。 特に、このモデルは、個人が対立する見解にさらされたときの軽度自由主義と、発音された保守主義の現象を示しており、ソーシャルメディアの露出による最近の世論分極に関する最近の知見を反映している。 このモデルを発展させ、物理学、心理学、行動科学、意思決定理論、哲学などの要素を統合し、伝統的な古典的モデルに対する量子アプローチの固有の利点を強調する堅固な枠組みを確立する。 また,人間の認知と意思決定の量子力学モデルに関する今後の研究に向けて,新たな方向性をいくつか提案する。

We propose a quantum-mechanical model that represents a human system of beliefs as quantised energy levels of a physical system. This model underscores a novel perspective on opinion dynamics, recreating a broad range of experimental and real-world data that exhibit an asymmetry of opinion radicalisation. In particular, the model demonstrates the phenomena of pronounced conservatism versus mild liberalism when individuals are exposed to opposing views, mirroring recent findings on opinion polarisation via social media exposure. Advancing this model, we establish a solid framework that integrates elements from physics, psychology, behavioural science, decision-making theory and philosophy, and also emphasise the inherent advantages of the quantum approach over traditional classical models. We also suggest a number of new directions for future research work on quantum-mechanical models of human cognition and decision-making.
翻訳日:2024-02-29 18:50:41 公開日:2024-02-28
# 生成雑音ラベル学習のための部分ラベルスーパービジョン

Partial Label Supervision for Agnostic Generative Noisy Label Learning ( http://arxiv.org/abs/2308.01184v2 )

ライセンス: Link先を確認
Fengbei Liu, Chong Wang, Yuanhong Chen, Yuyuan Liu, Gustavo Carneiro(参考訳) ノイズラベル学習は差別的アプローチと生成的アプローチの両方に取り組んできた。 識別法の単純さと効率性にもかかわらず、生成モデルはクリーンでノイズの多いラベルを分離し、ラベル遷移行列を推定するより原則的な方法を提供する。 しかし、既存の生成法は、コストのかかる生成モジュールまたはヒューリスティックな仮定を通じて追加の潜在変数を推測する必要がある。 彼らはまた、サンプル単位のクリーンなラベル分布と不確実性を反映しない均一なクリーンなラベルを事前に仮定する。 本稿では,これらの課題に対処する生成ノイズラベル学習のための新しい枠組みを提案する。 まず、識別分類器出力による画像生成を直接近似する新しい単段最適化を提案する。 この近似は、画像生成の計算コストを大幅に削減し、生成モデリングの利点を保ち、異なる因果性シナリオ(画像生成ラベルまたは逆逆)に関して我々のフレームワークを非依存にすることができる。 第2に,クリーンなラベルカバレッジと不確実性の両方を考慮したノイズラベル学習のための新しい部分ラベル監督(pls)を提案する。 PLSの監督は、損失を最小限に抑えるだけでなく、基礎となるサンプルワイドなラベル分布と不確実性を捉えようとしている。 コンピュータビジョンと自然言語処理(nlp)ベンチマークに関する広範な実験は、計算コストを大幅に削減しながら、生成モデルが最先端の結果を達成していることを示している。 私たちのコードはhttps://github.com/lfb-1/gnlで利用可能です。

Noisy label learning has been tackled with both discriminative and generative approaches. Despite the simplicity and efficiency of discriminative methods, generative models offer a more principled way of disentangling clean and noisy labels and estimating the label transition matrix. However, existing generative methods often require inferring additional latent variables through costly generative modules or heuristic assumptions, which hinder adaptive optimisation for different causal directions. They also assume a uniform clean label prior, which does not reflect the sample-wise clean label distribution and uncertainty. In this paper, we propose a novel framework for generative noisy label learning that addresses these challenges. First, we propose a new single-stage optimisation that directly approximates image generation by a discriminative classifier output. This approximation significantly reduces the computation cost of image generation, preserves the generative modelling benefits, and enables our framework to be agnostic in regards to different causality scenarios (i.e., image generate label or vice-versa). Second, we introduce a new Partial Label Supervision (PLS) for noisy label learning that accounts for both clean label coverage and uncertainty. The supervision of PLS does not merely aim at minimising loss, but seeks to capture the underlying sample-wise clean label distribution and uncertainty. Extensive experiments on computer vision and natural language processing (NLP) benchmarks demonstrate that our generative modelling achieves state-of-the-art results while significantly reducing the computation cost. Our code is available at https://github.com/lfb-1/GNL.
翻訳日:2024-02-29 18:50:25 公開日:2024-02-28
# 物理インフォームド・シンセティック・データによる高速MRI画像再構成のための一般化可能な深層学習

One for Multiple: Physics-informed Synthetic Data Boosts Generalizable Deep Learning for Fast MRI Reconstruction ( http://arxiv.org/abs/2307.13220v2 )

ライセンス: Link先を確認
Zi Wang, Xiaotong Yu, Chengyan Wang, Weibo Chen, Jiazheng Wang, Ying-Hua Chu, Hongwei Sun, Rushuai Li, Peiyong Li, Fan Yang, Haiwei Han, Taishan Kang, Jianzhong Lin, Chen Yang, Shufu Chang, Zhang Shi, Sha Hua, Yan Li, Juan Hu, Liuhong Zhu, Jianjun Zhou, Meijing Lin, Jiefeng Guo, Congbo Cai, Zhong Chen, Di Guo, Guang Yang, Xiaobo Qu(参考訳) 磁気共鳴イメージング(MRI)は、放射線のない、人体への包括的洞察で有名であり、医学的診断を容易にする。 しかし、長いスキャン時間の欠点は、そのアクセシビリティを阻害する。 k-スペースアンダーサンプリングは解決策を提供するが、結果として得られたアーティファクトは画像再構成中に細心の注意を要する。 Deep Learning (DL)は、高速MRI画像再構成に有効であることが証明されているが、様々な画像シナリオにまたがる幅広い適用性は制限されている。 課題には、大規模で多様なトレーニングデータを取得することに関連するコストとプライバシの制限、既存のDL方法論におけるトレーニングとターゲットデータのミスマッチに対処することの難しさなどが含まれる。 本稿では,高速MRIのための物理インフォームド・シンセティック・データ学習フレームワークPISFを提案する。 PISFは、訓練された1つのモデルを通して、マルチシナリオMRI再構成のための一般化されたDLを可能にすることで、画期的なものである。 本手法では, 2次元画像の再構成を多くの1次元基本問題に分離し, 1次元データ合成から一般化を容易にする。 実世界のMRIデータへの依存度を最大96%減らし, 合成データに基づくDLモデルのトレーニング, 強化学習技術, 生体内MRI再構成を, マッチングされた現実的データセットで訓練されたモデルに匹敵するか, あるいはそれを上回る精度で行うことを実証した。 さらに、PISFは、複数のベンダーとイメージングセンターにまたがる顕著な一般化性を示す。 多様な患者に対する適応性は、経験豊富な10人の医療専門家による評価によって検証されている。 PISFは、様々な高速MRIアプリケーションにおけるDLの普及を著しく促進する、実用的で費用対効果の高い方法である。

Magnetic resonance imaging (MRI) is a widely used radiological modality renowned for its radiation-free, comprehensive insights into the human body, facilitating medical diagnoses. However, the drawback of prolonged scan times hinders its accessibility. The k-space undersampling offers a solution, yet the resultant artifacts necessitate meticulous removal during image reconstruction. Although Deep Learning (DL) has proven effective for fast MRI image reconstruction, its broader applicability across various imaging scenarios has been constrained. Challenges include the high cost and privacy restrictions associated with acquiring large-scale, diverse training data, coupled with the inherent difficulty of addressing mismatches between training and target data in existing DL methodologies. Here, we present a novel Physics-Informed Synthetic data learning framework for Fast MRI, called PISF. PISF marks a breakthrough by enabling generalized DL for multi-scenario MRI reconstruction through a single trained model. Our approach separates the reconstruction of a 2D image into many 1D basic problems, commencing with 1D data synthesis to facilitate generalization. We demonstrate that training DL models on synthetic data, coupled with enhanced learning techniques, yields in vivo MRI reconstructions comparable to or surpassing those of models trained on matched realistic datasets, reducing the reliance on real-world MRI data by up to 96%. Additionally, PISF exhibits remarkable generalizability across multiple vendors and imaging centers. Its adaptability to diverse patient populations has been validated through evaluations by ten experienced medical professionals. PISF presents a feasible and cost-effective way to significantly boost the widespread adoption of DL in various fast MRI applications.
翻訳日:2024-02-29 18:49:58 公開日:2024-02-28
# ビデオ異常検出からの映像異常検索に向けて:新しいベンチマークとモデル

Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model ( http://arxiv.org/abs/2307.12545v2 )

ライセンス: Link先を確認
Peng Wu, Jing Liu, Xiangteng He, Yuxin Peng, Peng Wang, and Yanning Zhang(参考訳) ビデオ異常検出(VAD)はその潜在的な応用により注目され、現在主流となっているタスクは、フレームレベルでのオンラインな異常検出に焦点を合わせており、大まかに言えばバイナリまたは複数のイベント分類と解釈できる。 しかし、複雑な異常事象と単一ラベル(例えば「ヴァンダリズム」)の関係を構築するような構成は表面的であり、単一ラベルは異常事象を特徴付けるのに不足している。 実際には、ユーザーは一連の近似ビデオではなく、特定のビデオを検索する傾向にある。 したがって、詳細な記述を用いた異常な事象の検索は実用的で肯定的であるが、これに焦点を当てた研究は少ない。 本稿では, 言語記述や同期音声など, 相互モダリティによって適切な異常映像を実用的に検索することを目的とした, ビデオ異常検索 (var) と呼ばれる新しいタスクを提案する。 現在のビデオ検索とは異なり、varは与えられたクエリに部分的に関連のある長い未検索の動画を検索するために考案されている。 これを実現するために、一般的な異常データセットの上に構築された2つの大規模VARベンチマーク、UCFCrime-ARとXDViolence-ARを提案する。 一方,VARのためのALAN(Anomaly-Led Alignment Network)と呼ばれるモデルの設計を行う。 ALANでは、長い未編集ビデオのキーセグメントに焦点をあてる異常なサンプリングを提案する。 次に,ビデオテキストの細粒度表現間の意味的関連を高めるために,効率的なプリテキストタスクを導入する。 さらに、2つの相補的なアライメントを利用して、クロスモーダルコンテンツをさらに一致させる。 2つのベンチマークによる実験結果から, VARタスクの課題を明らかにし, 提案手法の利点を実証した。 カプセルはhttps://github.com/Roc-Ng/VARで公開されている。

Video anomaly detection (VAD) has been paid increasing attention due to its potential applications, its current dominant tasks focus on online detecting anomalies% at the frame level, which can be roughly interpreted as the binary or multiple event classification. However, such a setup that builds relationships between complicated anomalous events and single labels, e.g., ``vandalism'', is superficial, since single labels are deficient to characterize anomalous events. In reality, users tend to search a specific video rather than a series of approximate videos. Therefore, retrieving anomalous events using detailed descriptions is practical and positive but few researches focus on this. In this context, we propose a novel task called Video Anomaly Retrieval (VAR), which aims to pragmatically retrieve relevant anomalous videos by cross-modalities, e.g., language descriptions and synchronous audios. Unlike the current video retrieval where videos are assumed to be temporally well-trimmed with short duration, VAR is devised to retrieve long untrimmed videos which may be partially relevant to the given query. To achieve this, we present two large-scale VAR benchmarks, UCFCrime-AR and XDViolence-AR, constructed on top of prevalent anomaly datasets. Meanwhile, we design a model called Anomaly-Led Alignment Network (ALAN) for VAR. In ALAN, we propose an anomaly-led sampling to focus on key segments in long untrimmed videos. Then, we introduce an efficient pretext task to enhance semantic associations between video-text fine-grained representations. Besides, we leverage two complementary alignments to further match cross-modal contents. Experimental results on two benchmarks reveal the challenges of VAR task and also demonstrate the advantages of our tailored method. Captions are publicly released at https://github.com/Roc-Ng/VAR.
翻訳日:2024-02-29 18:49:27 公開日:2024-02-28
# 大規模言語モデルにおける多言語脱獄問題

Multilingual Jailbreak Challenges in Large Language Models ( http://arxiv.org/abs/2310.06474v2 )

ライセンス: Link先を確認
Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing(参考訳) 大きな言語モデル(LLM)は、幅広いタスクにわたって顕著な機能を示すが、悪意のある命令がLLMを操作して望ましくない振る舞いを示す、‘jailbreak’問題のような潜在的な安全上の懸念を生じさせる。 LLMに関連する潜在的なリスクを軽減するために、いくつかの予防策が開発されているが、それらは主に英語に焦点を当てている。 本研究では, LLM内に多言語ジェイルブレイクが存在することを明らかにするとともに, 意図しない, 意図しない2つのリスクシナリオを検討する。 意図しないシナリオは、非英語のプロンプトを使用してLLMをクエリし、不注意に安全メカニズムをバイパスすることである。 実験の結果,意図しないシナリオでは,言語の利用率が減少するにつれて,安全でないコンテンツの割合が増加することがわかった。 特に、低リソース言語は、ChatGPTとGPT-4の両方で、高リソース言語と比較して有害なコンテンツに遭遇する確率が約3倍である。 意図的なシナリオでは、多言語プロンプトは悪意のある命令の悪影響を悪化させ、驚くべきことに安全でない出力の80.92\%、GPT-440.71\%である。 このような課題に対処するため、安全微調整のための多言語学習データを自動的に生成する新しいフレームワーク「textsc{Self-Defense}」を提案する。 実験結果から,このようなデータで微調整したChatGPTは,安全でないコンテンツ生成を大幅に削減できることがわかった。 データは \url{https://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMs} で公開されている。

While large language models (LLMs) exhibit remarkable capabilities across a wide range of tasks, they pose potential safety concerns, such as the ``jailbreak'' problem, wherein malicious instructions can manipulate LLMs to exhibit undesirable behavior. Although several preventive measures have been developed to mitigate the potential risks associated with LLMs, they have primarily focused on English. In this study, we reveal the presence of multilingual jailbreak challenges within LLMs and consider two potential risky scenarios: unintentional and intentional. The unintentional scenario involves users querying LLMs using non-English prompts and inadvertently bypassing the safety mechanisms, while the intentional scenario concerns malicious users combining malicious instructions with multilingual prompts to deliberately attack LLMs. The experimental results reveal that in the unintentional scenario, the rate of unsafe content increases as the availability of languages decreases. Specifically, low-resource languages exhibit about three times the likelihood of encountering harmful content compared to high-resource languages, with both ChatGPT and GPT-4. In the intentional scenario, multilingual prompts can exacerbate the negative impact of malicious instructions, with astonishingly high rates of unsafe output: 80.92\% for ChatGPT and 40.71\% for GPT-4. To handle such a challenge in the multilingual context, we propose a novel \textsc{Self-Defense} framework that automatically generates multilingual training data for safety fine-tuning. Experimental results show that ChatGPT fine-tuned with such data can achieve a substantial reduction in unsafe content generation. Data is available at \url{https://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMs}.
翻訳日:2024-02-29 18:45:23 公開日:2024-02-28
# 影響を予測: 大規模シナリオ記述を用いたニュース環境における生成型aiの多様性の探究

Anticipating Impacts: Using Large-Scale Scenario Writing to Explore Diverse Implications of Generative AI in the News Environment ( http://arxiv.org/abs/2310.06361v2 )

ライセンス: Link先を確認
Kimon Kieslich, Nicholas Diakopoulos, Natali Helberger(参考訳) 生成AIの膨大な増加は、ニュース環境を含む社会のあらゆる部分に及んでいる。 不正情報や誤情報、差別、社会的緊張の促進といった問題を含む、生成aiの利用の増加による個人的および社会的な影響について多くの懸念がある。 しかし、生成AIの影響を予想する研究はまだ初期段階であり、主に技術開発者や研究者の見解に限られている。 本稿では,3つの利害関係者グループ(新規消費者,技術開発者,コンテンツクリエータ)の,生成AIの潜在的なネガティブな影響に対する展望の拡大と,それに対応するための緩和戦略について述べる。 方法論的には, 将来の認知的多様な想像力を探求するために, 調査(n=119)の文脈でシナリオ記述と参加観を応用する。 我々は,ニュース環境における生成AIの潜在的影響,潜在的な緩和戦略,およびこれらの影響を誘発・緩和するステークホルダーの役割を,システマティック分析を用いて定量的に分析する。 また、euai草案第52条に示唆される透明性義務である特定の緩和戦略について、回答者の意見を計測する。 異なる利害関係者グループ間での結果を比較し、これらのグループ全体で異なる影響が予想される(非)存在について詳しく検討する。 生成的AI影響評価のためのツールボックスとして,シナリオ記述と参加予測の有用性について論じる。

The tremendous rise of generative AI has reached every part of society - including the news environment. There are many concerns about the individual and societal impact of the increasing use of generative AI, including issues such as disinformation and misinformation, discrimination, and the promotion of social tensions. However, research on anticipating the impact of generative AI is still in its infancy and mostly limited to the views of technology developers and/or researchers. In this paper, we aim to broaden the perspective and capture the expectations of three stakeholder groups (news consumers; technology developers; content creators) about the potential negative impacts of generative AI, as well as mitigation strategies to address these. Methodologically, we apply scenario writing and use participatory foresight in the context of a survey (n=119) to delve into cognitively diverse imaginations of the future. We qualitatively analyze the scenarios using thematic analysis to systematically map potential impacts of generative AI on the news environment, potential mitigation strategies, and the role of stakeholders in causing and mitigating these impacts. In addition, we measure respondents' opinions on a specific mitigation strategy, namely transparency obligations as suggested in Article 52 of the draft EU AI Act. We compare the results across different stakeholder groups and elaborate on the (non-) presence of different expected impacts across these groups. We conclude by discussing the usefulness of scenario-writing and participatory foresight as a toolbox for generative AI impact assessment.
翻訳日:2024-02-29 18:44:48 公開日:2024-02-28
# DiffCPS:オフライン強化学習のための拡散モデルに基づく制約付きポリシー探索

DiffCPS: Diffusion Model based Constrained Policy Search for Offline Reinforcement Learning ( http://arxiv.org/abs/2310.05333v2 )

ライセンス: Link先を確認
Longxiang He, Li Shen, Linrui Zhang, Junbo Tan, Xueqian Wang(参考訳) 制約付きポリシー探索(CPS)はオフライン強化学習の基本的な問題であり、一般的には重み付け回帰(AWR)によって解決される。 しかし、以前の方法は、ガウス政策の表現力に制限があるため、分配外行動に遭遇する可能性がある。 一方、AWRフレームワークの分散表現能力(つまり拡散モデル)を持つ最先端モデルを直接適用することは、拡散モデルにおいて引き起こされる正確なポリシー確率密度を必要とするため、難解である。 本稿では,拡散に基づく制約付きポリシー探索に主元的手法を用いて取り組む,$\textbf{diffusion-basedstricted policy search}$ (dubbed diffcps) という新しい手法を提案する。 理論的解析により、拡散ベースのcps問題に対して強い双対性が成立することが明らかとなり、パラメータ近似を導入すると、近似解は2重反復の $\mathcal{o}(1/\epsilon)$ の後に得られ、ここでは$\epsilon$ はパラメータ化されたポリシーの表現能力を表す。 d4rlベンチマークに基づく広範な実験結果から,本手法の有効性が示された。 DiffCPS は従来の AWR ベースラインや最近の拡散型オフライン RL 法と比較して,優れた,少なくとも競争力のある性能を示す。 コードはhttps://github.com/felix-thu/diffcpsで入手できる。

Constrained policy search (CPS) is a fundamental problem in offline reinforcement learning, which is generally solved by advantage weighted regression (AWR). However, previous methods may still encounter out-of-distribution actions due to the limited expressivity of Gaussian-based policies. On the other hand, directly applying the state-of-the-art models with distribution expression capabilities (i.e., diffusion models) in the AWR framework is intractable since AWR requires exact policy probability densities, which is intractable in diffusion models. In this paper, we propose a novel approach, $\textbf{Diffusion-based Constrained Policy Search}$ (dubbed DiffCPS), which tackles the diffusion-based constrained policy search with the primal-dual method. The theoretical analysis reveals that strong duality holds for diffusion-based CPS problems, and upon introducing parameter approximation, an approximated solution can be obtained after $\mathcal{O}(1/\epsilon)$ number of dual iterations, where $\epsilon$ denotes the representation ability of the parametrized policy. Extensive experimental results based on the D4RL benchmark demonstrate the efficacy of our approach. We empirically show that DiffCPS achieves better or at least competitive performance compared to traditional AWR-based baselines as well as recent diffusion-based offline RL methods. The code is now available at https://github.com/felix-thu/DiffCPS.
翻訳日:2024-02-29 18:44:23 公開日:2024-02-28
# 物理を意識した機械学習は、機械学習とプロセスベースの水文学のための科学パラダイムに革命をもたらす

Physics-aware Machine Learning Revolutionizes Scientific Paradigm for Machine Learning and Process-based Hydrology ( http://arxiv.org/abs/2310.05227v3 )

ライセンス: Link先を確認
Qingsong Xu, Yilei Shi, Jonathan Bamber, Ye Tuo, Ralf Ludwig, Xiao Xiang Zhu(参考訳) 正確な水文理解と水循環予測は、特に人為的気候変動のダイナミックな影響の下で、水資源の管理に関わる科学的および社会的な課題に対処するために重要である。 既存のレビューは、この分野における機械学習(ML)の開発に重点を置いているが、異なるパラダイムとして、水文学とMLを明確に区別している。 本稿では,この障壁を克服し,両分野に革命を起こすための転換的アプローチとして,物理認識mlを導入する。 具体的には,先行物理知識や物理ベースモデリングをmlに統合した既存の方法論の構造化コミュニティ(paml)を構築することで,物理対応ml手法の包括的レビューを行う。 これらのpaml方法論を,物理データ誘導ml,物理インフォームml,物理埋め込みml,物理アウェアハイブリッド学習の4つの側面から体系的に解析した。 PaMLはML支援仮説を促進し、ビッグデータからの洞察を加速し、科学的発見を促進する。 まず,降雨流出水文過程や水力学過程を含む,pamlにおける水文学の系統的考察を行い,異なる目的やpaml手法に対する最も有望で挑戦的な方向性を強調する。 最後に、新しいPaMLベースの水文学プラットフォームであるHydroPMLが、水学応用の基礎としてリリースされた。 HydroPMLはMLの説明可能性と因果性を高め、デジタル水循環の実現の基礎となる。 HydroPMLプラットフォームはhttps://hydropml.github.io/で公開されている。

Accurate hydrological understanding and water cycle prediction are crucial for addressing scientific and societal challenges associated with the management of water resources, particularly under the dynamic influence of anthropogenic climate change. Existing reviews predominantly concentrate on the development of machine learning (ML) in this field, yet there is a clear distinction between hydrology and ML as separate paradigms. Here, we introduce physics-aware ML as a transformative approach to overcome the perceived barrier and revolutionize both fields. Specifically, we present a comprehensive review of the physics-aware ML methods, building a structured community (PaML) of existing methodologies that integrate prior physical knowledge or physics-based modeling into ML. We systematically analyze these PaML methodologies with respect to four aspects: physical data-guided ML, physics-informed ML, physics-embedded ML, and physics-aware hybrid learning. PaML facilitates ML-aided hypotheses, accelerating insights from big data and fostering scientific discoveries. We first conduct a systematic review of hydrology in PaML, including rainfall-runoff hydrological processes and hydrodynamic processes, and highlight the most promising and challenging directions for different objectives and PaML methods. Finally, a new PaML-based hydrology platform, termed HydroPML, is released as a foundation for hydrological applications. HydroPML enhances the explainability and causality of ML and lays the groundwork for the digital water cycle's realization. The HydroPML platform is publicly available at https://hydropml.github.io/.
翻訳日:2024-02-29 18:43:56 公開日:2024-02-28
# ダイナミックシーンにおけるマルチ露光画像を用いた自己監督型高ダイナミックレンジイメージング

Self-Supervised High Dynamic Range Imaging with Multi-Exposure Images in Dynamic Scenes ( http://arxiv.org/abs/2310.01840v2 )

ライセンス: Link先を確認
Zhilu Zhang, Haoyu Wang, Shuai Liu, Xiaotao Wang, Lei Lei, Wangmeng Zuo(参考訳) 多重露光画像の融合はハイダイナミックレンジ(hdr)画像を得るための一般的なアプローチであり、主な課題は動的シーンにおけるゴーストアーティファクトの回避である。 近年,Deghostingにディープニューラルネットワークを用いた手法が提案されている。 しかし、これらの手法は通常、収集が困難でコストがかかるhdrグラウンドルースで十分なデータに依存する。 本研究では,ラベル付きデータを不要にするために,訓練中に動的マルチ露光画像のみを必要とする自己教師型HDR再構成法であるSelfHDRを提案する。 特に、selfhdrは、複数の露出画像から構築できる2つの補完的コンポーネントの監督の下で再構成ネットワークを学習し、それぞれhdr色と構造に焦点を当てる。 色成分は複数の露光画像から推定され、色成分と入力基準画像(中露光画像)によって監視される構造中心ネットワークを介して構造成分が生成される。 テスト中、学習した再構成ネットワークは直接デプロイされ、HDR画像を予測する。 実世界画像を用いた実験により,我々のselfhdrは,最先端の自己教師付手法に対して優れた結果を示し,教師付画像と同等の性能を示す。 コードはhttps://github.com/cszhilu1998/SelfHDRで公開されている。

Merging multi-exposure images is a common approach for obtaining high dynamic range (HDR) images, with the primary challenge being the avoidance of ghosting artifacts in dynamic scenes. Recent methods have proposed using deep neural networks for deghosting. However, the methods typically rely on sufficient data with HDR ground-truths, which are difficult and costly to collect. In this work, to eliminate the need for labeled data, we propose SelfHDR, a self-supervised HDR reconstruction method that only requires dynamic multi-exposure images during training. Specifically, SelfHDR learns a reconstruction network under the supervision of two complementary components, which can be constructed from multi-exposure images and focus on HDR color as well as structure, respectively. The color component is estimated from aligned multi-exposure images, while the structure one is generated through a structure-focused network that is supervised by the color component and an input reference (\eg, medium-exposure) image. During testing, the learned reconstruction network is directly deployed to predict an HDR image. Experiments on real-world images demonstrate our SelfHDR achieves superior results against the state-of-the-art self-supervised methods, and comparable performance to supervised ones. Codes are available at https://github.com/cszhilu1998/SelfHDR
翻訳日:2024-02-29 18:43:29 公開日:2024-02-28
# マルチタスク画像復元のためのビジョン言語モデル制御

Controlling Vision-Language Models for Multi-Task Image Restoration ( http://arxiv.org/abs/2310.01018v2 )

ライセンス: Link先を確認
Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sj\"olund, Thomas B. Sch\"on(参考訳) CLIPのようなビジョン言語モデルは、ゼロショットやラベルなしの予測のために、さまざまな下流タスクに大きな影響を与えている。 しかし、画像復元などの低レベルのビジョンでは、入力の破損により性能が劇的に低下する。 本稿では,画像復元のためのマルチタスクフレームワークとして,事前学習された視覚言語モデルを低レベル視覚タスクへより良く転送するための分解認識視覚言語モデル(da-clip)を提案する。 具体的には、DA-CLIPは、修正されたCLIPイメージエンコーダに適応して高品質な機能埋め込みを予測する、追加のコントローラをトレーニングする。 クロスアテンションによる画像復元ネットワークへの埋め込みを統合することで,高忠実度画像再構成を学習するモデルをパイロット化することができる。 コントローラ自体も、入力の実際の破損と一致する分解機能を出力し、異なる分解タイプに対して自然な分類子を生成する。 さらに,DA-CLIP訓練のための合成キャプションを用いた混合劣化データセットを構築した。 提案手法は,大規模な事前学習型視覚言語モデルを用いて,画像復元を促進させる上で有望な方向を示すため,画像復元タスクの「emph{degradation-specific」と「emph{unified」の両方で最先端の性能を向上させる。 私たちのコードはhttps://github.com/algolzw/daclip-uirで利用可能です。

Vision-language models such as CLIP have shown great impact on diverse downstream tasks for zero-shot or label-free predictions. However, when it comes to low-level vision such as image restoration their performance deteriorates dramatically due to corrupted inputs. In this paper, we present a degradation-aware vision-language model (DA-CLIP) to better transfer pretrained vision-language models to low-level vision tasks as a multi-task framework for image restoration. More specifically, DA-CLIP trains an additional controller that adapts the fixed CLIP image encoder to predict high-quality feature embeddings. By integrating the embedding into an image restoration network via cross-attention, we are able to pilot the model to learn a high-fidelity image reconstruction. The controller itself will also output a degradation feature that matches the real corruptions of the input, yielding a natural classifier for different degradation types. In addition, we construct a mixed degradation dataset with synthetic captions for DA-CLIP training. Our approach advances state-of-the-art performance on both \emph{degradation-specific} and \emph{unified} image restoration tasks, showing a promising direction of prompting image restoration with large-scale pretrained vision-language models. Our code is available at https://github.com/Algolzw/daclip-uir.
翻訳日:2024-02-29 18:43:09 公開日:2024-02-28
# 所得分離の時空間ダイナミクス--ミラノ地区を事例として

Time-space dynamics of income segregation: a case study of Milan's neighbourhoods ( http://arxiv.org/abs/2309.17294v2 )

ライセンス: Link先を確認
Lavinia Rossi Mori, Vittorio Loreto and Riccardo Di Clemente(参考訳) 都市所得分離への伝統的なアプローチは静的な住宅パターンに焦点を合わせており、しばしば近隣のレベルでの社会混合の動的な性質を捉えられなかった。 携帯電話からの高解像度位置情報データを活用することで、日々のルーチンに基づいて3つの異なる収入グループ(ハイ、ミディアム、ロー)の相互作用を捉える。 本研究では,都市活動の時間的ダイナミクスに埋め込まれたソーシャルミキシングの3次元解析空間を提案する。 このフレームワークは、各地区の地理的特徴と密接に関連している、より詳細な社会的相互作用の視点を提供する。 住宅地は夜間に社会的な混合を奨励できないが、労働時間は包摂性を高め、市の中心部は交流のレベルが高まった。 夕方になると、公共交通機関や様々な関心ポイントなどの都市的特徴に応じて、レジャーエリアが社会的相互作用の促進要因として浮上する。 これらの特徴は、社会的混合に関わる社会層の大きさやタイプを著しく変化させ、また、ブリッジングや社会経済の分断拡大における都市デザインの重要性も強調する。

Traditional approaches to urban income segregation focus on static residential patterns, often failing to capture the dynamic nature of social mixing at the neighborhood level. Leveraging high-resolution location-based data from mobile phones, we capture the interplay of three different income groups (high, medium, low) based on their daily routines. We propose a three-dimensional space to analyze social mixing, which is embedded in the temporal dynamics of urban activities. This framework offers a more detailed perspective on social interactions, closely linked to the geographical features of each neighborhood. While residential areas fail to encourage social mixing in the nighttime, the working hours foster inclusion, with the city center showing a heightened level of interaction. As evening sets in, leisure areas emerge as potential facilitators for social interactions, depending on urban features such as public transport and a variety of Points Of Interest. These characteristics significantly modulate the magnitude and type of social stratification involved in social mixing, also underscoring the significance of urban design in either bridging or widening socio-economic divides.
翻訳日:2024-02-29 18:42:48 公開日:2024-02-28
# mindshift: 精神状態に基づくスマートフォンの使用介入に大規模な言語モデルを活用する

MindShift: Leveraging Large Language Models for Mental-States-Based Problematic Smartphone Use Intervention ( http://arxiv.org/abs/2309.16639v2 )

ライセンス: Link先を確認
Ruolan Wu, Chun Yu, Xiaole Pan, Yujia Liu, Ningning Zhang, Yue Fu, Yuhan Wang, Zhi Zheng, Li Chen, Qiaolei Jiang, Xuhai Xu, Yuanchun Shi(参考訳) 問題のあるスマートフォンの使用は、身体と精神の健康に悪影響を及ぼす。 幅広い先行研究にもかかわらず、既存の説得力のある技術は、ユーザーの身体的状況や精神状態に基づいた動的説得力のあるコンテンツを提供するほど柔軟ではない。 われわれはまずWizard-of-Oz研究 (N=12) とインタビュースタディ (N=10) を行い、問題のスマートフォン使用の背景にある精神状態(退屈、ストレス、慣性)を要約した。 これは4つの説得戦略(理解、慰め、誘発、足場)の設計に影響を与えます。 我々は,大規模言語モデル(LLM)を利用して,効果的な説得コンテンツの自動生成と動的生成を実現した。 我々は,新しいllmを利用したスマートフォン使用介入手法であるmindshiftを開発した。 mindshiftは、ユーザーのアプリ内使用行動、物理的状況、精神状態、目標 \&習慣を入力として、適切な説得戦略でパーソナライズされた動的説得コンテンツを生成する。 我々は、5週間のフィールド実験(N=25)を行い、MindShiftの簡易版(精神状態の削除)とベースライン技術(修正リマインダー)を比較した。 その結果、マインドシフトは介入受け入れ率を4.7-22.5%向上させ、スマートフォンの使用期間を7.4-9.8%削減した。 さらに、スマートフォン依存度尺度の大幅な低下と、自己効力度尺度の上昇がある。 我々の研究は、他の行動変化領域における文脈認識的説得にLLMを活用する可能性に光を当てている。

Problematic smartphone use negatively affects physical and mental health. Despite the wide range of prior research, existing persuasive techniques are not flexible enough to provide dynamic persuasion content based on users' physical contexts and mental states. We first conducted a Wizard-of-Oz study (N=12) and an interview study (N=10) to summarize the mental states behind problematic smartphone use: boredom, stress, and inertia. This informs our design of four persuasion strategies: understanding, comforting, evoking, and scaffolding habits. We leveraged large language models (LLMs) to enable the automatic and dynamic generation of effective persuasion content. We developed MindShift, a novel LLM-powered problematic smartphone use intervention technique. MindShift takes users' in-the-moment app usage behaviors, physical contexts, mental states, goals \& habits as input, and generates personalized and dynamic persuasive content with appropriate persuasion strategies. We conducted a 5-week field experiment (N=25) to compare MindShift with its simplified version (remove mental states) and baseline techniques (fixed reminder). The results show that MindShift improves intervention acceptance rates by 4.7-22.5% and reduces smartphone usage duration by 7.4-9.8%. Moreover, users have a significant drop in smartphone addiction scale scores and a rise in self-efficacy scale scores. Our study sheds light on the potential of leveraging LLMs for context-aware persuasion in other behavior change domains.
翻訳日:2024-02-29 18:42:28 公開日:2024-02-28
# コード生成改善のための大規模言語モデルにおけるテストケース駆動プログラミング理解

Test-Case-Driven Programming Understanding in Large Language Models for Better Code Generation ( http://arxiv.org/abs/2309.16120v2 )

ライセンス: Link先を確認
Zhao Tian, Junjie Chen, Xiangyu Zhang(参考訳) コード生成は、与えられたプログラム仕様に従ってソースコードを自動的に生成することであり、特に大規模言語モデル(LLM)の開発で広く注目を集めている。 コード生成が本質的に困難であるため、LCMが生成したコードは仕様と一致しない可能性がある。 コード生成におけるLLMの性能向上のために,仕様理解のためのLLMをガイドする思考支援技術が提案されている。 しかし、複雑なプログラミング問題に対する正確な理解を得るのは難しいため、不満足なコード生成性能につながる。 また、テスト実行によって生成されたエラーメッセージを使用して間違ったコードを修正するためのフィードバックベースのプロンプト手法も提案されている。 しかし、生成されたコードが真理から著しく逸脱すると、そのような粗い情報に基づいて性能を改善することが困難になる。 そこで本研究では,洗練された思考誘発プロンプトとフィードバックに基づくプロンプトの両方を考案し,その相乗効果を初めて探求することにより,llmのコード生成性能を向上させるための新しいプロンプト手法である {\mu}fixを提案する。 まず、テストケース分析を利用して仕様理解を得、自己改善プロセスによって思考誘発促進フェーズにおける誤解を識別し、修正することができる。 さらに、フィードバックベースのプロンプトフェーズにおけるコード生成にLLMが暗黙的に用いている実際の理解とのギャップを減らす方向に向け、仕様理解をさらに修正する。 可能な限り正確な理解を得ることにより、LLMのコード生成性能を大幅に改善することができる。

Code generation is to automatically generate source code conforming to a given programming specification, which has received extensive attention especially with the development of large language models (LLMs). Due to the inherent difficulty of code generation, the code generated by LLMs may be not aligned with the specification. To improve the performance of LLMs in code generation, some thought-eliciting prompting techniques have been proposed to guide LLMs for specification understanding. However, it is still hard to produce correct understanding for complicated programming problems, leading to unsatisfactory code generation performance. Also, some feedback-based prompting techniques have been proposed to fix incorrect code using error messages produced by test execution. However, when the generated code deviates significantly from the ground truth, they encounter difficulties in improving performance based on such coarse-grained information. In this work, we propose a novel prompting technique, called {\mu}FiX, to improve the code generation performance of LLMs by devising both sophisticated thought-eliciting prompting and feedback-based prompting and making the first exploration on their synergy. It first exploits test case analysis to obtain specification understanding and enables a self-improvement process to identify and fix the misunderstanding in the thought-eliciting prompting phase. {\mu}FiX further fixes the specification understanding towards the direction reducing the gap between the provided understanding and the actual understanding implicitly utilized by LLMs for code generation in the feedback-based prompting phase. By obtaining as correct understanding as possible with {\mu}FiX, the code generation performance of LLMs can be largely improved.
翻訳日:2024-02-29 18:42:01 公開日:2024-02-28
# 敵対的機械学習における遠方特徴の計算的絡み合いについて

On the Computational Entanglement of Distant Features in Adversarial Machine Learning ( http://arxiv.org/abs/2309.15669v4 )

ライセンス: Link先を確認
YenLung Lai, Xingbo Dong, Zhe Jin(参考訳) 機械学習の敵対的な例は、一見不明瞭な入力摂動を伴うモデルを欺く顕著な能力から研究の焦点として現れており、深刻な結果をもたらす可能性がある。 本研究では, 機械学習モデルにおいて, 原則として, 広範囲の機械学習モデルに現れる現象である, 敵対的事例の出現について, 徹底的な調査を行う。 本研究は,空間的分離によらず,遠方特徴の絡み合い,完全相関や反相関を示す能力を備えた計算絡みという新しい概念を提示し,敵の例の出現に大きく寄与する。 計算エンタングルメントが時間拡張や特徴対に対する長さ収縮などの相対論的効果とどのように一致し、最終的にそれらの角度差と距離がゼロに向かって収束し、完全な相関関係を示すか、最大方向へ、完全反相関を示すかを示す。

Adversarial examples in machine learning has emerged as a focal point of research due to their remarkable ability to deceive models with seemingly inconspicuous input perturbations, potentially resulting in severe consequences. In this study, we undertake a thorough investigation into the emergence of adversarial examples, a phenomenon that can, in principle, manifest in a wide range of machine learning models. Through our research, we unveil a new notion termed computational entanglement, with its ability to entangle distant features, display perfect correlations or anti-correlations regardless to their spatial separation, significantly contributes to the emergence of adversarial examples. We illustrate how computational entanglement aligns with relativistic effects such as time dilation and length contraction to feature pair, ultimately resulting in the convergence of their angle differences and distances towards zero, signifying perfect correlation, or towards maximum, indicating perfect anti-correlation.
翻訳日:2024-02-29 18:41:36 公開日:2024-02-28
# DriveSceneGen:スクラッチから多様なリアルな運転シナリオを生成する

DriveSceneGen: Generating Diverse and Realistic Driving Scenarios from Scratch ( http://arxiv.org/abs/2309.14685v2 )

ライセンス: Link先を確認
Shuo Sun, Zekai Gu, Tianchen Sun, Jiawei Sun, Chengran Yuan, Yuhang Han, Dongen Li, Marcelo H. Ang Jr(参考訳) 現実的で多様な交通シナリオが自動運転システムの開発と検証に不可欠である。 しかし、データ収集プロセスの多くの困難と集中的なアノテーションに依存するため、実世界のデータセットはデータ需要の増加をサポートするのに十分な量と多様性を欠いている。 この研究は、実世界の運転データセットから学習し、スクラッチから全動的運転シナリオを生成するデータ駆動駆動駆動シナリオ生成メソッドであるDriveSceneGenを紹介する。 DriveSceneGenは、実世界のデータ配信と高い忠実度と多様性を備えた新しい駆動シナリオを生成することができる。 5k生成シナリオの実験結果は、実世界のデータセットと比較して、生成品質、多様性、スケーラビリティを強調している。 私たちの知る限り、DriveSceneGenは、静的マップ要素と動的トラフィック参加者の両方をスクラッチから含む新しい駆動シナリオを生成する最初の方法です。

Realistic and diverse traffic scenarios in large quantities are crucial for the development and validation of autonomous driving systems. However, owing to numerous difficulties in the data collection process and the reliance on intensive annotations, real-world datasets lack sufficient quantity and diversity to support the increasing demand for data. This work introduces DriveSceneGen, a data-driven driving scenario generation method that learns from the real-world driving dataset and generates entire dynamic driving scenarios from scratch. DriveSceneGen is able to generate novel driving scenarios that align with real-world data distributions with high fidelity and diversity. Experimental results on 5k generated scenarios highlight the generation quality, diversity, and scalability compared to real-world datasets. To the best of our knowledge, DriveSceneGen is the first method that generates novel driving scenarios involving both static map elements and dynamic traffic participants from scratch.
翻訳日:2024-02-29 18:41:19 公開日:2024-02-28
# サブスペースガイドによる異常位置推定のための特徴再構成

Subspace-Guided Feature Reconstruction for Unsupervised Anomaly Localization ( http://arxiv.org/abs/2309.13904v2 )

ライセンス: Link先を確認
Katsuya Hotta, Chao Zhang, Yoshihiro Hagihara, Takuya Akashi(参考訳) 産業生産において重要な役割を担う非監督的異常局在化は, 正常な試料パターンから逸脱する異常領域を特定することを目的としている。 最近の手法では,事前学習したディープニューラルネットワークを用いて対象サンプルの特徴マッチングや再構成を行う。 しかし、メモリバンクに格納された深い埋め込みは、より強力で情報に富む可能性があるため、問題のある異常に対処するのに苦労している。 より具体的には、以前のメソッドはメモリバンクに格納されている有限リソースに過度に依存することが多い。 本稿では,異常局在に対する適応的特徴近似を追求する新しい部分空間誘導特徴再構成フレームワークを提案する。 まず、与えられた名目標本から低次元部分空間を構築することを学び、次に自己表現モデルを用いて部分空間基底ベクトルを線形に結合することにより、与えられた深いターゲット埋め込みを再構築する。 私たちの核心は、メモリバンクの限られたリソースにもかかわらず、銀行外の機能は、ターゲットを適応的にモデル化する自己表現メカニズムの下で、代わりに ``mimicked'''' とすることができるということです。 最終的に、再構成の不十分な特徴次元は、局所化の異常を示す。 さらに,サブスペースのスパーシティを活用し,メモリオーバーヘッドの低減に寄与する小さなリソースサブセットのみに依存する機能再構成を可能にするサンプリング手法を提案する。 3つの産業ベンチマークデータセットに対する大規模な実験により、我々のアプローチは一般に最先端の異常な局所化性能を達成することを示した。

Unsupervised anomaly localization, which plays a critical role in industrial manufacturing, aims to identify anomalous regions that deviate from normal sample patterns. Most recent methods perform feature matching or reconstruction for the target sample with pre-trained deep neural networks. However, they still struggle to address challenging anomalies because the deep embeddings stored in the memory bank can be less powerful and informative. More specifically, prior methods often overly rely on the finite resources stored in the memory bank, which leads to low robustness to unseen targets. In this paper, we propose a novel subspace-guided feature reconstruction framework to pursue adaptive feature approximation for anomaly localization. It first learns to construct low-dimensional subspaces from the given nominal samples, and then learns to reconstruct the given deep target embedding by linearly combining the subspace basis vectors using the self-expressive model. Our core is that, despite the limited resources in the memory bank, the out-of-bank features can be alternatively ``mimicked'' under the self-expressive mechanism to adaptively model the target. Eventually, the poorly reconstructed feature dimensions indicate anomalies for localization. Moreover, we propose a sampling method that leverages the sparsity of subspaces and allows the feature reconstruction to depend only on a small resource subset, which contributes to less memory overhead. Extensive experiments on three industrial benchmark datasets demonstrate that our approach generally achieves state-of-the-art anomaly localization performance.
翻訳日:2024-02-29 18:41:04 公開日:2024-02-28
# CBCT画像における歯片分割のための3D-U-SAMネットワーク

3D-U-SAM Network For Few-shot Tooth Segmentation in CBCT Images ( http://arxiv.org/abs/2309.11015v3 )

ライセンス: Link先を確認
Yifu Zhang and Zuozhu Liu and Yang Feng and Renjing Xu(参考訳) 歯の位置の正確な表現は治療において極めて重要である。 3次元歯科画像のセグメンテーションは広く用いられている手法であるが、ラベル付き3次元歯科データセットは乏しい資源であり、このタスクが直面する小さなサンプルの問題に繋がる。 そこで本研究では, 3次元画像分割のための新しい3D-U-SAMネットワークを提案する。 具体的には,2次元事前学習された重みを3次元データセットで使用する問題を解決するため,畳み込み近似法を採用した。 本手法の有効性は,アブレーション実験,比較実験,サンプルサイズ実験で実証された。

Accurate representation of tooth position is extremely important in treatment. 3D dental image segmentation is a widely used method, however labelled 3D dental datasets are a scarce resource, leading to the problem of small samples that this task faces in many cases. To this end, we address this problem with a pretrained SAM and propose a novel 3D-U-SAM network for 3D dental image segmentation. Specifically, in order to solve the problem of using 2D pre-trained weights on 3D datasets, we adopted a convolution approximation method; in order to retain more details, we designed skip connections to fuse features at all levels with reference to U-Net. The effectiveness of the proposed method is demonstrated in ablation experiments, comparison experiments, and sample size experiments.
翻訳日:2024-02-29 18:40:40 公開日:2024-02-28
# チップ集積量子計測のための2モード絞り光を用いた光干渉計

Optical interferometer using two-mode squeezed light for enhanced chip-integrated quantum metrology ( http://arxiv.org/abs/2309.10602v2 )

ライセンス: Link先を確認
Patrick Tritschler, Torsten Ohms, Andr\'e Zimmermann, Fabian Zschocke, Thomas Strohm, Peter Degenfeld-Schonburg(参考訳) 本研究は, 現実的な損失下での小型化に焦点をあて, 既存のセンサ技術の性能向上を図るために2モード圧縮光を用いる可能性について論じる。 そこで本研究では,2モード圧縮光発生部分,センサ領域,検出段階からなるシステムを分析する。 第3次感受性によって生じる一般4波混合(FWM)ハミルトニアンに基づいて、しきい値以下でFWM過程を記述する線形化方程式を定式化し、生成した光信号とアイドラーモード間のスクイーズ品質を解析する。 実現に向けては、マイクロリング共振器を用いたチップ集積化に焦点をあてる。 そのため, 設計とポンプ光の影響は導出方程式において考慮される。 これらの方程式は、量子計測における2モード圧縮光の利用とマッハ・ツェンダー干渉計(mzi)への応用を分析するために用いられる。 現実的なユースケースにおける損失の影響から,小型でコンパクトなデバイスが主な用途であり,コヒーレント光のみを使用する場合と比較して10倍の量子的改善につながる可能性が示唆された。 これにより、より大型の古典的センサーに匹敵する性能を持つ小型のスクイーズ強化センサが使用できる。

This work discusses the possibility of using two-mode squeezed light to improve the performance of existing sensor technology with the focus on its miniaturization under realistic losses. Therefore, we analyze a system consisting of a part for the two-mode squeezed light generation, a sensor region and a detection stage. Based on a general four-wave mixing (FWM) Hamiltonian caused by the third order susceptibility, we formulate linearized equations that describe the FWM process below the threshold and are used to analyze the squeezing quality between the generated optical signal and idler modes. For a possible realization, the focus is set on the chip-integrated generation using micro-ring resonators. To do so, the impact of the design and the pump light are considered in the derived equations. These equations are used to analyze the usage of two-mode squeezed light in quantum metrology and the application in a Mach-Zehnder interferometer (MZI). Due to the impact of losses in realistic use cases, we show that the main usage is for small and compact devices, which can lead to a quantum improvement up to a factor of ten in comparison of using coherent light only. This enables the use of small squeezing-enhanced sensors with a performance comparable to larger classical sensors.
翻訳日:2024-02-29 18:40:02 公開日:2024-02-28
# 合唱団:意見の連鎖による人間の意見の特徴づけと予測

ChOiRe: Characterizing and Predicting Human Opinions with Chain of Opinion Reasoning ( http://arxiv.org/abs/2311.08385v3 )

ライセンス: Link先を確認
Xuan Long Do, Kenji Kawaguchi, Min-Yen Kan, Nancy F. Chen(参考訳) 人間の意見による言語モデル(LM)の調整は、人間の価値観、嗜好、信念の把握を高めるために不可欠である。 筆者らは, ユーザの明示的人格(人口的・イデオロギー的属性)と, ユーザの歴史的意見から推測される暗黙的人格を差分的にモデル化する, 人間の意見を予測する4段階の枠組みであるChOiReを提案する。 ChOiRe は (i)ユーザの明示的な人格を分析し、無関係な属性をフィルターするlm 二 暗黙のペルソナの意見を優先リストにランク付けすること。 (iii)チェーン・オブ・オピニオン(coo)の推論。lmは、明示的な人格及び最も関連する暗黙の人格を順次分析し、意見の予測を行う。 (iv)ChOiReがStepを実行する場所 (iii) 人格情報の不足を克服して最終結果を推測するために、暗黙の人格の一覧をますます大きくして何度もcooする。 ChOiReは、限られた推論呼び出しで新しい最先端の有効性を実現し、以前の手法を3.22%大幅に改善した。 ChOiRe Stepsも示しています。 (i)および (ii) 意見整合モデルの微調整を最大18.44%向上させることができる。

Aligning language models (LMs) with human opinion is challenging yet vital to enhance their grasp of human values, preferences, and beliefs. We present ChOiRe, a four-step framework to predict human opinion which differentially models the user explicit personae (i.e. demographic or ideological attributes) that are manually declared, and implicit personae inferred from user historical opinions. ChOiRe consists of (i) an LM analyzing the user explicit personae to filter out irrelevant attributes; (ii) the LM ranking the implicit persona opinions into a preferential list; (iii) Chain-of-Opinion (CoO) reasoning, where the LM sequentially analyzes the explicit personae and the most relevant implicit personae to perform opinion prediction; (iv) and where ChOiRe executes Step (iii) CoO multiple times with increasingly larger lists of implicit personae to overcome insufficient personae information to infer a final result. ChOiRe achieves new state-of-the-art effectiveness with limited inference calls, improving previous techniques significantly by 3.22%. We also show that ChOiRe Steps (i) and (ii) can significantly better fine-tune opinion-aligned models, by up to 18.44%.
翻訳日:2024-02-29 18:35:09 公開日:2024-02-28
# ローターおよび発振器のクリフォード演算とホモロジー符号

Clifford operations and homological codes for rotors and oscillators ( http://arxiv.org/abs/2311.07679v4 )

ライセンス: Link先を確認
Yijia Xu, Yixu Wang, and Victor V. Albert(参考訳) 本研究では,円上の粒子の状態空間である平面ローターの量子情報処理プリミティブを開発する。 ロータ波動関数を周期的に同定された高調波発振器の波動関数として解釈することにより、ロータが継承するボゾンガウス演算のグループを決定する。 この$n$-rotor Clifford group, $\text{U}(1)^{n(n+1)/2} \rtimes \text{GL}_n(\mathbb{Z})$, は連続な$\text{U}(1)$ gates で表される。 我々は、クリフォード演算の等価性に基づいて、ホモロジーロータ誤り訂正符号(arXiv:2303.13723)と様々なロータ状態の分類を行う。 逆方向では、非負角運動量のロータ状態として占有数状態を解釈することにより、ホモロジーロータ符号とロータクリフォード演算を振動子にマッピングする。 これにより、新しいマルチモードホモロジーボソニック符号が、対応するエンコーディングとデコード回路とともに、占有数や変化に対する防御を行う。 特に,条件付き職業数加算とポスト選択を用いて振動子位相を非破壊的に測定する方法を示す。 また,gkp安定化符号 [arxiv:1903.12615] の複数のロータと発振器について概説する。

We develop quantum information processing primitives for the planar rotor, the state space of a particle on a circle. By interpreting rotor wavefunctions as periodically identified wavefunctions of a harmonic oscillator, we determine the group of bosonic Gaussian operations inherited by the rotor. This $n$-rotor Clifford group, $\text{U}(1)^{n(n+1)/2} \rtimes \text{GL}_n(\mathbb{Z})$, is represented by continuous $\text{U}(1)$ gates generated by polynomials quadratic in angular momenta, as well as discrete $\text{GL}_n(\mathbb Z)$ momentum sign-flip and sum gates. We classify homological rotor error-correcting codes [arXiv:2303.13723] and various rotor states based on equivalence under Clifford operations. Reversing direction, we map homological rotor codes and rotor Clifford operations back into oscillators by interpreting occupation-number states as rotor states of non-negative angular momentum. This yields new multimode homological bosonic codes protecting against dephasing and changes in occupation number, along with their corresponding encoding and decoding circuits. In particular, we show how to non-destructively measure the oscillator phase using conditional occupation-number addition and post selection. We also outline several rotor and oscillator varieties of the GKP-stabilizer codes [arXiv:1903.12615].
翻訳日:2024-02-29 18:34:44 公開日:2024-02-28
# 線グラフ変換によるグラフエッジ上のオンライン信号推定

Online Signal Estimation on the Graph Edges via Line Graph Transformation ( http://arxiv.org/abs/2311.00656v2 )

ライセンス: Link先を確認
Yi Yan, Ercan Engin Kuruoglu(参考訳) グラフ信号処理技術がグラフノード上でのみ定義されることを考えると,グラフエッジ上の信号処理は困難である。 グラフエッジ信号をエッジ-ツー・バーテックス双対のノードに変換するライングラフを利用して,オンライン時間変動グラフエッジ信号予測のためのライングラフ最小平均正方形 (lglms) アルゴリズムを提案する。 l_2$-norm最適化問題を設定することで、lglmsは古典的な適応lmsアルゴリズムのグラフエッジアナロジーとして適応アルゴリズムを形成する。 加えて、LGLMSは、以前グラフノードにデプロイできたすべてのGSP概念とテクニックを継承するが、グラフエッジでそれらを再定義する必要はない。 移動グラフと気象グラフを実験し,ノイズと欠落値の信号観測を行い,lglmsが時変エッジ信号のオンライン予測に適していることを確認した。

The processing of signals on graph edges is challenging considering that Graph Signal Processing techniques are defined only on the graph nodes. Leveraging the Line Graph to transform a graph edge signal onto the node of its edge-to-vertex dual, we propose the Line Graph Least Mean Square (LGLMS) algorithm for online time-varying graph edge signal prediction. By setting up an $l_2$-norm optimization problem, LGLMS forms an adaptive algorithm as the graph edge analogy of the classical adaptive LMS algorithm. Additionally, the LGLMS inherits all the GSP concepts and techniques that can previously be deployed on the graph nodes, but without the need to redefine them on the graph edges. Experimenting with transportation graphs and meteorological graphs, with the signal observations having noisy and missing values, we confirmed that LGLMS is suitable for the online prediction of time-varying edge signals.
翻訳日:2024-02-29 18:33:45 公開日:2024-02-28
# instructcoder: コード編集のための大きな言語モデルをチューニングする命令

InstructCoder: Instruction Tuning Large Language Models for Code Editing ( http://arxiv.org/abs/2310.20329v3 )

ライセンス: Link先を確認
Kaixin Li, Qisheng Hu, Xu Zhao, Hui Chen, Yuxi Xie, Tiedong Liu, Qizhe Xie, Junxian He(参考訳) コード編集は、開発者が日々扱う様々な実用的なタスクを含んでいる。 その妥当性と実用性にもかかわらず、自動コード編集は、データ不足による深層学習モデルの進化において、まだ未熟な領域である。 本稿では,ユーザ指示に基づくコード編集における大規模言語モデル(llm)の利用について検討する。 editevalと呼ばれる新しい人書き実行ベースのベンチマークで評価した結果、現在のモデルが命令を満たすのに苦労していることが分かりました。 InstructCoderは、汎用コード編集にLLMを適用するために設計された最初のインストラクションチューニングデータセットであり、コメント挿入、コード最適化、コードリファクタリングなどの多種多様なコード編集タスクを含んでいる。 114,000以上の命令入力出力トリプレットで構成され、複数の異なるコード編集シナリオをカバーする。 収集プロセスは、github pythonリポジトリからソースされたフィルタされたコミットデータから始まります。 その後、データセットは反復プロセスを通じて体系的に拡張され、シードタスクと生成タスクの両方を使用して、より多くのデータに対してchatgptを促す。 instructcoderで微調整されたオープンソースのllmは、コード編集の精度を著しく向上させ、高度なプロプライエタリllmに匹敵する優れたコード編集性能を示す。 データセットとソースコードはhttps://github.com/qishenghu/codeinstructで公開されている。

Code editing encompasses a variety of pragmatic tasks that developers deal with daily. Despite its relevance and practical usefulness, automatic code editing remains an underexplored area in the evolution of deep learning models, partly due to data scarcity. In this work, we explore the use of Large Language Models (LLMs) to edit code based on user instructions. Evaluated on a novel human-written execution-based benchmark dubbed EditEval, we found current models often struggle to fulfill the instructions. In light of this, we contribute InstructCoder, the first instruction-tuning dataset designed to adapt LLMs for general-purpose code editing, containing high-diversity code-editing tasks such as comment insertion, code optimization, and code refactoring. It consists of over 114,000 instruction-input-output triplets and covers multiple distinct code editing scenarios. The collection process starts with filtered commit data sourced from GitHub Python repositories as seeds. Subsequently, the dataset is systematically expanded through an iterative process, where both seed and generated tasks are used to prompt ChatGPT for more data. Our findings reveal that open-source LLMs fine-tuned on InstructCoder can significantly enhance the accuracy of code edits, exhibiting superior code-editing performance matching advanced proprietary LLMs. The datasets and the source code are publicly available at https://github.com/qishenghu/CodeInstruct.
翻訳日:2024-02-29 18:33:30 公開日:2024-02-28
# 大規模軌道モデルはスケーラブルな運動予測器とプランナーである

Large Trajectory Models are Scalable Motion Predictors and Planners ( http://arxiv.org/abs/2310.19620v3 )

ライセンス: Link先を確認
Qiao Sun, Shiduo Zhang, Danjiao Ma, Jingzhe Shi, Derun Li, Simian Luo, Yu Wang, Ningyi Xu, Guangzhi Cao, Hang Zhao(参考訳) 運動予測と計画は自動運転において重要なタスクであり、最近の取り組みは機械学習ベースのアプローチに移行している。 課題には、多様な道路トポロジの理解、長期にわたる交通力学の推論、異種行動の解釈、大規模連続状態空間におけるポリシーの生成などが含まれる。 モデルスケーリングによる類似の複雑さに対処する大規模言語モデルの成功に触発されて、我々はState Transformer (STR)と呼ばれるスケーラブルなトラジェクトリモデルを導入した。 strは、観測、状態、動作を一つの統一シーケンスモデリングタスクに配置することで、動き予測と動き計画の問題を再構成する。 提案手法は軌道生成問題と他のシーケンスモデリング問題を統合し,言語モデリングなどの周辺領域におけるブレークスルーを伴う迅速なイテレーションを実現する。 実験結果から,STRなどの大型軌道モデル(LTM)は,優れた適応性と学習効率を示すことにより,スケーリング法則に従うことが明らかとなった。 定性的な結果は、LTMがトレーニングデータ分布から大きく分岐するシナリオにおいて、妥当な予測を行うことができることを示している。 LTMはまた、明確な損失設計やコストの高い高レベルのアノテーションなしで、長期計画のための複雑な推論を行うことを学ぶ。

Motion prediction and planning are vital tasks in autonomous driving, and recent efforts have shifted to machine learning-based approaches. The challenges include understanding diverse road topologies, reasoning traffic dynamics over a long time horizon, interpreting heterogeneous behaviors, and generating policies in a large continuous state space. Inspired by the success of large language models in addressing similar complexities through model scaling, we introduce a scalable trajectory model called State Transformer (STR). STR reformulates the motion prediction and motion planning problems by arranging observations, states, and actions into one unified sequence modeling task. Our approach unites trajectory generation problems with other sequence modeling problems, powering rapid iterations with breakthroughs in neighbor domains such as language modeling. Remarkably, experimental results reveal that large trajectory models (LTMs), such as STR, adhere to the scaling laws by presenting outstanding adaptability and learning efficiency. Qualitative results further demonstrate that LTMs are capable of making plausible predictions in scenarios that diverge significantly from the training data distribution. LTMs also learn to make complex reasonings for long-term planning, without explicit loss designs or costly high-level annotations.
翻訳日:2024-02-29 18:33:07 公開日:2024-02-28
# 完全相対論的エンタングルメントハーベスティング

Fully Relativistic Entanglement Harvesting ( http://arxiv.org/abs/2310.18432v2 )

ライセンス: Link先を確認
T. Rick Perche, Jos\'e Polo-G\'omez, Bruno de S. L. Torres, Eduardo Mart\'in-Mart\'inez(参考訳) 磁場から絡み合う粒子検出器が完全に相対論的量子場理論に置き換えられる場合の絡み合い収穫のプロトコルについて検討する。 量子場理論の2つの局所化モードは2つの非相対論的粒子検出器と同じ主次絡み合いを得られることを示し、qftプローブは一般に粒子検出器よりも絡み合いを多く得ることを示唆する。 これらの結果は、内部の非相対論的性質に関わらず、絡み合う収穫を研究するために粒子検出器を用いることを正当化する。

We study the protocol of entanglement harvesting when the particle detectors that harvest entanglement from the field are replaced by fully relativistic quantum field theories. We show that two localized modes of the quantum field theories are able to harvest the same amount of leading order entanglement as two non-relativistic particle detectors, thus implying that QFT probes can generally harvest more entanglement than particle detectors. These results legitimize the use of particle detectors to study entanglement harvesting regardless of their internally non-relativistic nature.
翻訳日:2024-02-29 18:32:45 公開日:2024-02-28
# 混合前駆体を用いたベイズ予測型共変量調整

Bayesian Prognostic Covariate Adjustment With Additive Mixture Priors ( http://arxiv.org/abs/2310.18027v4 )

ライセンス: Link先を確認
Alyssa M. Vanderbeek and Arman Sabbaghi and Jon R. Walsh and Charles K. Fisher(参考訳) ランダム化対照試験(rcts)による効果的かつ迅速な意思決定には、偏りなく正確な治療効果推論が必要である。 この要求に対処する2つの戦略は、結果と高い相関関係を持つ共変分を調整し、ベイズの定理を通じて歴史的制御情報を活用することである。 我々は,これら2つの戦略を組み合わせた新たなベイズ予測型共変量調整手法であるベイズプロコバを提案する。 ベイジアン ProCOVA における共変量調整は、RCT 参加者のためのデジタルツインジェネレータ (DTG) を構築する生成人工知能 (AI) アルゴリズムに基づいている。 DTGは、履歴制御データに基づいてトレーニングされ、制御処理により各RTT参加者の結果に対してデジタルツイン(DT)確率分布を生成する。 DT分布の予測は、確率的スコアと呼ばれ、調整のための共変量を定義する。 履歴制御情報は、履歴制御データに基づいて指定された情報的事前確率分布と、弱情報的事前確率分布の2つの成分とを予め添加混合して活用される。 混合重みは、下位の推論が情報成分から引き出される程度を、弱い情報成分に対して決定する。 この重量も事前分布を持つため、前の添加剤の混合物はRCT情報を含まない状態で完全に特定可能である。 ベイジアン・プロコバにおいて,後方分布からサンプリングするための効率的なgibbsアルゴリズムを確立し,後平均と治療効果パラメータ条件のばらつきに対する閉形式表現を導出する。 異なる相違性を含むシミュレーション研究において,ベイジアン ProCOVA の効率向上を,そのバイアス制御と分散低減により評価した。 これらの利得はより小さなRDTに変換される。

Effective and rapid decision-making from randomized controlled trials (RCTs) requires unbiased and precise treatment effect inferences. Two strategies to address this requirement are to adjust for covariates that are highly correlated with the outcome, and to leverage historical control information via Bayes' theorem. We propose a new Bayesian prognostic covariate adjustment methodology, referred to as Bayesian PROCOVA, that combines these two strategies. Covariate adjustment in Bayesian PROCOVA is based on generative artificial intelligence (AI) algorithms that construct a digital twin generator (DTG) for RCT participants. The DTG is trained on historical control data and yields a digital twin (DT) probability distribution for each RCT participant's outcome under the control treatment. The expectation of the DT distribution, referred to as the prognostic score, defines the covariate for adjustment. Historical control information is leveraged via an additive mixture prior with two components: an informative prior probability distribution specified based on historical control data, and a weakly informative prior distribution. The mixture weight determines the extent to which posterior inferences are drawn from the informative component, versus the weakly informative component. This weight has a prior distribution as well, and so the entire additive mixture prior is completely pre-specifiable without involving any RCT information. We establish an efficient Gibbs algorithm for sampling from the posterior distribution, and derive closed-form expressions for the posterior mean and variance of the treatment effect parameter conditional on the weight, in Bayesian PROCOVA. We evaluate efficiency gains of Bayesian PROCOVA via its bias control and variance reduction compared to frequentist PROCOVA in simulation studies that encompass different discrepancies. These gains translate to smaller RCTs.
翻訳日:2024-02-29 18:32:35 公開日:2024-02-28
# FedPEAT: モバイルエッジコンピューティングを用いた人工知能基礎モデルのためのフェデレーション学習の収束、パラメータ効率の良いファインチューニング、エミュレータ

FedPEAT: Convergence of Federated Learning, Parameter-Efficient Fine Tuning, and Emulator Assisted Tuning for Artificial Intelligence Foundation Models with Mobile Edge Computing ( http://arxiv.org/abs/2310.17491v2 )

ライセンス: Link先を確認
Terence Jie Chua, Wenhan Yu, Jun Zhao, Kwok-Yan Lam(参考訳) 言語とビジョンモデルを含む基礎モデルの出現は、AIのランドスケープを再構築し、さまざまなアプリケーションにまたがる機能を提供する。 GPT-3やBERTのような大規模なモデルのデプロイと微調整は、特に現在の基盤モデル時代において課題を提示している。 エミュレータ支援チューニング(eat)とパラメータ効率の細かいチューニング(peft)を組み合わせたパラメータ効率のエミュレータ支援チューニング(peat)を提案する。 さらに,これをフェデレートPEAT(FedPEAT)としてフェデレーション学習に拡張する。 FedPEATは、フェデレーションモデルチューニング、モデルのプライバシとメモリ効率の向上にアダプタ、エミュレータ、PEFTを使用している。 アダプタは事前訓練されたモデルを調整し、エミュレータはオリジナルのモデルをコンパクトに表現し、プライバシと効率の両方に対処する。 ニューラルネットワークにも適応可能で,ハイパーパラメータ最適化には深層強化学習も活用する。 私たちはFedPEATをユニークなシナリオでテストし、サーバが協調的なフェデレーションチューニングに参加し、基礎モデルの課題に取り組む可能性を示しました。

The emergence of foundation models, including language and vision models, has reshaped AI's landscape, offering capabilities across various applications. Deploying and fine-tuning these large models, like GPT-3 and BERT, presents challenges, especially in the current foundation model era. We introduce Emulator-Assisted Tuning (EAT) combined with Parameter-Efficient Fine-Tuning (PEFT) to form Parameter-Efficient Emulator-Assisted Tuning (PEAT). Further, we expand this into federated learning as Federated PEAT (FedPEAT). FedPEAT uses adapters, emulators, and PEFT for federated model tuning, enhancing model privacy and memory efficiency. Adapters adjust pre-trained models, while emulators give a compact representation of original models, addressing both privacy and efficiency. Adaptable to various neural networks, our approach also uses deep reinforcement learning for hyper-parameter optimization. We tested FedPEAT in a unique scenario with a server participating in collaborative federated tuning, showcasing its potential in tackling foundation model challenges.
翻訳日:2024-02-29 18:32:05 公開日:2024-02-28
# 人間の協調的・説明可能なベイズ最適化におけるループ

Looping in the Human Collaborative and Explainable Bayesian Optimization ( http://arxiv.org/abs/2310.17273v4 )

ライセンス: Link先を確認
Masaki Adachi, Brady Planden, David A. Howey, Michael A. Osborne, Sebastian Orbell, Natalia Ares, Krikamol Muandet, Siu Lun Chau(参考訳) 多くのオプティマイザと同様に、ベイジアン最適化は不透明さのためにユーザの信頼を得られないことが多い。 人間中心のオプティマイザを開発する試みは行われているが、ユーザー知識はよく特定されエラーのないものであり、主に最適化プロセスのスーパーバイザーとして利用している。 我々はこれらの仮定を緩和し、コラボレーティブおよび説明可能なベイズ最適化(CoExBO)フレームワークとのよりバランスのとれた人間-AIパートナーシップを提案する。 ユーザが知識モデルを提供することを明示的に要求する代わりに、CoExBOは好み学習を使用して最適化に対する人間の洞察をシームレスに統合し、結果としてユーザの好みに共鳴するアルゴリズムの提案を行う。 coexboは、各イテレーションの候補選択を説明して信頼を育み、ユーザに最適化を明確に理解させる。 さらに、coexboはno-harmの保証を提供し、ユーザーが間違いを犯すことができる。極端な敵意介入であっても、アルゴリズムはバニラベイズ最適化に漸近的に収束する。 リチウムイオン電池設計における人間-aiチームによる実験により,coexboの有効性を検証する。 コードはhttps://github.com/ma921/CoExBO.comで入手できる。

Like many optimizers, Bayesian optimization often falls short of gaining user trust due to opacity. While attempts have been made to develop human-centric optimizers, they typically assume user knowledge is well-specified and error-free, employing users mainly as supervisors of the optimization process. We relax these assumptions and propose a more balanced human-AI partnership with our Collaborative and Explainable Bayesian Optimization (CoExBO) framework. Instead of explicitly requiring a user to provide a knowledge model, CoExBO employs preference learning to seamlessly integrate human insights into the optimization, resulting in algorithmic suggestions that resonate with user preference. CoExBO explains its candidate selection every iteration to foster trust, empowering users with a clearer grasp of the optimization. Furthermore, CoExBO offers a no-harm guarantee, allowing users to make mistakes; even with extreme adversarial interventions, the algorithm converges asymptotically to a vanilla Bayesian optimization. We validate CoExBO's efficacy through human-AI teaming experiments in lithium-ion battery design, highlighting substantial improvements over conventional methods. Code is available https://github.com/ma921/CoExBO.
翻訳日:2024-02-29 18:31:40 公開日:2024-02-28
# UWBに基づく静的ジェスチャー分類

UWB Based Static Gesture Classification ( http://arxiv.org/abs/2310.15036v2 )

ライセンス: Link先を確認
Abhishek Sebastian(参考訳) 本稿では,UWBレーダーセンサ技術を活用した,UWBに基づく静的ジェスチャー認識のための堅牢なフレームワークを提案する。 5つの一般的なジェスチャーを含むデータセットをコンパイルするために、大規模なデータ収集作業が行われた。 当社のアプローチでは、アウトレーラハンドリング、アスペクト比保存リサイズ、偽色画像変換を含む包括的データ前処理パイプラインを含む。 CNNモデルとMobileNetモデルの両方が処理された画像に基づいてトレーニングされた。 注目すべきことに、我々の最高の性能モデルは96.78%の精度を達成した。 さらに,ユーザフレンドリなGUIフレームワークを開発し,システムリソースの使用状況と処理時間を評価し,メモリ使用率の低下とタスク完了を1秒以内で確認した。 本研究は,UWB技術を用いた静的ジェスチャー認識の高度化に向けた重要なステップであり,様々な領域で実用化が期待できる。

Our paper presents a robust framework for UWB-based static gesture recognition, leveraging proprietary UWB radar sensor technology. Extensive data collection efforts were undertaken to compile datasets containing five commonly used gestures. Our approach involves a comprehensive data pre-processing pipeline that encompasses outlier handling, aspect ratio-preserving resizing, and false-color image transformation. Both CNN and MobileNet models were trained on the processed images. Remarkably, our best-performing model achieved an accuracy of 96.78%. Additionally, we developed a user-friendly GUI framework to assess the model's system resource usage and processing times, which revealed low memory utilization and real-time task completion in under one second. This research marks a significant step towards enhancing static gesture recognition using UWB technology, promising practical applications in various domains.
翻訳日:2024-02-29 18:31:20 公開日:2024-02-28
# プライバシー保護レコメンデーションのためのフェデレーション不均質グラフニューラルネットワーク

Federated Heterogeneous Graph Neural Network for Privacy-preserving Recommendation ( http://arxiv.org/abs/2310.11730v4 )

ライセンス: Link先を確認
Bo Yan, Yang Cao, Haoyu Wang, Wenchuan Yang, Junping Du, Chuan Shi(参考訳) メタパスで表現されるリッチなセマンティクスを含むヘテロジニアス情報ネットワーク(HIN)は,レコメンダシステムにおけるデータの空間性を軽減する強力なツールとして登場した。 既存のHINベースのレコメンデータシステムは、集中ストレージとモデルトレーニングを前提として運用されている。 しかし、実際のデータはプライバシー上の懸念からしばしば分散されるため、HIN内のセマンティックな問題や、中央集権的なHINベースのレコメンデーションの失敗につながる。 本稿では,HINをクライアント側に保存されたプライベートなHINに分割し,サーバ上で共有する手法を提案する。 この設定に続いて,分散HINを用いた推薦モデルの協調トレーニングを容易にするとともに,ユーザのプライバシ保護を実現するフェデレートヘテロジニアスグラフニューラルネットワーク(FedHGNN)ベースのフレームワークを提案する。 具体的には、HINをベースとしたフェデレーションレコメンデーション(FedRec)のプライバシ定義を、プライベートHIN内のユーザ-イテムインタラクションと、共有HINからのユーザの高次パターンを保護することを目的として、差分プライバシの観点から形式化する。 破れたメタパスに基づくセマンティクスを回復し、提案したプライバシー対策を確実にするために、ユーザの高次パターンと関連するユーザ-イテムインタラクションを局所的に乱すセマンティクス保存ユーザインタラクションパブリッシング手法を精巧に設計する。 次に,ノードレベルのアグリゲーションとセマンティックレベルのアグリゲーションを行い,回復したセマンティクスをキャプチャするHGNNモデルを提案する。 4つのデータセットに対する大規模な実験により、我々のモデルは、合理的なプライバシー予算の下で既存の手法(HR@10では最大34%、NDCG@10では42%)よりも優れています。

The heterogeneous information network (HIN), which contains rich semantics depicted by meta-paths, has emerged as a potent tool for mitigating data sparsity in recommender systems. Existing HIN-based recommender systems operate under the assumption of centralized storage and model training. However, real-world data is often distributed due to privacy concerns, leading to the semantic broken issue within HINs and consequent failures in centralized HIN-based recommendations. In this paper, we suggest the HIN is partitioned into private HINs stored on the client side and shared HINs on the server. Following this setting, we propose a federated heterogeneous graph neural network (FedHGNN) based framework, which facilitates collaborative training of a recommendation model using distributed HINs while protecting user privacy. Specifically, we first formalize the privacy definition for HIN-based federated recommendation (FedRec) in the light of differential privacy, with the goal of protecting user-item interactions within private HIN as well as users' high-order patterns from shared HINs. To recover the broken meta-path based semantics and ensure proposed privacy measures, we elaborately design a semantic-preserving user interactions publishing method, which locally perturbs user's high-order patterns and related user-item interactions for publishing. Subsequently, we introduce an HGNN model for recommendation, which conducts node- and semantic-level aggregations to capture recovered semantics. Extensive experiments on four datasets demonstrate that our model outperforms existing methods by a substantial margin (up to 34% in HR@10 and 42% in NDCG@10) under a reasonable privacy budget.
翻訳日:2024-02-29 18:31:05 公開日:2024-02-28
# Black-box Targeted Adversarial Attack on Segment Anything (SAM)

Black-box Targeted Adversarial Attack on Segment Anything (SAM) ( http://arxiv.org/abs/2310.10010v2 )

ライセンス: Link先を確認
Sheng Zheng, Chaoning Zhang, Xinhong Hao(参考訳) 深層認識モデルは、画像入力に準可視摂動を加えることによってモデル出力を変化させる敵の例に広く脆弱である。 近年,Segment Anything Model (SAM) がコンピュータビジョンの基盤モデルとして注目されている。 SAMに対する柔軟な攻撃を実現することは、SAMの強靭性を理解する上で有益である。 本研究の目的は,SAM上での敵攻撃(TAA)を実現することである。 具体的には、特定のプロンプトの下では、敵の例の予測マスクを所定のターゲット画像のマスクに類似させることが目的である。 SAM上でのTAAのタスクは、プロンプトとモデルへのアクセスを仮定することで、最近のarXivのホワイトボックス設定で実現されている。 プロンプト依存の問題に対処するために,画像エンコーダを攻撃するだけで,簡単かつ効果的なアプローチを提案する。 さらに, ランダム自然画像に対する逆画像の特徴的優位を増大させることにより, クロスモデル転送性を高める新しい正規化損失を提案する。 SAM上でのブラックボックスTAAを成功させるために,提案手法の有効性を検証した。

Deep recognition models are widely vulnerable to adversarial examples, which change the model output by adding quasi-imperceptible perturbation to the image input. Recently, Segment Anything Model (SAM) has emerged to become a popular foundation model in computer vision due to its impressive generalization to unseen data and tasks. Realizing flexible attacks on SAM is beneficial for understanding the robustness of SAM in the adversarial context. To this end, this work aims to achieve a targeted adversarial attack (TAA) on SAM. Specifically, under a certain prompt, the goal is to make the predicted mask of an adversarial example resemble that of a given target image. The task of TAA on SAM has been realized in a recent arXiv work in the white-box setup by assuming access to prompt and model, which is thus less practical. To address the issue of prompt dependence, we propose a simple yet effective approach by only attacking the image encoder. Moreover, we propose a novel regularization loss to enhance the cross-model transferability by increasing the feature dominance of adversarial images over random natural images. Extensive experiments verify the effectiveness of our proposed simple techniques to conduct a successful black-box TAA on SAM.
翻訳日:2024-02-29 18:30:29 公開日:2024-02-28
# PeP: 統合ポイントクラウドタスクのためのポイント拡張塗装法

PeP: a Point enhanced Painting method for unified point cloud tasks ( http://arxiv.org/abs/2310.07591v2 )

ライセンス: Link先を確認
Zichao Dong, Hang Ji, Xufeng Huang, Weikun Zhang, Xin Zhan, Junbo Chen(参考訳) ポイントエンコーダはポイントクラウド認識において極めて重要である。 モデルパイプライン全体の最初のステップとして、さまざまなソースからの機能を追加し、より強力な機能エンコーディングメカニズムを提供することで、下流モジュールのインプットが向上する。 本稿では,上記の課題に対処する新しい PeP モジュールを提案する。 PePは2つの主要部品、精細点描画法とLMベースの点エンコーダを含んでいる。 nuScenesとKITTIデータセットを用いた実験により、PePの優れた性能が検証された。 この利点は、セマンティックセグメンテーションとオブジェクト検出の両方において、ライダーとマルチモーダルの両方で高いパフォーマンスをもたらす。 特に、pepモジュールはモデル非依存でプラグアンドプレイです。 私たちのコードはまもなく公開されます。

Point encoder is of vital importance for point cloud recognition. As the very beginning step of whole model pipeline, adding features from diverse sources and providing stronger feature encoding mechanism would provide better input for downstream modules. In our work, we proposed a novel PeP module to tackle above issue. PeP contains two main parts, a refined point painting method and a LM-based point encoder. Experiments results on the nuScenes and KITTI datasets validate the superior performance of our PeP. The advantages leads to strong performance on both semantic segmentation and object detection, in both lidar and multi-modal settings. Notably, our PeP module is model agnostic and plug-and-play. Our code will be publicly available soon.
翻訳日:2024-02-29 18:30:06 公開日:2024-02-28
# 形状バイアスに対する抵抗は等しいか? 歪み形状による形状バイアスの評価

Does resistance to Style-Transfer equal Shape Bias? Evaluating Shape Bias by Distorted Shape ( http://arxiv.org/abs/2310.07555v2 )

ライセンス: Link先を確認
Ziqi Wen, Tianqin Li, Zhi Jing, Tai Sing Lee(参考訳) ディープラーニングモデルは強いテクスチャバイアスを示すことが知られており、人間はオブジェクト認識のグローバルな形状に大きく依存する傾向がある。 モデル形状バイアスを評価するための現在のベンチマークは、モデルにおける形状感度の発達とスタイル伝達に対する耐性が関係していると仮定した、スタイル伝達画像のセットである。 本研究では,スタイル伝達画像で訓練されたネットワークが,スタイルを無視する傾向にあることを示すが,その形状バイアスは主に局所的な形状から生じる。 全球形状感度の代替測定として,変形形状試験ベンチ(dist)を提案する。 本テストでは,ImageNet-1Kから得られた2400枚の原画像と,テクスチャ合成プログラムを通じてテクスチャを保ちながら変形した原画像のグローバルな形状の2つの画像を含む。 その結果,(1)従来の形状バイアス評価でよく評価されたモデルは,提案するdistではうまく機能せず,(2)広く採用されているvitモデルは,従来の形状バイアステストでvitが上位であるにもかかわらず,このベンチマークでは畳み込みニューラルネットワーク(cnns)よりも大きなアドバンテージを示さないことがわかった。 (3)DST画像を用いたトレーニングは、標準的な画像分類タスクにおいてモデルの精度を保ちながら、人間と既存のSOTAモデルの顕著なギャップを埋める。 私たちのコードは次の通りホストされます。

Deep learning models are known to exhibit a strong texture bias, while human tends to rely heavily on global shape for object recognition. The current benchmark for evaluating a model's shape bias is a set of style-transferred images with the assumption that resistance to the attack of style transfer is related to the development of shape sensitivity in the model. In this work, we show that networks trained with style-transfer images indeed learn to ignore style, but its shape bias arises primarily from local shapes. We provide a Distorted Shape Testbench (DiST) as an alternative measurement of global shape sensitivity. Our test includes 2400 original images from ImageNet-1K, each of which is accompanied by two images with the global shapes of the original image distorted while preserving its texture via the texture synthesis program. We found that (1) models that performed well on the previous shape bias evaluation do not fare well in the proposed DiST; (2) the widely adopted ViT models do not show significant advantages over Convolutional Neural Networks (CNNs) on this benchmark despite that ViTs rank higher on the previous shape bias tests. (3) training with DiST images bridges the significant gap between human and existing SOTA models' performance while preserving the models' accuracy on standard image classification tasks; training with DiST images and style-transferred images are complementary, and can be combined to train network together to enhance both the global and local shape sensitivity of the network. Our code will be host at: https://github.com/leelabcnbc/DiST
翻訳日:2024-02-29 18:29:54 公開日:2024-02-28
# 数学質問者としてのチャットGPT 大学前数学の質問生成におけるChatGPTの評価

ChatGPT as a Math Questioner? Evaluating ChatGPT on Generating Pre-university Math Questions ( http://arxiv.org/abs/2312.01661v2 )

ライセンス: Link先を確認
Phuoc Pham Van Long, Duc Anh Vu, Nhat M. Hoang, Xuan Long Do, Anh Tuan Luu(参考訳) 数学的な質問は学生の問題解決スキルを評価するのに不可欠である。 このような質問を手動で作成するにはかなりの労力を要するため、自動メソッドが検討されている。 既存の最先端モデルは微調整戦略に依存しており、論理的および算術的推論の複数のステップを含む問題を生成するのに苦労している。 一方、ChatGPTのような大規模言語モデル(LLM)は、論理的推論や算術的推論を含む多くのNLPタスクで優れている。 それにもかかわらず、教育問題の生成におけるそれらの応用は、特に数学の分野では、未利用である。 このギャップを埋めるために、我々はChatGPTの詳細な分析を行い、大学前数学の質問を生成する。 分析は,コンテキスト認識とコンテキスト認識の2つに分類した。 文脈認識環境では,初等・中等・第三級を対象とする既存の数学質問応答ベンチマークを用いてChatGPTを評価する。 文脈を意識しない環境では、学習前の数学カリキュラムから各授業の数学質問を生成する際にChatGPTを評価する。 初等・中等・第三等から121の数学科と428の科目から収集した,大学前の数学カリキュラムの包括的かつ斬新なコレクションである topicmath をクロールした。 この分析を通じて,ChatGPTが数学質問者となる可能性について考察する。

Mathematical questioning is crucial for assessing students problem-solving skills. Since manually creating such questions requires substantial effort, automatic methods have been explored. Existing state-of-the-art models rely on fine-tuning strategies and struggle to generate questions that heavily involve multiple steps of logical and arithmetic reasoning. Meanwhile, large language models(LLMs) such as ChatGPT have excelled in many NLP tasks involving logical and arithmetic reasoning. Nonetheless, their applications in generating educational questions are underutilized, especially in the field of mathematics. To bridge this gap, we take the first step to conduct an in-depth analysis of ChatGPT in generating pre-university math questions. Our analysis is categorized into two main settings: context-aware and context-unaware. In the context-aware setting, we evaluate ChatGPT on existing math question-answering benchmarks covering elementary, secondary, and ternary classes. In the context-unaware setting, we evaluate ChatGPT in generating math questions for each lesson from pre-university math curriculums that we crawl. Our crawling results in TopicMath, a comprehensive and novel collection of pre-university math curriculums collected from 121 math topics and 428 lessons from elementary, secondary, and tertiary classes. Through this analysis, we aim to provide insight into the potential of ChatGPT as a math questioner.
翻訳日:2024-02-29 18:25:54 公開日:2024-02-28
# 機械学習導出型絡み合いウィットネスのための学習データサイズの指数的削減

An Exponential Reduction in Training Data Sizes for Machine Learning Derived Entanglement Witnesses ( http://arxiv.org/abs/2311.18162v2 )

ライセンス: Link先を確認
Aiden R. Rosebush, Alexander C. B. Greenwood, Brian T. Kirby, Li Qian(参考訳) 提案手法よりも指数関数的に少ないトレーニングデータを必要とする絡み合い証人を生成するためのサポートベクターマシン(svm)ベースの手法を提案する。 svmは、すべての分離可能な状態の正の数と、できるだけ多くの絡み合った状態の負の数に、係数を最適化した局所観測可能状態の期待値の重み付け和で表される超平面を生成する。 従来のSVMベースのエンタングルメントビジター生成アプローチでは、大量のランダムに生成された分離可能な状態を使用してトレーニングを行った。 本稿では、一般化されたパウリ行列の固有状態と対象の絡み合った状態の近傍の絡み合った状態からなるかなり小さな状態のみを用いて、証人超平面の向き付けを行う方法を提案する。 SVMによって設定された証人超平面の配向により、限定試験セットの完全な分類精度と耐雑音性を確保する差分プログラムを用いて、平面の配置を調整する。 n$ qubits の場合、このアプローチの svm 部分は $o(6^n)$ トレーニング状態のみを必要とするが、既存のメソッドは $o(2^{4^n})$ を必要とする。 この方法では、4量子ビットと5量子ビットのghz状態の証人を、それぞれ6.5%と1%の範囲で安定形式に一致する係数で構成する。 また、同じトレーニングステートを使用して、新しい4および5キュービットのW状態証人を生成します。 最後に,これらの証人を小さなテストセット上で計算的に検証し,さらなる検証方法を提案する。

We propose a support vector machine (SVM) based approach for generating an entanglement witness that requires exponentially less training data than previously proposed methods. SVMs generate hyperplanes represented by a weighted sum of expectation values of local observables whose coefficients are optimized to sum to a positive number for all separable states and a negative number for as many entangled states as possible near a specific target state. Previous SVM-based approaches for entanglement witness generation used large amounts of randomly generated separable states to perform training, a task with considerable computational overhead. Here, we propose a method for orienting the witness hyperplane using only the significantly smaller set of states consisting of the eigenstates of the generalized Pauli matrices and a set of entangled states near the target entangled states. With the orientation of the witness hyperplane set by the SVM, we tune the plane's placement using a differential program that ensures perfect classification accuracy on a limited test set as well as maximal noise tolerance. For $N$ qubits, the SVM portion of this approach requires only $O(6^N)$ training states, whereas an existing method needs $O(2^{4^N})$. We use this method to construct witnesses of 4 and 5 qubit GHZ states with coefficients agreeing with stabilizer formalism witnesses to within 6.5 percent and 1 percent, respectively. We also use the same training states to generate novel 4 and 5 qubit W state witnesses. Finally, we computationally verify these witnesses on small test sets and propose methods for further verification.
翻訳日:2024-02-29 18:25:30 公開日:2024-02-28
# TFMQ-DM:拡散モデルのための時間的特徴維持量子化

TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models ( http://arxiv.org/abs/2311.16503v2 )

ライセンス: Link先を確認
Yushi Huang, Ruihao Gong, Jing Liu, Tianlong Chen, Xianglong Liu(参考訳) 画像生成の一般的なフレームワークであるDiffusionモデルは、推論時間の拡張とかなりのメモリ要求のため、幅広い適用性の観点から大きな課題に直面している。 効率的なトレーニング後の量子化(ptq)は、これらの問題を従来のモデルで扱う上で重要である。 従来のモデルと異なり、拡散モデルは十分なマルチラウンドデノイジン化を達成するために時間ステップ$t$に大きく依存する。 通常、有限集合 $\{1, \ldots, t\}$ から$t$ はサンプリングデータに全く関係なくいくつかの加群によって時間的特徴に符号化される。 しかし、既存のPTQメソッドはこれらのモジュールを個別に最適化しない。 彼らは不適切な再建ターゲットと複雑なキャリブレーション手法を採用し、時間的特徴の深刻な乱れと軌道の偏り、圧縮効率の低下をもたらす。 そこで本研究では,時間ステップ$t$にのみ関連し,サンプリングデータとは無関係な時間的情報ブロックに基づく時間的特徴維持量化(tfmq)フレームワークを提案する。 先駆的なブロック設計により、時間的情報認識再構築(tiar)と有限集合校正(fsc)を考案し、全精度時間的特徴を限られた時間内に調整する。 フレームワークを備えることで、最も時間的な情報を維持でき、エンドツーエンドの生成品質を保証できます。 様々なデータセットと拡散モデルに関する広範囲な実験により、最先端の結果が証明された。 注目すべきことに、我々の量子化アプローチは初めて、4ビットの重み量子化の下での完全精度モデルとほぼ同等のモデル性能を達成する。 さらに,提案手法は計算コストをほとんど必要とせず,LSUN-Bedrooms の量子化時間を 256$ の$2.0 \times$ で高速化する。

The Diffusion model, a prevalent framework for image generation, encounters significant challenges in terms of broad applicability due to its extended inference times and substantial memory requirements. Efficient Post-training Quantization (PTQ) is pivotal for addressing these issues in traditional models. Different from traditional models, diffusion models heavily depend on the time-step $t$ to achieve satisfactory multi-round denoising. Usually, $t$ from the finite set $\{1, \ldots, T\}$ is encoded to a temporal feature by a few modules totally irrespective of the sampling data. However, existing PTQ methods do not optimize these modules separately. They adopt inappropriate reconstruction targets and complex calibration methods, resulting in a severe disturbance of the temporal feature and denoising trajectory, as well as a low compression efficiency. To solve these, we propose a Temporal Feature Maintenance Quantization (TFMQ) framework building upon a Temporal Information Block which is just related to the time-step $t$ and unrelated to the sampling data. Powered by the pioneering block design, we devise temporal information aware reconstruction (TIAR) and finite set calibration (FSC) to align the full-precision temporal features in a limited time. Equipped with the framework, we can maintain the most temporal information and ensure the end-to-end generation quality. Extensive experiments on various datasets and diffusion models prove our state-of-the-art results. Remarkably, our quantization approach, for the first time, achieves model performance nearly on par with the full-precision model under 4-bit weight quantization. Additionally, our method incurs almost no extra computational cost and accelerates quantization time by $2.0 \times$ on LSUN-Bedrooms $256 \times 256$ compared to previous works.
翻訳日:2024-02-29 18:24:35 公開日:2024-02-28
# SAR ATRのための自己監督型学習の探索:知識指導型予測的視点

Exploring Self-Supervised Learning for SAR ATR: A Knowledge-Guided Predictive Perspective ( http://arxiv.org/abs/2311.15153v3 )

ライセンス: Link先を確認
Weijie Li, Yang Wei, Tianpeng Liu, Yuenan Hou, Yuxuan Li, Zhen Liu, Yongxiang Liu, Li Liu(参考訳) SAR(Synthetic Aperture Radar)ターゲットデータセットの増加により、自己監視学習(SSL)を利用した基礎モデルを使用して、さまざまなSAR自動ターゲット認識(ATR)タスクの統合が可能になる。 sslは、データから直接監視信号を導出することを目的としており、コストのかかる専門家のラベル付けの必要性を最小化し、基礎モデルの構築における拡張サンプルプールの使用を最大化する。 本研究では,SAR ATRの有効SSL手法について検討し,基礎モデル構築の道筋を舗装する。 SSL for SAR ATRで直面する主な障害は、リモートセンシング画像のスケール問題とSAR画像のスペックルノイズである。 これらの課題を克服するために,局所的なマスキングパッチを利用した知識誘導予測アーキテクチャ(SAR-KPGA)という新しい手法を提案する。 SAR-KPGAの重要な側面は、SSLの高品質なターゲット機能を保証するためにSARドメイン機能を統合することである。 さらに,リモートセンシングシナリオにおける大規模画像スケールとターゲットスケールの変動に対応するために,ローカルマスクとマルチスケール機能を採用している。 3つの目標認識データセット(車両、船舶、航空機)のフレームワークの評価により、他のSSLメソッドよりも優れた性能を示し、SARデータの増加による有効性を示す。 本研究は,多種多様なターゲット,シーン,センサにわたるSARターゲット認識におけるSSLの可能性を示す。

The growing availability of Synthetic Aperture Radar (SAR) target datasets allows for the consolidation of different SAR Automatic Target Recognition (ATR) tasks using a foundational model powered by Self-Supervised Learning (SSL). SSL aims to derive supervision signals directly from the data, thereby minimizing the need for costly expert labeling and maximizing the use of the expanding sample pool in constructing a foundational model. This study investigates an effective SSL method for SAR ATR, which can pave the way for building the foundation model. The primary obstacles faced in SSL for SAR ATR are the scale problem of the remote sensing images and speckle noise in SAR images. To overcome these challenges, we present a novel approach called Knowledge-Guided Predictive Architecture (SAR-KPGA), which leverages local masked patches to predict the multi-scale SAR feature representations of unseen context. The key aspect of SAR-KPGA is integrating SAR domain features to ensure high-quality target features for SSL. Furthermore, we employ local masks and multi-scale features to accommodate the large image scale and target scale variations in remote sensing scenarios. By evaluating our framework on three target recognition datasets (vehicle, ship, and aircraft), we demonstrate its outperformance over other SSL methods and its effectiveness with increasing SAR data. This study showcases the potential of SSL for SAR target recognition across diverse targets, scenes, and sensors.
翻訳日:2024-02-29 18:24:07 公開日:2024-02-28
# ガウス的信念伝播を伴う深部因子グラフの学習

Learning in Deep Factor Graphs with Gaussian Belief Propagation ( http://arxiv.org/abs/2311.14649v2 )

ライセンス: Link先を確認
Seth Nabarro, Mark van der Wilk, Andrew J Davison(参考訳) ガウス因子グラフにおける学習の方法を提案する。 我々は,すべての関連する量(インプット,出力,パラメータ,潜時)をグラフィカルモデルにおけるランダム変数として扱い,学習と予測の両方を異なる観測ノードでの推論問題とみなす。 実験の結果,これらの問題は,更新が本質的にローカルである信念伝達(BP)によって効率的に解決できることが示唆された。 提案手法はディープネットワークに拡張可能であり,連続的な学習を行う自然な手段を提供する。 ビデオデノケーションタスクでは、古典的因子グラフアプローチよりも学習可能なパラメータの利点を実証し、連続的な画像分類のための深度因子グラフの性能向上を示す。

We propose an approach to do learning in Gaussian factor graphs. We treat all relevant quantities (inputs, outputs, parameters, latents) as random variables in a graphical model, and view both training and prediction as inference problems with different observed nodes. Our experiments show that these problems can be efficiently solved with belief propagation (BP), whose updates are inherently local, presenting exciting opportunities for distributed and asynchronous training. Our approach can be scaled to deep networks and provides a natural means to do continual learning: use the BP-estimated parameter marginals of the current task as parameter priors for the next. On a video denoising task we demonstrate the benefit of learnable parameters over a classical factor graph approach and we show encouraging performance of deep factor graphs for continual image classification.
翻訳日:2024-02-29 18:23:41 公開日:2024-02-28
# プレテキストタスクを用いた時系列分類の基礎モデル探索

Finding Foundation Models for Time Series Classification with a PreText Task ( http://arxiv.org/abs/2311.14534v2 )

ライセンス: Link先を確認
Ali Ismail-Fawaz, Maxime Devanne, Stefano Berretti, Jonathan Weber, Germain Forestier(参考訳) 過去10年間で、時系列分類(TSC)が注目されている。 様々な手法が研究されているが、特に畳み込みニューラルネットワーク(CNN)による深層学習は効果的なアプローチである。 しかしながら、トレーニングデータの可用性が限られているため、過剰フィッティング問題を克服するtscの基礎モデルの定義は依然として困難な課題である。 UCRアーカイブは、モーション認識から心電図に基づく心臓病検出まで幅広いデータセットを包含しており、多様なTSCシナリオでこの問題を探求する主要な例となっている。 本稿では、事前訓練されたドメイン基盤モデルを導入することで、オーバーフィッティングの課題に対処する。 我々の方法論の重要な側面は、複数のデータセットにまたがる新しいプリテキストタスクである。 このタスクは、異なるデータセットにまたがって適用可能な柔軟な畳み込みフィルタを作成することを目的として、各時系列サンプルのデータセットを識別するように設計されている。 研究プロセスは、プリテキストタスクを通じてモデルが一般的な特徴を取得する事前学習フェーズと、特定のデータセット分類のためのその後の微調整フェーズの2つのフェーズで構成される。 ucrアーカイブを用いた広範な実験により,この事前トレーニング戦略が,事前トレーニングを行わずとも従来のトレーニングアプローチを大きく上回っていることが示された。 この戦略は、小さなデータセットのオーバーフィッティングを効果的に削減し、これらのモデルを新しいデータセットに適応するための効率的なルートを提供する。

Over the past decade, Time Series Classification (TSC) has gained an increasing attention. While various methods were explored, deep learning - particularly through Convolutional Neural Networks (CNNs)-stands out as an effective approach. However, due to the limited availability of training data, defining a foundation model for TSC that overcomes the overfitting problem is still a challenging task. The UCR archive, encompassing a wide spectrum of datasets ranging from motion recognition to ECG-based heart disease detection, serves as a prime example for exploring this issue in diverse TSC scenarios. In this paper, we address the overfitting challenge by introducing pre-trained domain foundation models. A key aspect of our methodology is a novel pretext task that spans multiple datasets. This task is designed to identify the originating dataset of each time series sample, with the goal of creating flexible convolution filters that can be applied across different datasets. The research process consists of two phases: a pre-training phase where the model acquires general features through the pretext task, and a subsequent fine-tuning phase for specific dataset classifications. Our extensive experiments on the UCR archive demonstrate that this pre-training strategy significantly outperforms the conventional training approach without pre-training. This strategy effectively reduces overfitting in small datasets and provides an efficient route for adapting these models to new datasets, thus advancing the capabilities of deep learning in TSC.
翻訳日:2024-02-29 18:23:27 公開日:2024-02-28
# 駆動散逸型ボース・アインシュタイン凝縮と上部臨界次元

Driven-Dissipative Bose-Einstein Condensation and the Upper Critical Dimension ( http://arxiv.org/abs/2311.13561v2 )

ライセンス: Link先を確認
Yikang Zhang, Thomas Barthel(参考訳) 運転と消散はボース=アインシュタイン凝縮を安定化させる。 ケルディッシュ場理論を用いて、オンサイト2粒子駆動、オンサイト1粒子および2粒子損失、およびエッジ相関パンピングを含むマルコフ系のこの現象を解析する。 平均場理論では、上限の臨界次元の上にポンプと二粒子駆動が非相互作用理論の安定領域と不安定領域の境界で凝縮を誘導することを示している。 ゼロでない二粒子駆動では、凝縮物がガッピングされる。 この図は、単一粒子基底変換の下での不変性以外の対称性の制約がなければ、すべてのギャップ付き二次ボソニック・リウヴィリアンは同じ位相に属するという最近の観察と一致している。 上臨界次元以下の系では、エッジ相関ポンピングは高運動量ゆらぎをペナルティ化し、理論を正規化することができる。 非相互作用理論の不安定領域内における凝縮遷移を求める一ループ再正規化群解析を行う。 興味深いことに、その臨界挙動は3次元において普遍相関長指数 $\nu=0.6$ を持つウィルソン・フィッシャー的不動点によって決定される。

Driving and dissipation can stabilize Bose-Einstein condensates. Using Keldysh field theory, we analyze this phenomenon for Markovian systems that can comprise on-site two-particle driving, on-site single-particle and two-particle loss, as well as edge-correlated pumping. Above the upper critical dimension, mean-field theory shows that pumping and two-particle driving induce condensation right at the boundary between the stable and unstable regions of the non-interacting theory. With nonzero two-particle driving, the condensate is gapped. This picture is consistent with the recent observation that, without symmetry constraints beyond invariance under single-particle basis transformations, all gapped quadratic bosonic Liouvillians belong to the same phase. For systems below the upper critical dimension, the edge-correlated pumping penalizes high-momentum fluctuations, rendering the theory renormalizable. We perform the one-loop renormalization group analysis, finding a condensation transition inside the unstable region of the non-interacting theory. Interestingly, its critical behavior is determined by a Wilson-Fisher-like fixed point with universal correlation-length exponent $\nu=0.6$ in three dimensions.
翻訳日:2024-02-29 18:23:04 公開日:2024-02-28
# 無許可テキスト対画像拡散に基づく合成に対するロバストな知覚不可能な摂動に向けて

Toward Robust Imperceptible Perturbation against Unauthorized Text-to-image Diffusion-based Synthesis ( http://arxiv.org/abs/2311.13127v2 )

ライセンス: Link先を確認
Yixin Liu, Chenrui Fan, Yutong Dai, Xun Chen, Pan Zhou, and Lichao Sun(参考訳) テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。 しかし、これらのツールは間違った手で、誤解を招くか有害なコンテンツを作ることができ、個人を危険にさらす。 この問題に対処するため、既存の中毒ベースのアプローチでは、悪意のある使用からユーザイメージを“理解不能”にするために、ユーザイメージを摂動させます。 これらの防御的アプローチの2つの限界を特定します 一 難解な二段階最適化を解決するための手作りのヒューリスティックによる副最適化及び ii)ガウスフィルタのような単純なデータ変換に対する堅牢性の欠如。 これらの課題を解決するために,我々はメタラーニングフレームワークを用いて,トランスフォーメーションサンプリングプロセスを追加して,トランスフォーメーション可能かつロバストな摂動を実現するメタクロークを提案する。 具体的には,トランスファー可能でモデル非依存な摂動を実現するために,代理拡散モデルのプールを用いる。 さらに,追加の変換処理を組み込むことにより,パーソナライズ・ジェネレーションにおいて,変換・ロバスト意味的歪みや劣化を引き起こすのに十分である,単純なデノイズ・エラーの最大化損失を設計できる。 VGGFace2とCelebA-HQデータセットの大規模な実験は、MetaCloakが既存のアプローチより優れていることを示している。 特にMetaCloakは、Replicateのようなオンライントレーニングサービスをブラックボックス方式でうまく騙し、現実世界のシナリオにおけるMetaCloakの有効性を実証することができる。 私たちのコードはhttps://github.com/liuyixin-louis/metacloakで利用可能です。

Text-to-image diffusion models allow seamless generation of personalized images from scant reference photos. Yet, these tools, in the wrong hands, can fabricate misleading or harmful content, endangering individuals. To address this problem, existing poisoning-based approaches perturb user images in an imperceptible way to render them "unlearnable" from malicious uses. We identify two limitations of these defending approaches: i) sub-optimal due to the hand-crafted heuristics for solving the intractable bilevel optimization and ii) lack of robustness against simple data transformations like Gaussian filtering. To solve these challenges, we propose MetaCloak, which solves the bi-level poisoning problem with a meta-learning framework with an additional transformation sampling process to craft transferable and robust perturbation. Specifically, we employ a pool of surrogate diffusion models to craft transferable and model-agnostic perturbation. Furthermore, by incorporating an additional transformation process, we design a simple denoising-error maximization loss that is sufficient for causing transformation-robust semantic distortion and degradation in a personalized generation. Extensive experiments on the VGGFace2 and CelebA-HQ datasets show that MetaCloak outperforms existing approaches. Notably, MetaCloak can successfully fool online training services like Replicate, in a black-box manner, demonstrating the effectiveness of MetaCloak in real-world scenarios. Our code is available at https://github.com/liuyixin-louis/MetaCloak.
翻訳日:2024-02-29 18:22:42 公開日:2024-02-28
# 不可避暗号へのモジュール的アプローチ

A Modular Approach to Unclonable Cryptography ( http://arxiv.org/abs/2311.11890v2 )

ライセンス: Link先を確認
Prabhanjan Ananth, Amit Behera(参考訳) 我々は、ブロックできない暗号プリミティブを設計するための新しい経路を探究する。 我々は,unclonable puncturable obfuscation(upo)と呼ばれる新しい概念を提案し,その非clonable cryptographyに対する意義について検討する。 UPOを用いて、公開鍵量子マネー、多くの機能クラスの量子コピー保護、制限不能暗号化、単一復号化暗号化など、多くのプリミティブをモジュラー(かつ間違いなく単純な)構成で表現する。 特に、UPOの存在を前提として、以下の新たな結果が得られる: 暗号化機能は、この機能がセキュリティの概念を満たす限り、コピー-プロテクト可能であることを示す。 先行実行可能性の結果は、特定の暗号機能に対するコピー保護に焦点が当てられた。 画像分割条件を満たす限り,任意の回避関数のクラスに対してコピー保護が存在することを示す。 先行研究は点関数のコピー保護を示し、これは結果の特別な場合として従う。 ブロック不能な暗号化がプレーンモデルに存在することを示す。 先行研究は量子ランダムオラクルモデルにおいて実現可能性を示した。 我々は,upoの候補構成を提唱し,(後量子)サブ指数的にセキュアな非識別性難読化関数と一方向関数の存在,誤りを伴う学習の量子ハードネス,同時内積予想という新たな予想に基づいて,セキュリティ概念を2つ証明した。

We explore a new pathway to designing unclonable cryptographic primitives. We propose a new notion called unclonable puncturable obfuscation (UPO) and study its implications for unclonable cryptography. Using UPO, we present modular (and arguably, simple) constructions of many primitives in unclonable cryptography, including public-key quantum money, quantum copy-protection for many classes of functionalities, unclonable encryption, and single-decryption encryption. Notably, we obtain the following new results assuming the existence of UPO: We show that any cryptographic functionality can be copy-protected as long as this functionality satisfies a notion of security, which we term as puncturable security. Prior feasibility results focused on copy-protecting specific cryptographic functionalities. We show that copy-protection exists for any class of evasive functions as long as the associated distribution satisfies a preimage-sampleability condition. Prior works demonstrated copy-protection for point functions, which follows as a special case of our result. We show that unclonable encryption exists in the plain model. Prior works demonstrated feasibility results in the quantum random oracle model. We put forward a candidate construction of UPO and prove two notions of security, each based on the existence of (post-quantum) sub-exponentially secure indistinguishability obfuscation and one-way functions, the quantum hardness of learning with errors, and a new conjecture called simultaneous inner product conjecture.
翻訳日:2024-02-29 18:22:15 公開日:2024-02-28
# 密度サンプリングによる3次元物体検出の領域一般化

Domain Generalization of 3D Object Detection by Density-Resampling ( http://arxiv.org/abs/2311.10845v2 )

ライセンス: Link先を確認
Shuangzhi Li, Lei Ma, and Xingyu Li(参考訳) ポイントクラウドベースの3Dオブジェクト検出は、新しいドメインギャップを持つデータに遭遇する際のパフォーマンス劣化に悩まされる。 これに対処するため、sdg(single-domain generalization)は、限定された単一ソースドメインでトレーニングされた検出モデルを一般化し、未探索領域で堅牢に実行することを目的としている。 本稿では,3次元物体検出のターゲット領域への一般化性を向上させるためのSDG手法を提案する。 データ拡張にのみ焦点をあてた3Dオブジェクト検出のための従来のSDG処理とは異なり、本研究では新しいデータ拡張手法を導入し、方法論に新しいマルチタスク学習戦略を貢献する。 具体的には,データ拡張の観点から,多種多様な点密度から生じる性能損失を軽減するため,汎用的な物理認識密度ベースデータ拡張法(pdda)を考案する。 学習方法論の観点から、3Dオブジェクト検出のためのマルチタスク学習を開発する。ソーストレーニング中は、メインの標準検出タスクに加えて、補助的な自己監督型3Dシーン復元タスクを活用し、背景および前景におけるエンコーダの理解を高め、オブジェクトの認識と検出を改善する。 さらに,補助的な自己監視タスクに基づいて,エンコーダのパラメータを効率的に調整して被検出領域に適応させ,さらに領域ギャップを橋渡しする3次元物体検出の領域一般化のためのテスト時間適応法を提案する。 カー」,「ペデストリアン」,「サイクリスト」検出を網羅した大規模なクロスデータセット実験により,我々の手法は最先端のSDG法よりも優れており,場合によっては教師なしドメイン適応法を超越することもある。

Point-cloud-based 3D object detection suffers from performance degradation when encountering data with novel domain gaps. To tackle it, the single-domain generalization (SDG) aims to generalize the detection model trained in a limited single source domain to perform robustly on unexplored domains. In this paper, we propose an SDG method to improve the generalizability of 3D object detection to unseen target domains. Unlike prior SDG works for 3D object detection solely focusing on data augmentation, our work introduces a novel data augmentation method and contributes a new multi-task learning strategy in the methodology. Specifically, from the perspective of data augmentation, we design a universal physical-aware density-based data augmentation (PDDA) method to mitigate the performance loss stemming from diverse point densities. From the learning methodology viewpoint, we develop a multi-task learning for 3D object detection: during source training, besides the main standard detection task, we leverage an auxiliary self-supervised 3D scene restoration task to enhance the comprehension of the encoder on background and foreground details for better recognition and detection of objects. Furthermore, based on the auxiliary self-supervised task, we propose the first test-time adaptation method for domain generalization of 3D object detection, which efficiently adjusts the encoder's parameters to adapt to unseen target domains during testing time, to further bridge domain gaps. Extensive cross-dataset experiments covering "Car", "Pedestrian", and "Cyclist" detections, demonstrate our method outperforms state-of-the-art SDG methods and even overpass unsupervised domain adaptation methods under some circumstances.
翻訳日:2024-02-29 18:21:49 公開日:2024-02-28
# BLT: 大規模言語モデルは基本法文を扱えるか?

BLT: Can Large Language Models Handle Basic Legal Text? ( http://arxiv.org/abs/2311.09693v2 )

ライセンス: Link先を確認
Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme(参考訳) GPT-4やClaude, {PaLM 2} などの公開 LLM は,現在,基本的な法的テキスト処理では不十分であることがわかった。 我々は,弁護士や法務官が LLM がゼロショットを扱うことを期待するタスク,例えば証人の供述の行や契約のサブセクションでテキストを検索するタスクからなるベンチマークを導入する。 LLMのこのベンチマークにおける性能の低さは、法的慣行の信頼性を疑う結果となった。 しかしながら、これらのタスクの微調整は、テストセット上でのほぼ完全なパフォーマンスにさらに小さなモデルをもたらし、関連する法的タスクのパフォーマンスも向上します。 これらの結果は、ドメインに必要な単純な振る舞いの多くは、基礎的なLLMには存在しない可能性があることを示唆している。

We find that the best publicly available LLMs like GPT-4, Claude, and {PaLM 2} currently perform poorly at basic legal text handling. We introduce a benchmark consisting of tasks that lawyers and paralegals would expect LLMs to handle zero-shot, such as looking up the text at a line of a witness deposition or at a subsection of a contract. LLMs' poor performance on this benchmark casts into doubt their reliability as-is for legal practice. However, fine-tuning for these tasks brings even a smaller model to near-perfect performance on our test set and also raises performance on a related legal task. These results suggest that many simple behaviors needed for a domain may not be present in foundational LLMs, without additional engagement from subject matter experts.
翻訳日:2024-02-29 18:21:17 公開日:2024-02-28
# CLEAN-EVAL:汚染された大規模言語モデルのクリーンな評価

CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models ( http://arxiv.org/abs/2311.09154v2 )

ライセンス: Link先を確認
Wenhong Zhu, Hongkun Hao, Zhiwei He, Yunze Song, Yumeng Zhang, Hanxu Hu, Yiran Wei, Rui Wang, Hongyuan Lu(参考訳) 現在、さまざまな大規模言語モデル(LLM)の激しい競争が、ベンチマークパフォーマンスの境界を継続的に押し付けています。 しかし、これらのLSMの能力を真に評価することは、潜在的なデータ汚染のために困難で重要な問題となり、研究者やエンジニアがそれらの汚染されたモデルをダウンロードして試すのに何十年もの時間と労力を浪費している。 貴重な時間を節約するために,データ汚染の問題を軽減し,LLMをよりクリーンに評価する,新規で有用な方法であるClean-Evalを提案する。 clean-Eval は LLM を用いて、汚染されたデータを候補セットに逆変換し、同じ意味を持つ式を生成する。 次にセマンティック検出器を使用して生成した低品質サンプルをフィルタリングし、候補セットを絞り込む。 ベスト候補は最終的にBLEURTスコアに基づいてこのセットから選択される。 人間の評価によれば、この最良の候補は元々の汚染データと意味的に似ているが、異なる表現をしている。 すべての候補はモデルを評価するために新しいベンチマークを作成できる。 本実験は, 汚染されたLLMの実際の評価結果を, 数発の学習シナリオと微調整シナリオの両方で大幅に復元することを示した。

We are currently in an era of fierce competition among various large language models (LLMs) continuously pushing the boundaries of benchmark performance. However, genuinely assessing the capabilities of these LLMs has become a challenging and critical issue due to potential data contamination, and it wastes dozens of time and effort for researchers and engineers to download and try those contaminated models. To save our precious time, we propose a novel and useful method, Clean-Eval, which mitigates the issue of data contamination and evaluates the LLMs in a cleaner manner. Clean-Eval employs an LLM to paraphrase and back-translate the contaminated data into a candidate set, generating expressions with the same meaning but in different surface forms. A semantic detector is then used to filter the generated low-quality samples to narrow down this candidate set. The best candidate is finally selected from this set based on the BLEURT score. According to human assessment, this best candidate is semantically similar to the original contamination data but expressed differently. All candidates can form a new benchmark to evaluate the model. Our experiments illustrate that Clean-Eval substantially restores the actual evaluation results on contaminated LLMs under both few-shot learning and fine-tuning scenarios.
翻訳日:2024-02-29 18:21:04 公開日:2024-02-28
# 非無視欠落データの同定と推定:データ融合アプローチ

Identification and Estimation for Nonignorable Missing Data: A Data Fusion Approach ( http://arxiv.org/abs/2311.09015v2 )

ライセンス: Link先を確認
Zixiao Wang, AmirEmad Ghassami, Ilya Shpitser(参考訳) 我々は、データがランダムでない設定(mnar)において、興味のあるパラメータを同定し、推定するタスクについて検討する。 一般に、そのようなパラメータは、欠落したデータモデルに強い仮定なしでは識別されない。 本稿では、mnarデータセットの情報は、ランダム(mar)における欠落の対象となる補助データセットの情報によって拡張されるデータ融合に着想を得た手法を提案する。 いずれかのデータセットのみから興味のあるパラメータを識別できない場合でも、2つの相補的な仮定の下でプールデータとして識別できることを示す。 同定されたパラメータに対する逆確率重み付き(IPW)推定器を導出し,シミュレーション研究およびデータアプリケーションを用いて推定手法の性能を評価する。

We consider the task of identifying and estimating a parameter of interest in settings where data is missing not at random (MNAR). In general, such parameters are not identified without strong assumptions on the missing data model. In this paper, we take an alternative approach and introduce a method inspired by data fusion, where information in an MNAR dataset is augmented by information in an auxiliary dataset subject to missingness at random (MAR). We show that even if the parameter of interest cannot be identified given either dataset alone, it can be identified given pooled data, under two complementary sets of assumptions. We derive an inverse probability weighted (IPW) estimator for identified parameters, and evaluate the performance of our estimation strategies via simulation studies, and a data application.
翻訳日:2024-02-29 18:20:42 公開日:2024-02-28
# 大規模フォトニクス用高分解能一致計数システム

High-resolution coincidence counting system for large-scale photonics applications ( http://arxiv.org/abs/2311.08482v2 )

ライセンス: Link先を確認
Josef Hlou\v{s}ek, Jan Grygar, Michal Dudka, and Miroslav Je\v{z}ek(参考訳) 最近のフォトニクス実験の複雑さの増大は、高次機能を持つ効率的なマルチチャネル同時カウントシステムの開発に挑戦している。 本稿では,全チャネル数分解能で,シングルから16倍までの検出イベントをカウントできる一致ユニットについて報告する。 このデバイスは、最大入力周波数が1.5~ghz、全体的なジッタが10~ps未満の、100~ps以下のタイムウィンドウ内で動作します。 単位高レベルのタイミング性能は、低減衰ジッタ単光子検出器を用いた量子フォトニクス実験に適している。 さらに、このユニットは複雑なフォトニックシステムでフィードフォワードループを駆動するために使用できる。 光の統計的性質、特にコヒーレントな状態と熱状態を直接定量化するために、光子数分解検出における偶然カウントユニットを開発した。

The increasing complexity of the recent photonic experiments challenges developing efficient multi-channel coincidence counting systems with high-level functionality. Here, we report a coincidence unit able to count detection events ranging from singles to 16-fold coincidences with full channel-number resolution. The device operates within sub-100~ps coincidence time windows, with a maximum input frequency of 1.5~GHz and an overall jitter of less than 10~ps. The unit high-level timing performance renders it suitable for quantum photonic experiments employing low-timing-jitter single-photon detectors. Additionally, the unit can be used in complex photonic systems to drive feed-forward loops. We have demonstrated the developed coincidence counting unit in photon-number-resolving detection to directly quantify the statistical properties of light, specifically coherent and thermal states, with a fidelity exceeding 0.999 up to 60~photons.
翻訳日:2024-02-29 18:20:28 公開日:2024-02-28
# 平衡から外れた対称性:時間結晶からブレッドドライブとフロッケ符号へ

SymTFT out of equilibrium: from time crystals to braided drives and Floquet codes ( http://arxiv.org/abs/2312.17176v2 )

ライセンス: Link先を確認
Vedant Motamarri, Campbell McLauchlan, Benjamin B\'eri(参考訳) シンメトリートポロジカル場理論(英: Symmetry Topological Field Theory、SymTFT)は、量子多体系の普遍的な特徴を1つの高次元における位相秩序の境界と見なして捉える枠組みである。 これは静的な低エネルギー設定において多くの洞察を得た。 本稿では,SymTFTの非平衡性を明らかにするために,1次元(1D)周期駆動システムとその2次元SymTFTに着目した。 駆動環境では境界条件(BC)は動的であり、空間的にも時間的にも適用できる。 トポロジカル演算子を通してSymTFTにどのように入ってくるかを示す。 これには、時間結晶(tcs)を対称性に富む時空bcを持つ系として明らかにすること、境界tcsのみと考えられる位相における頑健なバルク「dual tcs」、駆動双対性の生成、2次元フロッケ符号を双対空間bcを持つ1次元系に対する時空双対として同定することが含まれる。 また,双対性に富むbcs力学系を構築することにより,双対性欠陥の非可換ブレイディングが対称性に入り込み,系とbcs間の対称性電荷の正確なパンピングなどの効果を示す。 我々は、$\mathbb{z}_2$-symmetric 1d 系のアイデアを説明するが、我々の構成は任意の有限アーベル対称性に適用できる。

Symmetry Topological Field Theory (SymTFT) is a framework to capture universal features of quantum many-body systems by viewing them as a boundary of topological order in one higher dimension. This has yielded numerous insights in static low-energy settings. Here we study what SymTFT can reveal about nonequilibrium, focusing on one-dimensional (1D) periodically driven systems and their 2D SymTFTs. In driven settings, boundary conditions (BCs) can be dynamical and can apply both spatially and temporally. We show how this enters SymTFT via topological operators, which we then use to uncover several new results. These include revealing time crystals (TCs) as systems with symmetry-twisted temporal BCs, robust bulk ``dual TCs" in phases thought to be only boundary TCs, generating drive dualities, or identifying 2D Floquet codes as space-time duals to 1D systems with duality-twisted spatial BCs. We also show how, by making duality-twisted BCs dynamical, non-Abelian braiding of duality defects can enter SymTFT, leading to effects such as the exact pumping of symmetry charges between a system and its BCs. We illustrate our ideas for $\mathbb{Z}_2$-symmetric 1D systems, but our construction applies for any finite Abelian symmetry.
翻訳日:2024-02-29 18:15:41 公開日:2024-02-28
# 没入学習のための最適軌道計画の文脈における感情に基づく予測

Emotion Based Prediction in the Context of Optimized Trajectory Planning for Immersive Learning ( http://arxiv.org/abs/2312.11576v2 )

ライセンス: Link先を確認
Akey Sungheetha, Rajesh Sharma R, Chinnaiyan R(参考訳) 没入型学習の仮想要素として,google expeditionとタッチスクリーンに基づく感情について検討した。 本研究の目的は,これらの技術を組み合わせて仮想学習環境と学習者の感情的エンゲージメントを高めることにある。 教育的応用、余裕、認知的負荷が関係する対応する手段である。 学生は、技術を活用するこの研究を通じて、評価後の予測システムスコアがかなり高い理由を知ることができる。 これは、没入型学習シナリオに感情要素を組み込むことが効果的であることを示している。 本研究は、仮想現実と拡張現実体験を改善するために、教育技術における没入型学習技術の機能を活用し、新しい戦略の開発に役立つかもしれない。 さらに、物体追跡を大幅に改善する磁気、光学、ハイブリッドトラッカーを利用することで、没入学習環境の有効性を高めることができる。

In the virtual elements of immersive learning, the use of Google Expedition and touch-screen-based emotion are examined. The objective is to investigate possible ways to combine these technologies to enhance virtual learning environments and learners emotional engagement. Pedagogical application, affordances, and cognitive load are the corresponding measures that are involved. Students will gain insight into the reason behind their significantly higher post-assessment Prediction Systems scores compared to preassessment scores through this work that leverages technology. This suggests that it is effective to include emotional elements in immersive learning scenarios. The results of this study may help develop new strategies by leveraging the features of immersive learning technology in educational technologies to improve virtual reality and augmented reality experiences. Furthermore, the effectiveness of immersive learning environments can be raised by utilizing magnetic, optical, or hybrid trackers that considerably improve object tracking.
翻訳日:2024-02-29 18:14:47 公開日:2024-02-28
# ローカルサーチによる大規模マルチロボットカバレッジ経路計画

Large-Scale Multi-Robot Coverage Path Planning via Local Search ( http://arxiv.org/abs/2312.10797v2 )

ライセンス: Link先を確認
Jingtao Tang, Hang Ma(参考訳) グラフベースのマルチロボット被覆経路計画(MCPP)は、与えられた2次元格子地形グラフのすべての頂点をカバーするために、複数のロボットのカバレッジパスを計算することを目的としている。 既存のグラフベースのMCPPアルゴリズムは、まず、すべての頂点をカバーする複数の木の森であるG$でツリーカバーを計算し、次に、分割されたグラフ上のカバレッジパスを生成するためにSpanning Tree Coverage (STC)パラダイムを使用します。 本稿では,$d$ で適切なカバレッジパスを体系的に検索する方法を検討することにより,異なるアプローチをとる。 我々はLS-MCPPと呼ばれる新しいアルゴリズムフレームワークを導入し、ローカル検索を活用して$D$で直接操作する。 本稿では,STCを拡張して,非完全地形グラフであっても,任意の分解グラフ上でMCPPの完全なカバレッジを実現する,新たなスタンドアロンパラダイムであるExtended-STC(ESTC)を提案する。 さらに,ESTCを3種類の新しい近傍演算子と統合し,その探索過程を効果的にガイドする方法を示す。 我々はLS-MCPPの有効性を実証し、それぞれ35.7\%と30.3\%という顕著な減少率で、準最適木被覆をG$で計算する2つの最先端ベースラインアルゴリズムによって得られた初期解を一貫して改善した。 さらに、LS-MCPPは最適な木被覆計算の結果と一貫して一致または上回り、これらの結果を桁違いに高速な実行で達成し、大規模な実世界のカバレッジタスクにおいてその大きな利点を示す。

We study graph-based Multi-Robot Coverage Path Planning (MCPP) that aims to compute coverage paths for multiple robots to cover all vertices of a given 2D grid terrain graph $G$. Existing graph-based MCPP algorithms first compute a tree cover on $G$ -- a forest of multiple trees that cover all vertices -- and then employ the Spanning Tree Coverage (STC) paradigm to generate coverage paths on the decomposed graph $D$ of the terrain graph $G$ by circumnavigating the edges of the computed trees, aiming to optimize the makespan (i.e., the maximum coverage path cost among all robots). In this paper, we take a different approach by exploring how to systematically search for good coverage paths directly on $D$. We introduce a new algorithmic framework, called LS-MCPP, which leverages a local search to operate directly on $D$. We propose a novel standalone paradigm, Extended-STC (ESTC), that extends STC to achieve complete coverage for MCPP on any decomposed graphs, even those resulting from incomplete terrain graphs. Furthermore, we demonstrate how to integrate ESTC with three novel types of neighborhood operators into our framework to effectively guide its search process. Our extensive experiments demonstrate the effectiveness of LS-MCPP, consistently improving the initial solution returned by two state-of-the-art baseline algorithms that compute suboptimal tree covers on $G$, with a notable reduction in makespan by up to 35.7\% and 30.3\%, respectively. Moreover, LS-MCPP consistently matches or surpasses the results of optimal tree cover computation, achieving these outcomes with orders of magnitude faster runtime, thereby showcasing its significant benefits for large-scale real-world coverage tasks.
翻訳日:2024-02-29 18:14:36 公開日:2024-02-28
# テキスト単純化システムは意味を保存するか? 読書理解による人的評価

Do Text Simplification Systems Preserve Meaning? A Human Evaluation via Reading Comprehension ( http://arxiv.org/abs/2312.10126v2 )

ライセンス: Link先を確認
Sweta Agrawal, Marine Carpuat(参考訳) 自動テキスト単純化(TS)は、テキストの書き直しプロセスを自動化することで、読みやすくすることを目的としている。 TSが有用であることの前提条件は、元のテキストの意味と一致した情報を伝達することである。 しかし、現在のts評価プロトコルは、出力文が現れる文書コンテキストや、その理解方法によらず、簡潔さと意味の保存のためにシステム出力を評価する。 そこで本研究では,要約文が意味を保っているかどうかを,理解質問の読解を用いて評価するための評価フレームワークを提案する。 この枠組みを用いて,人間と9つの自動システムによるテキストの徹底的な人間による評価を行う。 事前学習知識を活用する監視システムは、自動制御可能なTSシステムの中で、読解理解(RC)タスクの最高スコアを達成する。 しかし、最も優れた監督されたシステムでさえ、少なくとも14%の質問に苦しめられ、単純化されたコンテンツに基づいて「答えられない」と表現している。 さらに,既存のts評価指標と自動質問応答システムについて検討した。

Automatic text simplification (TS) aims to automate the process of rewriting text to make it easier for people to read. A pre-requisite for TS to be useful is that it should convey information that is consistent with the meaning of the original text. However, current TS evaluation protocols assess system outputs for simplicity and meaning preservation without regard for the document context in which output sentences occur and for how people understand them. In this work, we introduce a human evaluation framework to assess whether simplified texts preserve meaning using reading comprehension questions. With this framework, we conduct a thorough human evaluation of texts by humans and by nine automatic systems. Supervised systems that leverage pre-training knowledge achieve the highest scores on the reading comprehension (RC) tasks amongst the automatic controllable TS systems. However, even the best-performing supervised system struggles with at least 14% of the questions, marking them as "unanswerable'' based on simplified content. We further investigate how existing TS evaluation metrics and automatic question-answering systems approximate the human judgments we obtained.
翻訳日:2024-02-29 18:14:04 公開日:2024-02-28
# 物理的世界における移動可能な3次元敵攻撃に向けて

Towards Transferable Targeted 3D Adversarial Attack in the Physical World ( http://arxiv.org/abs/2312.09558v2 )

ライセンス: Link先を確認
Yao Huang, Yinpeng Dong, Shouwei Ruan, Xiao Yang, Hang Su, Xingxing Wei(参考訳) 転送可能な非ターゲティング攻撃と比較すると、転送可能な標的攻撃は、攻撃対象サンプルの誤分類カテゴリを特定でき、セキュリティクリティカルなタスクにとって脅威となる。 一方で、マルチビューの堅牢性の可能性から、3dの逆さまなサンプルは、既存のディープラーニングシステムの弱点をより包括的に識別し、大きなアプリケーション価値を持つことができる。 しかし、転送可能な3d攻撃の分野は空白のままである。 本研究の目的は、移動可能な3次元対向体を生成できるより効率的な技術を開発し、この分野のギャップを埋めることである。 この目的を達成するために,少数のマルチビュー画像からTransferable Targeted 3D テクスチャメッシュに迅速に再構成できる TT3D という新しいフレームワークを設計した。 既存のメッシュベースのテクスチャ最適化手法は,高次元メッシュ空間の勾配を計算し,局所最適に陥りやすいため,不満足な転送性や歪みが生じるが,TT3Dは,グリッドベースのNeRF空間における特徴格子と多層パーセプトロン(MLP)パラメータの両方に対して,革新的な2つの最適化を行い,自然さを享受しながらブラックボックスの転送性を大幅に向上させる。 実験結果から,TT3Dはクロスモデル転送性に優れるだけでなく,様々なレンダリングや視覚タスクに適応可能であることが示された。 さらに,実世界における3Dプリンティング技術を用いた3次元対向的な実例を作成し,その頑健な性能を様々なシナリオで検証する。

Compared with transferable untargeted attacks, transferable targeted adversarial attacks could specify the misclassification categories of adversarial samples, posing a greater threat to security-critical tasks. In the meanwhile, 3D adversarial samples, due to their potential of multi-view robustness, can more comprehensively identify weaknesses in existing deep learning systems, possessing great application value. However, the field of transferable targeted 3D adversarial attacks remains vacant. The goal of this work is to develop a more effective technique that could generate transferable targeted 3D adversarial examples, filling the gap in this field. To achieve this goal, we design a novel framework named TT3D that could rapidly reconstruct from few multi-view images into Transferable Targeted 3D textured meshes. While existing mesh-based texture optimization methods compute gradients in the high-dimensional mesh space and easily fall into local optima, leading to unsatisfactory transferability and distinct distortions, TT3D innovatively performs dual optimization towards both feature grid and Multi-layer Perceptron (MLP) parameters in the grid-based NeRF space, which significantly enhances black-box transferability while enjoying naturalness. Experimental results show that TT3D not only exhibits superior cross-model transferability but also maintains considerable adaptability across different renders and vision tasks. More importantly, we produce 3D adversarial examples with 3D printing techniques in the real world and verify their robust performance under various scenarios.
翻訳日:2024-02-29 18:13:46 公開日:2024-02-28
# 身体的対向攻撃 : 自律運転における動的ロバスト物理攻撃

Embodied Adversarial Attack: A Dynamic Robust Physical Attack in Autonomous Driving ( http://arxiv.org/abs/2312.09554v2 )

ライセンス: Link先を確認
Yitong Sun, Yao Huang, Xingxing Wei(参考訳) セキュリティクリティカルなシナリオの潜在的なリスク、特に自動運転において、物理的な敵攻撃が広範囲に適用されるにつれ、環境変化に対する脆弱性も明らかになってきた。 物理的な敵攻撃の非ロバスト性は、安定した性能をもたらす。 To enhance the robustness of physical adversarial attacks in the real world, instead of statically optimizing a robust adversarial example via an off-line training manner like the existing methods, this paper proposes a brand new robust adversarial attack framework: Embodied Adversarial Attack (EAA) from the perspective of dynamic adaptation, which aims to employ the paradigm of embodied intelligence: Perception-Decision-Control to dynamically adjust the optimal attack strategy according to the current situations in real time. 認識モジュールは、被害者の視点でシミュレーションを必要とすることを考えると、攻撃者の視点から標的の変換を推定するパースペクティブ・トランスフォーメーション・ネットワークを革新的に考案する。 判定制御モジュールでは、レーザーを高操作可能な媒体として採用して物理的攻撃を実施、さらに強化学習で攻撃エージェントを訓練し、認識情報に基づいて最適な攻撃戦略を瞬時に決定できるようにする。 最後に、我々のフレームワークを自律運転シナリオに適用する。 複雑な環境下での手法の有効性を検証した実験は多種多様である。

As physical adversarial attacks become extensively applied in unearthing the potential risk of security-critical scenarios, especially in autonomous driving, their vulnerability to environmental changes has also been brought to light. The non-robust nature of physical adversarial attack methods brings less-than-stable performance consequently. To enhance the robustness of physical adversarial attacks in the real world, instead of statically optimizing a robust adversarial example via an off-line training manner like the existing methods, this paper proposes a brand new robust adversarial attack framework: Embodied Adversarial Attack (EAA) from the perspective of dynamic adaptation, which aims to employ the paradigm of embodied intelligence: Perception-Decision-Control to dynamically adjust the optimal attack strategy according to the current situations in real time. For the perception module, given the challenge of needing simulation for the victim's viewpoint, EAA innovatively devises a Perspective Transformation Network to estimate the target's transformation from the attacker's perspective. For the decision and control module, EAA adopts the laser-a highly manipulable medium to implement physical attacks, and further trains an attack agent with reinforcement learning to make it capable of instantaneously determining the best attack strategy based on the perceived information. Finally, we apply our framework to the autonomous driving scenario. A variety of experiments verify the high effectiveness of our method under complex scenes.
翻訳日:2024-02-29 18:13:15 公開日:2024-02-28
# 量子場のリサイクリングと単一量子ビット回転に対する最適状態

Recycling of a quantum field and optimal states for single-qubit rotations ( http://arxiv.org/abs/2312.08242v3 )

ライセンス: Link先を確認
Shanon Vuglar and Julio Gea-Banacloche(参考訳) ブロッホ球面上の特定の状態から2段階の原子の正確な回転(エンタングルメントおよびエラーフリー)を行うことのできる量子化場状態の族を導入する。 これらの状態と最近導入された「トランスコヒーレントな状態」の類似性と相違について論じる。 我々の場状態は、それらが回転の後に不変に残される性質を持ち、それらは磁場が同一に合成された環状原子の置換と相互作用するときに得られる漸近状態である。 このようなスキームは、[npj量子情報3:17 (2017)]2レベル原子との相互作用後にフィールド状態を「記憶」し、その後に再利用することで、連続する量子論理演算のエネルギー要件を減少させる方法として最近提案された。 このスキームを一般化し、任意の回転に最適なパルスを求めるとともに、純粋な状態ではなく混合状態のアシラがどうなるかを解析的に研究する。 原案の数値的な結果と一致して、アンシラ準備誤差が小さい限り(1/\bar n$、ここで$\bar n$は検討されたパルス中の原子の平均数)、復元されたパルスの性能に高次誤差のみをもたらす。

We introduce a family of quantized field states that can perform exact (entanglement- and error-free) rotations of a two-level atom starting from a specific state on the Bloch sphere. We discuss the similarities and differences between these states and the recently-introduced "transcoherent states." Our field states have the property that they are left unchanged after the rotation, and we find they are the asymptotic states obtained when a field interacts with a succession of identically prepared ancillary atoms. Such a scheme was recently proposed [npj Quantum Information 3:17 (2017)] as a way to "restore" a field state after its interaction with a two-level atom, so as to reuse it afterwards, thus reducing the energy requirements for successive quantum logical operations. We generalize this scheme to find optimal pulses for arbitrary rotations, and also study analytically what happens if the ancillas are in a mixed, rather than a pure state. Consistent with the numerical results in the original proposal, we find that as long as the ancilla preparation error is small (of the order of $1/\bar n$, where $\bar n$ is the average number of atoms in the pulses considered) it will introduce only higher-order errors in the performance of the restored pulse.
翻訳日:2024-02-29 18:12:54 公開日:2024-02-28
# MLNet:Universal Domain Adaptationのための近隣不変性を持つ相互学習ネットワーク

MLNet: Mutual Learning Network with Neighborhood Invariance for Universal Domain Adaptation ( http://arxiv.org/abs/2312.07871v4 )

ライセンス: Link先を確認
Yanzuo Lu, Meng Shen, Andy J Ma, Xiaohua Xie, Jian-Huang Lai(参考訳) ユニバーサルドメイン適応(UniDA)は、ソースとターゲットドメインの関係に関する情報を知識伝達のために与えない、実用的だが困難な問題である。 既存のUniDAメソッドは、ターゲットドメイン内のドメイン内変異を見落としている問題と、同様の既知のクラスと未知のクラスを分離することが困難である。 これらの課題に対処するために,UniDA の近傍不変性を考慮した新しい相互学習ネットワーク (MLNet) を提案する。 本手法では,自己適応的近傍選択を用いた信頼誘導型不変特徴学習により,より一般化可能な特徴表現のための領域内変動を低減する。 未知クラス識別を改善するためにクロスドメインミックスアップスキームを用いることにより、提案手法は、クローズドセットとオープンセットの分類器間の相互学習により、誤識別された既知のクラスエラーを補償する。 一般に公開されている3つのベンチマークの大規模な実験により、我々の手法は、ほとんどの場合において最先端の手法と比較して最高の結果が得られることが示され、UniDAの4つの設定のベースラインをはるかに上回る結果となった。 コードはhttps://github.com/YanzuoLu/MLNetで入手できる。

Universal domain adaptation (UniDA) is a practical but challenging problem, in which information about the relation between the source and the target domains is not given for knowledge transfer. Existing UniDA methods may suffer from the problems of overlooking intra-domain variations in the target domain and difficulty in separating between the similar known and unknown class. To address these issues, we propose a novel Mutual Learning Network (MLNet) with neighborhood invariance for UniDA. In our method, confidence-guided invariant feature learning with self-adaptive neighbor selection is designed to reduce the intra-domain variations for more generalizable feature representation. By using the cross-domain mixup scheme for better unknown-class identification, the proposed method compensates for the misidentified known-class errors by mutual learning between the closed-set and open-set classifiers. Extensive experiments on three publicly available benchmarks demonstrate that our method achieves the best results compared to the state-of-the-arts in most cases and significantly outperforms the baseline across all the four settings in UniDA. Code is available at https://github.com/YanzuoLu/MLNet.
翻訳日:2024-02-29 18:12:31 公開日:2024-02-28
# 2次元導波路QEDにおける強い相互作用光子

Strongly interacting photons in 2D waveguide QED ( http://arxiv.org/abs/2312.07668v2 )

ライセンス: Link先を確認
Matija Te\v{c}er, Marco Di Liberto, Pietro Silvi, Simone Montangero, Filippo Romanato and Giuseppe Calaj\`o(参考訳) 導波管量子力学(QED)の1次元閉じ込めは、光-物質相互作用を高め、強い量子非線形光学応答を誘導するために重要な役割を果たす。 2次元以上の環境では、光子がより大きな位相空間内で放出されるため、この応答は減少し、強い光子-光子相互作用がまだ達成できるかどうかに疑問が持たれる。 本研究では,2次元導波路に閉じ込められた光に結合した2次元正方形原子配列の場合,この疑問に正の答えを与える。 より具体的には、真の2次元特徴を持つ長寿命2光子反発性および有界状態の発生を実証する。 さらに、これらの効果のシグネチャは、自由空間原子配列でも弱いサブラジアンのバンド内散乱共鳴の形で観測される。 本研究は2次元導波路QEDにおける強い光子-光子相互作用の存在をパラダイム的に示すものである。

One dimensional confinement in waveguide Quantum Electrodynamics (QED) plays a crucial role to enhance light-matter interactions and to induce a strong quantum nonlinear optical response. In two or higher dimensional settings, this response is reduced since photons can be emitted within a larger phase space, opening the question whether strong photon-photon interaction can be still achieved. In this study, we positively answer this question for the case of a 2D square array of atoms coupled to the light confined into a two-dimensional waveguide. More specifically, we demonstrate the occurrence of long-lived two-photon repulsive and bound states with genuine 2D features. Furthermore, we observe signatures of these effects also in free-space atomic arrays in the form of weakly-subradiant in-band scattering resonances. Our findings provide a paradigmatic signature of the presence of strong photon-photon interactions in 2D waveguide QED.
翻訳日:2024-02-29 18:12:00 公開日:2024-02-28
# シングルスタックMRIにおける完全畳み込みスライス・ツー・ヴォーム再構成

Fully Convolutional Slice-to-Volume Reconstruction for Single-Stack MRI ( http://arxiv.org/abs/2312.03102v2 )

ライセンス: Link先を確認
Sean I. Young, Ya\"el Balbastre, Bruce Fischl, Polina Golland, Juan Eugenio Iglesias(参考訳) mriでは、slic-to-volume reconstruction(svr)は、運動によって破損した2次元スライスのスタックから未知の3次元磁気共鳴ボリュームの計算再構成を指す。 将来性はあるものの、現在のSVR法では正確な3D再構成のために複数のスライススタックが必要である。 本稿では,先行研究の欠点を克服し,極端にスライス間運動が存在する場合に最先端の再構築を行うsvr手法を提案する。 近年のシングルビュー深度推定手法の成功に触発されて,svrをシングルスタック動作推定タスクとして定式化し,与えられたスライススタックの動作スタックを予測する完全畳み込みネットワークを訓練し,予測動作の副産物として3次元再構成を行う。 成人および胎児脳のsvrに関する広範囲な実験は、我々の完全畳み込み法が従来のsvr法より2倍正確であることを示している。 私たちのコードはgithub.com/seannz/svrで入手できる。

In magnetic resonance imaging (MRI), slice-to-volume reconstruction (SVR) refers to computational reconstruction of an unknown 3D magnetic resonance volume from stacks of 2D slices corrupted by motion. While promising, current SVR methods require multiple slice stacks for accurate 3D reconstruction, leading to long scans and limiting their use in time-sensitive applications such as fetal fMRI. Here, we propose a SVR method that overcomes the shortcomings of previous work and produces state-of-the-art reconstructions in the presence of extreme inter-slice motion. Inspired by the recent success of single-view depth estimation methods, we formulate SVR as a single-stack motion estimation task and train a fully convolutional network to predict a motion stack for a given slice stack, producing a 3D reconstruction as a byproduct of the predicted motion. Extensive experiments on the SVR of adult and fetal brains demonstrate that our fully convolutional method is twice as accurate as previous SVR methods. Our code is available at github.com/seannz/svr.
翻訳日:2024-02-29 18:10:52 公開日:2024-02-28
# 医療aiモデルにおけるアルゴリズムバイアスの検出

Detecting algorithmic bias in medical AI-models ( http://arxiv.org/abs/2312.02959v3 )

ライセンス: Link先を確認
Jeffrey Smith, Andre Holder, Rishikesan Kamaleswaran, Yao Xie(参考訳) 機械学習と人工知能に基づく医療意思決定支援システムの普及に伴い、これらのシステムが公平かつ公平な方法で患者結果を提供するようにすることが重要である。 本稿では,医療AI意思決定支援システムにおけるアルゴリズムバイアスの領域を検出するための革新的な枠組みを提案する。 本手法は,医学・AIモデル,特に敗血症予測の文脈における潜在的なバイアスを,分類・回帰木(CART)アルゴリズムを用いて効率的に同定する。 本手法は,一連の合成データ実験を行い,制御された設定におけるバイアス領域を正確に推定する能力を示す。 この概念の有効性は、ジョージア州アトランタにあるグレイディ記念病院の電子医療記録を用いてさらに検証される。 これらのテストは、AIベースの医療決定における公平性と公平性を保証する重要な手段として機能する、臨床環境における我々の戦略の実践的実装を実証する。

With the growing prevalence of machine learning and artificial intelligence-based medical decision support systems, it is equally important to ensure that these systems provide patient outcomes in a fair and equitable fashion. This paper presents an innovative framework for detecting areas of algorithmic bias in medical-AI decision support systems. Our approach efficiently identifies potential biases in medical-AI models, specifically in the context of sepsis prediction, by employing the Classification and Regression Trees (CART) algorithm. We verify our methodology by conducting a series of synthetic data experiments, showcasing its ability to estimate areas of bias in controlled settings precisely. The effectiveness of the concept is further validated by experiments using electronic medical records from Grady Memorial Hospital in Atlanta, Georgia. These tests demonstrate the practical implementation of our strategy in a clinical environment, where it can function as a vital instrument for guaranteeing fairness and equity in AI-based medical decisions.
翻訳日:2024-02-29 18:10:31 公開日:2024-02-28
# 逆文脈学習によるプロンプト最適化

Prompt Optimization via Adversarial In-Context Learning ( http://arxiv.org/abs/2312.02614v2 )

ライセンス: Link先を確認
Xuan Long Do, Yiran Zhao, Hannah Brown, Yuxi Xie, James Xu Zhao, Nancy F. Chen, Kenji Kawaguchi, Michael Qizhe Xie, Junxian He(参考訳) 本稿では,1つの LLM をジェネレータとして,もう1つは識別器として,もう1つはプロンプト修飾器として,さらに第3はプロンプト修飾器として,インコンテクスト学習(ICL)のプロンプトを最適化する手法を提案する。 従来の逆数学習と同様に、adv-ICLはジェネレータと判別器の間で2人プレイヤゲームとして実装され、ジェネレータは判別器を騙すのに十分な出力を生成しようとする。 各ラウンドにおいて、タスク命令といくつかのexemplarでプレフィックスされた入力が与えられると、ジェネレータは出力を生成する。 判別器は、生成器の入出力ペアをモデル生成または実データとして分類する。 判別器損失に基づいて、プロンプト修飾器は生成器への編集が可能であり、識別器のプロンプトが提案され、最も良くなる編集が選択される。 本稿では,Adv-ICLにより,11 世代におけるオープンソースモデルとクローズドソースモデルの最適化手法と,要約,算術的推論,機械翻訳,データ-テキスト生成,MMLU およびBig-bench ハードベンチマークなどの分類タスクが改良されたことを示す。 さらに,本手法では事前学習モデルを用いて,モデルパラメータではなくプロンプトのみを更新するので,計算効率が良く,どのLLMやタスクにも容易に拡張でき,低リソース設定でも有効である。

We propose a new method, Adversarial In-Context Learning (adv-ICL), to optimize prompt for in-context learning (ICL) by employing one LLM as a generator, another as a discriminator, and a third as a prompt modifier. As in traditional adversarial learning, adv-ICL is implemented as a two-player game between the generator and discriminator, where the generator tries to generate realistic enough output to fool the discriminator. In each round, given an input prefixed by task instructions and several exemplars, the generator produces an output. The discriminator is then tasked with classifying the generator input-output pair as model-generated or real data. Based on the discriminator loss, the prompt modifier proposes possible edits to the generator and discriminator prompts, and the edits that most improve the adversarial loss are selected. We show that adv-ICL results in significant improvements over state-of-the-art prompt optimization techniques for both open and closed-source models on 11 generation and classification tasks including summarization, arithmetic reasoning, machine translation, data-to-text generation, and the MMLU and big-bench hard benchmarks. In addition, because our method uses pre-trained models and updates only prompts rather than model parameters, it is computationally efficient, easy to extend to any LLM and task, and effective in low-resource settings.
翻訳日:2024-02-29 18:10:17 公開日:2024-02-28
# OLMo: 言語モデルの科学を加速する

OLMo: Accelerating the Science of Language Models ( http://arxiv.org/abs/2402.00838v3 )

ライセンス: Link先を確認
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi(参考訳) 言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。 商業的重要性が高まるにつれて、最も強力なモデルは閉鎖され、プロプライエタリなインターフェースの背後に隠蔽され、トレーニングデータ、アーキテクチャ、開発の詳細は公開されていない。 これらの詳細が、バイアスや潜在的なリスクを含むこれらのモデルを科学的に研究する上で重要であることから、研究コミュニティが強力で真にオープンなlmsにアクセスすることが不可欠であると考えています。 この技術的レポートはolmoの最初のリリースについて詳述している。olmoは最先端の真にオープンな言語モデルであり、言語モデリングの科学を構築し、研究するためのフレームワークである。 モデルウェイトと推論コードしかリリースしていないこれまでの作業とは異なり、トレーニングデータやトレーニング、評価コードを含むOLMoとフレームワーク全体をリリースしています。 このリリースによってオープンな研究コミュニティが強化され、新たなイノベーションの波がもたらされることを願っています。

Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.
翻訳日:2024-02-29 18:05:13 公開日:2024-02-28
# 量子力学の確率について

On probabilities in quantum mechanics ( http://arxiv.org/abs/2401.17717v3 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) これは量子力学の解釈に関する議論、一方のandrei khrennikov と反対側の blake stacey と r\"udiger schack の議論に関連する特定の概念を明らかにする試みである。 この議論の中心は、量子確率の概念である。 私はまずQBist派で確率の概念を取り上げ、量子確率を計算するためのBorn公式について独自の議論をします。 その関係において、量子論の基礎と解釈への私のアプローチの結果をスケッチします。 最終的な発言をする前に、QB主義を代替解釈の可能性として論じます。

This is an attempt to clarify certain concepts related to a debate on the interpretation of quantum mechanics, a debate between Andrei Khrennikov on the one side and Blake Stacey and R\"udiger Schack on the other side. Central to this debate is the notion of quantum probabilities. I first take up the probability concept in the QBist school, and then give my own arguments for the Born formula for calculating quantum probabilities. In that connection I also sketch some consequences of my approach towards the foundation and interpretation of quantum theory. I discuss my general views on QBism as a possible alternative interpretation before I give some final remarks.
翻訳日:2024-02-29 18:04:36 公開日:2024-02-28
# LegalDuet: Dual-View Legal Clue Reasoningによる法的判断予測のための効果的な表現学習

LegalDuet: Learning Effective Representations for Legal Judgment Prediction through a Dual-View Legal Clue Reasoning ( http://arxiv.org/abs/2401.15371v2 )

ライセンス: Link先を確認
Pengjie Liu, Zhenghao Liu, Xiaoyuan Yi, Liner Yang, Shuo Wang, Yu Gu, Ge Yu, Xing Xie, Shuang-hua Yang(参考訳) 既存の法的判断予測(LJP)モデルは、刑事事実記述の法的引き金を見つけることに焦点を当てている。 しかし、現実のシナリオでは、専門家の裁判官は、過去の刑罰判決に基づく裁判経験を同化するだけでなく、専門の法的知識から学んだ専門の法的根拠に基づく推論にも依存する。 本稿では,法的判断を行うための埋込み空間を学習するために,言語モデルを事前学習する法律デュエットモデルを提案する。 二重視点の法的手がかり推論機構を提案し、裁判官の2つの推論連鎖から導かれる。 1) アナロジー/コンサルの事例から学んだ判断経験に基づいて法的判断を行う訴訟推論 2) 刑事事件と法的判断の法的手がかりを一致させる法律的根拠推論 我々の実験によると、LegalDuetはCAIL2018データセットで最先端のパフォーマンスを達成し、平均4%の改善でベースラインを上回っている。 我々のデュアルビュー推論に基づく事前訓練は、刑事事件を識別するための適切な埋め込み空間を学ぶための重要な法的手がかりを捉えることができる。 予測中のLegalDuetの不確実性を低減し、混乱/低頻度の課金に事前訓練の進歩をもたらす。 すべてのコードはhttps://github.com/neuir/legalduetで入手できる。

Most existing Legal Judgment Prediction (LJP) models focus on discovering the legal triggers in the criminal fact description. However, in real-world scenarios, a professional judge not only needs to assimilate the law case experience that thrives on past sentenced legal judgments but also depends on the professional legal grounded reasoning that learned from professional legal knowledge. In this paper, we propose a LegalDuet model, which pretrains language models to learn a tailored embedding space for making legal judgments. It proposes a dual-view legal clue reasoning mechanism, which derives from two reasoning chains of judges: 1) Law Case Reasoning, which makes legal judgments according to the judgment experiences learned from analogy/confusing legal cases; 2) Legal Ground Reasoning, which lies in matching the legal clues between criminal cases and legal decisions. Our experiments show that LegalDuet achieves state-of-the-art performance on the CAIL2018 dataset and outperforms baselines with about 4% improvements on average. Our dual-view reasoning based pretraining can capture critical legal clues to learn a tailored embedding space to distinguish criminal cases. It reduces LegalDuet's uncertainty during prediction and brings pretraining advances to the confusing/low frequent charges. All codes are available at https://github.com/NEUIR/LegalDuet.
翻訳日:2024-02-29 18:04:08 公開日:2024-02-28
# MambaMorph:医療用MR-CT変形性レジストレーションのためのMambaベースのフレームワーク

MambaMorph: a Mamba-based Framework for Medical MR-CT Deformable Registration ( http://arxiv.org/abs/2401.13934v2 )

ライセンス: Link先を確認
Tao Guo and Yinuo Wang and Shihao Shu and Diansheng Chen and Zhouping Tang and Cai Meng and Xiangzhi Bai(参考訳) 本稿では,磁気共鳴(MR)およびCT(CT)画像アライメントのために設計された,革新的な多モード変形型登録ネットワークであるMambaMorphを紹介する。 mambamorphは、mambaベースの登録モジュールと、マルチモダリティ登録の一般的な課題に対処する、対照的な機能学習アプローチで際立っている。 このネットワークは、効率のよい長距離モデリングと高次元データ処理にMambaブロックを活用するとともに、詳細な特徴を学習して登録精度を向上させる特徴抽出器を備えている。 MambaMorphのMR-CT登録法よりも優れた成績を示し,臨床応用の可能性を明らかにした。 本研究は,マルチモダリティ登録における特徴学習の重要性を浮き彫りにして,MambaMorphをこの分野におけるパスブレージングソリューションとして位置づける。 MambaMorphのコードは、https://github.com/Guo-Stone/MambaMorphで入手できる。

Deformable image registration is an essential approach for medical image analysis.This paper introduces MambaMorph, an innovative multi-modality deformable registration network, specifically designed for Magnetic Resonance (MR) and Computed Tomography (CT) image alignment. MambaMorph stands out with its Mamba-based registration module and a contrastive feature learning approach, addressing the prevalent challenges in multi-modality registration. The network leverages Mamba blocks for efficient long-range modeling and high-dimensional data processing, coupled with a feature extractor that learns fine-grained features for enhanced registration accuracy. Experimental results showcase MambaMorph's superior performance over existing methods in MR-CT registration, underlining its potential in clinical applications. This work underscores the significance of feature learning in multi-modality registration and positions MambaMorph as a trailblazing solution in this field. The code for MambaMorph is available at: https://github.com/Guo-Stone/MambaMorph.
翻訳日:2024-02-29 18:03:44 公開日:2024-02-28
# 知識誘導型エンティティ認識ビデオキャプションとバスケットボールベンチマーク

Knowledge Guided Entity-aware Video Captioning and A Basketball Benchmark ( http://arxiv.org/abs/2401.13888v2 )

ライセンス: Link先を確認
Zeyu Xi and Ge Shi and Xuefen Li and Junchi Yan and Zun Li and Lifang Wu and Zilin Liu and Liang Wang(参考訳) 最近のビデオキャプションモデルの出現にもかかわらず、特定のエンティティ名と細かなアクションによるテキスト記述の生成方法は解決に至らず、バスケットボールのライブテキスト放送のような素晴らしい応用がある。 本稿では,ビデオキャプションのためのマルチモーダル知識グラフをサポートするバスケットボールベンチマークを提案する。 具体的には,マルチモーダルバスケットボールゲーム知識グラフ(KG_NBA_2022)を構築し,ビデオ以外の知識を提供する。 そして、KG_NBA_2022に基づいて、9種類のきめ細かいシューティングイベントと286人のプレイヤーの知識(画像と名前)を含むマルチモーダルバスケットボールゲームビデオキャプション(VC_NBA_2022)データセットを構築する。 バスケットボールのライブテキスト放送のためのエンコーダデコーダ形式の候補選手リストに基づいて,知識ガイド付きエンティティ対応ビデオキャプションネットワーク(KEANet)を開発した。 ビデオ中の時間的文脈情報は、双方向GRU(Bi-GRU)モジュールを導入して符号化される。 そして、エンティティ認識モジュールは、プレイヤー間の関係をモデル化し、キープレーヤーを強調するように設計されている。 複数のスポーツベンチマークに関する大規模な実験は、KEANetが外部知識を効果的に活用し、高度なビデオキャプションモデルより優れていることを示している。 提案されたデータセットと対応するコードが近く公開される

Despite the recent emergence of video captioning models, how to generate the text description with specific entity names and fine-grained actions is far from being solved, which however has great applications such as basketball live text broadcast. In this paper, a new multimodal knowledge graph supported basketball benchmark for video captioning is proposed. Specifically, we construct a multimodal basketball game knowledge graph (KG_NBA_2022) to provide additional knowledge beyond videos. Then, a multimodal basketball game video captioning (VC_NBA_2022) dataset that contains 9 types of fine-grained shooting events and 286 players' knowledge (i.e., images and names) is constructed based on KG_NBA_2022. We develop a knowledge guided entity-aware video captioning network (KEANet) based on a candidate player list in encoder-decoder form for basketball live text broadcast. The temporal contextual information in video is encoded by introducing the bi-directional GRU (Bi-GRU) module. And the entity-aware module is designed to model the relationships among the players and highlight the key players. Extensive experiments on multiple sports benchmarks demonstrate that KEANet effectively leverages extera knowledge and outperforms advanced video captioning models. The proposed dataset and corresponding codes will be publicly available soon
翻訳日:2024-02-29 18:03:25 公開日:2024-02-28
# 知識蒸留における中心核アライメント再考

Rethinking Centered Kernel Alignment in Knowledge Distillation ( http://arxiv.org/abs/2401.11824v2 )

ライセンス: Link先を確認
Zikai Zhou, Yunhang Shen, Shitong Shao, Linrui Gong, Shaohui Lin(参考訳) 知識蒸留は大規模モデルと軽量モデル間の表現の不一致を橋渡しする非常に効果的な方法として登場した。 代表的なアプローチは、教師モデルから抽出された知識と学生モデルによって学習された知識のばらつきや距離を最小化するために適切なメトリクスを活用することである。 中心核アライメント(cka)は表現の類似性を測定するために広く使われており、いくつかの知識蒸留法に応用されている。 しかし、これらの手法は複雑であり、CKAの本質を明らかにすることができないため、CKAをいかにしてシンプルで効果的な蒸留を適切に行うかという疑問に答えることができない。 本稿ではまず,CKAを最大平均離散値~(MMD)の上界と定数項に分解するCKAの有効性を説明する理論的視点を提供する。 そこで本研究では,CKAとMDDの相互接続を実質的に確立する,リレーショナル中心カーネルアライメント~(RCKA)フレームワークを提案する。 さらに,各タスクの特性に基づいてckaの適用を動的にカスタマイズし,従来の手法と同等の性能を持つ計算ソースを削減した。 CIFAR-100, ImageNet-1k, MS-COCOの広範囲な実験により, 画像分類とオブジェクト検出のためのほぼすべての教師と学生のペアに対して, 最先端のパフォーマンスを実現し, 提案手法の有効性を検証した。

Knowledge distillation has emerged as a highly effective method for bridging the representation discrepancy between large-scale models and lightweight models. Prevalent approaches involve leveraging appropriate metrics to minimize the divergence or distance between the knowledge extracted from the teacher model and the knowledge learned by the student model. Centered Kernel Alignment (CKA) is widely used to measure representation similarity and has been applied in several knowledge distillation methods. However, these methods are complex and fail to uncover the essence of CKA, thus not answering the question of how to use CKA to achieve simple and effective distillation properly. This paper first provides a theoretical perspective to illustrate the effectiveness of CKA, which decouples CKA to the upper bound of Maximum Mean Discrepancy~(MMD) and a constant term. Drawing from this, we propose a novel Relation-Centered Kernel Alignment~(RCKA) framework, which practically establishes a connection between CKA and MMD. Furthermore, we dynamically customize the application of CKA based on the characteristics of each task, with less computational source yet comparable performance than the previous methods. The extensive experiments on the CIFAR-100, ImageNet-1k, and MS-COCO demonstrate that our method achieves state-of-the-art performance on almost all teacher-student pairs for image classification and object detection, validating the effectiveness of our approaches.
翻訳日:2024-02-29 18:02:46 公開日:2024-02-28
# 破壊的過剰フィッティングを克服する効率的な局所線形正規化

Efficient local linearity regularization to overcome catastrophic overfitting ( http://arxiv.org/abs/2401.11618v2 )

ライセンス: Link先を確認
Elias Abad Rocamora, Fanghui Liu, Grigorios G. Chrysos, Pablo M. Olmos, Volkan Cevher(参考訳) 単段階逆行訓練 (AT) における破滅的オーバーフィッティング (CO) は, 逆行性テスト精度(0%まで)の急激な低下をもたらす。 多段ATで訓練されたモデルでは、損失関数は入力に対して局所的に線形に振る舞うことが観察されているが、これは単段ATでは失われる。 単一ステップATでCOに対処するために、正規化により損失の局所線型性を強制するいくつかの方法が提案されている。 しかしながら、これらの正規化条件はダブルバックプロパゲーションによるトレーニングを著しく遅くする。 その代わり,本研究では,古典的評価においてcoを効果的かつ効率的に緩和するためにelleと呼ばれる正規化用語を導入する。 我々の正規化項は、損失関数の曲率に理論的に関連付けられ、二重バックプロパゲーションを回避して、従来の方法よりも計算的に安価である。 私たちの徹底した実験的検証は、以前の作業がcoに苦しむような状況でも、私たちの作業がcoに苦しむことはないことを証明します。 また、トレーニング中に正規化パラメータ(ELLE-A)を適用することで、特に大規模な$\epsilon$セットアップでパフォーマンスが大幅に向上する点にも気付きました。 我々の実装はhttps://github.com/LIONS-EPFL/ELLEで利用可能です。

Catastrophic overfitting (CO) in single-step adversarial training (AT) results in abrupt drops in the adversarial test accuracy (even down to 0%). For models trained with multi-step AT, it has been observed that the loss function behaves locally linearly with respect to the input, this is however lost in single-step AT. To address CO in single-step AT, several methods have been proposed to enforce local linearity of the loss via regularization. However, these regularization terms considerably slow down training due to Double Backpropagation. Instead, in this work, we introduce a regularization term, called ELLE, to mitigate CO effectively and efficiently in classical AT evaluations, as well as some more difficult regimes, e.g., large adversarial perturbations and long training schedules. Our regularization term can be theoretically linked to curvature of the loss function and is computationally cheaper than previous methods by avoiding Double Backpropagation. Our thorough experimental validation demonstrates that our work does not suffer from CO, even in challenging settings where previous works suffer from it. We also notice that adapting our regularization parameter during training (ELLE-A) greatly improves the performance, specially in large $\epsilon$ setups. Our implementation is available in https://github.com/LIONS-EPFL/ELLE .
翻訳日:2024-02-29 18:02:19 公開日:2024-02-28
# AI適応画像ラベリングにおけるコンフォーマル予測セットの有用性の評価

Evaluating the Utility of Conformal Prediction Sets for AI-Advised Image Labeling ( http://arxiv.org/abs/2401.08876v4 )

ライセンス: Link先を確認
Dongping Zhang, Angelos Chatzimparmpas, Negar Kamali, and Jessica Hullman(参考訳) ディープニューラルネットワークは高スループット領域に一般的に展開されるため、ブラックボックスの性質は不確実性定量化を難しくする。 我々は,AIが推奨する意思決定における不確実性を表現するために,共形予測セット,すなわち,特定のカバレッジで予測セットを生成する方法の分布自由クラスを提示する効果について検討する。 大規模なオンライン実験を通じて、共形予測セットの有用性を、AIが推奨する画像ラベリングのためのTop-$とTop-k$の表示と比較する。 事前登録された分析では,精度の予測セットの有用性はタスクの難易度に応じて変化し,Top-1$とTop-k$と同等以上の精度で画像の表示が可能であるのに対し,アウト・オブ・ディストリビューション(OOD)画像のラベル付けにおいて人を支援するための予測セットは優れている。 本結果は,共形予測セットの実践的課題を実証的に特定し,実世界の意思決定に組み込む方法について示唆する。

As deep neural networks are more commonly deployed in high-stakes domains, their black-box nature makes uncertainty quantification challenging. We investigate the effects of presenting conformal prediction sets -- a distribution-free class of methods for generating prediction sets with specified coverage -- to express uncertainty in AI-advised decision-making. Through a large online experiment, we compare the utility of conformal prediction sets to displays of Top-$1$ and Top-$k$ predictions for AI-advised image labeling. In a pre-registered analysis, we find that the utility of prediction sets for accuracy varies with the difficulty of the task: while they result in accuracy on par with or less than Top-$1$ and Top-$k$ displays for easy images, prediction sets excel at assisting humans in labeling out-of-distribution (OOD) images, especially when the set size is small. Our results empirically pinpoint practical challenges of conformal prediction sets and provide implications on how to incorporate them for real-world decision-making.
翻訳日:2024-02-29 18:01:55 公開日:2024-02-28
# 低ランクトレーニングによる効率的なコミュニケーションと安全な連帯推薦システムの構築

Towards Efficient Communication and Secure Federated Recommendation System via Low-rank Training ( http://arxiv.org/abs/2401.03748v2 )

ライセンス: Link先を確認
Ngoc-Hieu Nguyen, Tuan-Anh Nguyen, Tuan Nguyen, Vu Tien Hoang, Dung D. Le, Kok-Seng Wong(参考訳) Federated Recommendation (FedRec) システムは,規制上の懸念の高まりに応じてユーザのデータを保護するためのソリューションとして登場した。 しかしながら、これらのシステムにおける大きな課題の1つは、ユーザデバイスと中央サーバの間でニューラルネットワークモデルを送信する必要性から生じる通信コストにある。 これらの課題に対する以前のアプローチは、しばしば計算オーバーヘッド、モデル固有性制約、セキュアアグリゲーションプロトコルとの互換性問題などの問題を引き起こす。 そこで本研究では,多くのパラメータを凍結しながら軽量な学習可能なパラメータを調整するという概念を活かした,相関型低ランク構造(colr)と呼ばれる新しい枠組みを提案する。 提案手法は,計算負荷を伴わずに通信オーバーヘッドを大幅に削減する。 批判的に、当社のフレームワークは、準同型暗号の堅牢な使用を含む、セキュアなアグリゲーションプロトコルと完全に互換性があります。 このアプローチによって最大93.75%のペイロードサイズが削減され、データセット間での推奨性能はおよそ8%低下した。 実験を再現するためのコードはhttps://github.com/NNHieu/CoLR-FedRec.orgにある。

Federated Recommendation (FedRec) systems have emerged as a solution to safeguard users' data in response to growing regulatory concerns. However, one of the major challenges in these systems lies in the communication costs that arise from the need to transmit neural network models between user devices and a central server. Prior approaches to these challenges often lead to issues such as computational overheads, model specificity constraints, and compatibility issues with secure aggregation protocols. In response, we propose a novel framework, called Correlated Low-rank Structure (CoLR), which leverages the concept of adjusting lightweight trainable parameters while keeping most parameters frozen. Our approach substantially reduces communication overheads without introducing additional computational burdens. Critically, our framework remains fully compatible with secure aggregation protocols, including the robust use of Homomorphic Encryption. The approach resulted in a reduction of up to 93.75% in payload size, with only an approximate 8% decrease in recommendation performance across datasets. Code for reproducing our experiments can be found at https://github.com/NNHieu/CoLR-FedRec.
翻訳日:2024-02-29 18:01:33 公開日:2024-02-28
# BIBench: 大規模言語モデルのベンチマークデータ分析知識

BIBench: Benchmarking Data Analysis Knowledge of Large Language Models ( http://arxiv.org/abs/2401.02982v2 )

ライセンス: Link先を確認
Shu Liu, Shangqing Zhao, Chenghao Jia, Xinlin Zhuang, Zhaoguang Long, Man Lan, Qingquan Wu, Chong Yang(参考訳) 大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。 しかし、データ分析の専門分野、特にデータ駆動思考に焦点をあてた能力と信頼性は依然として不確実である。 このギャップを埋めるために、ビジネスインテリジェンス(BI)のコンテキスト内でLLMのデータ分析能力を評価するために設計された包括的なベンチマークであるBIBenchを紹介する。 BIBench は3次元にわたる LLM を評価する。 1) 基礎知識,モデルの数値的推論及び金融概念への親密性の評価 2)bi知識応用は,テキスト情報を迅速に理解し,複数の視点から分析質問を生成するモデルの能力を決定する。 3)bi技術スキル,実世界のデータ分析課題に対処するためのモデルによる技術知識の利用の検討。 BIBenchは11のサブタスクで構成され、分類、抽出、生成の3つのカテゴリにまたがる。 さらに、100万以上のデータポイントを持つドメイン固有のデータセットであるBIChatを、微調整LDM用に開発しました。 BIBenchmark、BIChat、および評価スクリプトを \url{https://github.com/cubenlp/BIBench} でリリースします。 本ベンチマークは,データ解析分野におけるLCMの深度分析とLCMの進歩の促進を図ることを目的とする。

Large Language Models (LLMs) have demonstrated impressive capabilities across a wide range of tasks. However, their proficiency and reliability in the specialized domain of Data Analysis, particularly with a focus on data-driven thinking, remain uncertain. To bridge this gap, we introduce BIBench, a comprehensive benchmark designed to evaluate the data analysis capabilities of LLMs within the context of Business Intelligence (BI). BIBench assesses LLMs across three dimensions: 1) BI foundational knowledge, evaluating the models' numerical reasoning and familiarity with financial concepts; 2) BI knowledge application, determining the models' ability to quickly comprehend textual information and generate analysis questions from multiple views; and 3) BI technical skills, examining the models' use of technical knowledge to address real-world data analysis challenges. BIBench comprises 11 sub-tasks, spanning three categories of task types: classification, extraction, and generation. Additionally, we've developed BIChat, a domain-specific dataset with over a million data points, to fine-tune LLMs. We will release BIBenchmark, BIChat, and the evaluation scripts at \url{https://github.com/cubenlp/BIBench}. This benchmark aims to provide a measure for in-depth analysis of LLM abilities and foster the advancement of LLMs in the field of data analysis.
翻訳日:2024-02-29 18:01:14 公開日:2024-02-28
# 光子結合信号検出用シリコン光増倍器

Silicon Photomultipliers for Detection of Photon Bunching Signatures ( http://arxiv.org/abs/2401.01316v2 )

ライセンス: Link先を確認
Lucas Finazzi, Federico Izraelevitch, Alexis Luszczak, Thomas Huber, Andreas Haungs, Federico Golmar(参考訳) 本研究では,SiPMを用いてLED光からの光束を初めて観察した。 括弧は97 hsのデータを用いて7.3~\sigma$で観測された。 光は1nm帯通過フィルタとエタロンフィルタを用いてスペクトルフィルタリングされ、磁場の時間的コヒーレンスを保証し、そのコヒーレンス時間を$\tau_C = (19 \pm 2)$ psと測定した。 この種の測定におけるsipm非理想性の影響を考察し,sipmアナログ波形の処理法と,これらの非理想性を軽減するイベント選択法について述べる。

In this work, photon bunching from LED light was observed for the first time using SiPMs. The bunching signature was observed with a significance of $7.3~\sigma$ using 97 hs of data. The light was spectrally filtered using a 1 nm bandpass filter and an Etalon filter to ensure temporal coherence of the field and its coherence time was measured to be $\tau_C = (19 \pm 2)$ ps. The impact of SiPM non-idealities in these kinds of measurements is explored, and we describe the methodology to process SiPM analog waveforms and the event selection used to mitigate these non-idealities.
翻訳日:2024-02-29 18:00:54 公開日:2024-02-28
# マルチビューデカップリング学習による低リソースプロンプト型関係表現の改善

Improving Low-resource Prompt-based Relation Representation with Multi-view Decoupling Learning ( http://arxiv.org/abs/2312.17267v3 )

ライセンス: Link先を確認
Chenghao Fan, Wei Wei, Xiaoye Qu, Zhenyi Lu, Wenfeng Xie, Yu Cheng, Dangyang Chen(参考訳) 近年,プレトレーニング言語モデル (PLM) を用いたプロンプトチューニングにより,関係抽出(RE)タスクの大幅な向上が示されている。 しかし、利用可能なトレーニングデータが不足している低リソースのシナリオでは、従来のプロンプトベースの手法は、その関係を表面的に理解しているため、プロンプトベースの表現学習では依然として不十分である。 そこで我々は,REの低リソースシナリオにおける高品質な関係表現の学習の重要性を強調し,低リソースのプロンプトチューニングパラダイムにおけるREの性能向上のために,PLMのキャパシティを向上するために,MVRE(\underline{M}ulti-\underline{V}iew \underline{R}elation \underline{E}xtraction)と呼ばれる新しいプロンプトベースの関係表現手法を提案する。 具体的には、MVREは各関係を異なる視点に分離し、関係推論における可能性の最大化のための多視点関係表現を包含する。 さらに,最適化学習過程と初期化過程における関係ラベルのセマンティクスを含む,多視点関係表現仮想単語のアライメントを改善するためのグローバルローカロスと動的初期化手法も設計する。 3つのベンチマークデータセットの大規模な実験により、我々の手法は低リソース環境で最先端を達成できることが示されている。

Recently, prompt-tuning with pre-trained language models (PLMs) has demonstrated the significantly enhancing ability of relation extraction (RE) tasks. However, in low-resource scenarios, where the available training data is scarce, previous prompt-based methods may still perform poorly for prompt-based representation learning due to a superficial understanding of the relation. To this end, we highlight the importance of learning high-quality relation representation in low-resource scenarios for RE, and propose a novel prompt-based relation representation method, named MVRE (\underline{M}ulti-\underline{V}iew \underline{R}elation \underline{E}xtraction), to better leverage the capacity of PLMs to improve the performance of RE within the low-resource prompt-tuning paradigm. Specifically, MVRE decouples each relation into different perspectives to encompass multi-view relation representations for maximizing the likelihood during relation inference. Furthermore, we also design a Global-Local loss and a Dynamic-Initialization method for better alignment of the multi-view relation-representing virtual words, containing the semantics of relation labels during the optimization learning process and initialization. Extensive experiments on three benchmark datasets show that our method can achieve state-of-the-art in low-resource settings.
翻訳日:2024-02-29 18:00:41 公開日:2024-02-28
# 私を見ましたか。 信頼性とタイムリーな評価に向けたデータセット更新の自動化

Have Seen Me Before? Automating Dataset Updates Towards Reliable and Timely Evaluation ( http://arxiv.org/abs/2402.11894v2 )

ライセンス: Link先を確認
Jiahao Ying, Yixin Cao, Bo Wang, Wei Tang, Yizhe Yang, Shuicheng Yan(参考訳) 拡張能力と事前学習データのため、Large Language Models (LLM) はますます深刻な評価課題に直面している。 一方、データ漏洩問題は既存のベンチマークに過大評価を引き起こす。 一方、定期的にデータセットを手動でキュレートするのはコストがかかる。 本稿では、信頼性とタイムリーな評価のためのデータセット更新を自動化することを提案する。 基本的な考え方は、未確認で高品質なテストサンプルを既存のサンプルに基づいて生成し、漏洩問題を軽減することである。 具体的には,体系的に検証する2つの戦略を提案する。 まず、模倣戦略はLLMを使って既存のものに似た新しいサンプルを作成し、元のデータセットのスタイリスティックを最大限に保存する。 本実験は,複数インスタンス間の評価安定性とデータ漏洩問題への対処の有効性を示す。 第二に、データセットの模倣がうまくいかない場合、様々な認知レベルに応じて生成されたサンプルの難易度を調整する拡張戦略を設計する。 これは、評価をより体系的にするだけでなく、バランスのとれた難易度で、よりきめ細かいレベルでモデルの能力を見極めます。

Due to the expanding capabilities and pre-training data, Large Language Models (LLMs) are facing increasingly serious evaluation challenges. On one hand, the data leakage issue cause over-estimation on existing benchmarks. On the other hand, periodically curating datasets manually is costly. In this paper, we propose to automate dataset updates for reliable and timely evaluation. The basic idea is to generate unseen and high-quality testing samples based on existing ones to mitigate leakage issues. In specific, we propose two strategies with systematically verification. First, the mimicking strategy employs LLMs to create new samples resembling existing ones, to the maximum extent preserving the stylistic of the original dataset. Our experiments demonstrate its evaluation stability across multiple instantiations and its effectiveness in dealing with data leakage issues in most cases. Second, for the cases that mimicking dataset works poorly, we design an extending strategy that adjusts the difficulty of the generated samples according to varying cognitive levels. This not only makes our evaluation more systematic, but also, with a balanced difficulty, even discern model capabilities better at fine-grained levels.
翻訳日:2024-02-29 17:55:40 公開日:2024-02-28
# 苦労してるの? アセンブリビデオにおけるストラグル決定のためのデータセットとベースライン

Are you Struggling? Dataset and Baselines for Struggle Determination in Assembly Videos ( http://arxiv.org/abs/2402.11057v2 )

ライセンス: Link先を確認
Shijia Feng, Michael Wray, Brian Sullivan, Youngkyoon Jang, Casimir Ludwig, Iain Gilchrist, and Walterio Mayol-Cuevas(参考訳) 人々がビデオに苦しむときの決定は、アクションのよりきめ細かい理解を可能にし、インテリジェントなサポートビジュアルインターフェースを構築する機会を開く。 本稿では,3つのアセンブリアクティビティとそれに対応するパフォーマンスベースラインを備えた新しいデータセットを提案する。 配管管(パイプ・ストラグル)、投球テント(テント・ストラグル)、ハノイパズル塔(トウワー・ストラグル)の3つの現実的な問題解決活動を紹介する。 ビデオセグメントは、アノテータによって知覚される闘争のレベルが、強制的な選択4ポイントスケールで評価された。 各ビデオセグメントは、クラウドソースアノテーションに加えて、単一の専門家アノテーションによって注釈付けされた。 このデータセットは、73人の参加者から5.1時間の動画と725,100フレームを収録した最初の闘争アノテーションデータセットである。 本研究は,3つの意思決定課題 – 闘争分類,闘争レベル回帰,闘争ラベル分布学習 – を評価する。 我々は,いくつかの主流のディープニューラルネットワークを用いたタスクのベースライン結果と,アブレーション研究と結果の可視化を提供する。 我々の研究は、闘争を分析し、手動活動中のユーザーを支援し、学習を促進し、その他のビデオ理解能力を高める支援システムに動機づけられている。

Determining when people are struggling from video enables a finer-grained understanding of actions and opens opportunities for building intelligent support visual interfaces. In this paper, we present a new dataset with three assembly activities and corresponding performance baselines for the determination of struggle from video. Three real-world problem-solving activities including assembling plumbing pipes (Pipes-Struggle), pitching camping tents (Tent-Struggle) and solving the Tower of Hanoi puzzle (Tower-Struggle) are introduced. Video segments were scored w.r.t. the level of struggle as perceived by annotators using a forced choice 4-point scale. Each video segment was annotated by a single expert annotator in addition to crowd-sourced annotations. The dataset is the first struggle annotation dataset and contains 5.1 hours of video and 725,100 frames from 73 participants in total. We evaluate three decision-making tasks: struggle classification, struggle level regression, and struggle label distribution learning. We provide baseline results for each of the tasks utilising several mainstream deep neural networks, along with an ablation study and visualisation of results. Our work is motivated toward assistive systems that analyze struggle, support users during manual activities and encourage learning, as well as other video understanding competencies.
翻訳日:2024-02-29 17:55:22 公開日:2024-02-28
# LLMの品質と多様性を評価するための精度とリコールの探索

Exploring Precision and Recall to assess the quality and diversity of LLMs ( http://arxiv.org/abs/2402.10693v2 )

ライセンス: Link先を確認
Florian Le Bronnec, Alexandre Verine, Benjamin Negrevergne, Yann Chevaleyre, Alexandre Allauzen(参考訳) 本稿では,Llama-2 や Mistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。 このアプローチにより、コーパスを整列することなく、生成したテキストの品質と多様性を微妙に評価できる。 この研究は、最先端言語モデルの包括的な評価を行うことで、従来のベンチマークでは適切に捉えられていないオープンエンド生成タスクのパフォーマンスに関する重要な洞察を明らかにする。 この結果は、生成したサンプルの品質と多様性のトレードオフを浮き彫りにしている。 この研究は、分散ベースのNLP評価ツールキットを拡張し、多種多様な高品質のテキストを生成する上で、現在のLLMが直面する実践的能力と課題に関する洞察を提供する。

This paper introduces a novel evaluation framework for Large Language Models (LLMs) such as Llama-2 and Mistral, focusing on the adaptation of Precision and Recall metrics from image generation to text generation. This approach allows for a nuanced assessment of the quality and diversity of generated text without the need for aligned corpora. By conducting a comprehensive evaluation of state-of-the-art language models, the study reveals significant insights into their performance on open-ended generation tasks, which are not adequately captured by traditional benchmarks. The findings highlight a trade-off between the quality and diversity of generated samples, particularly when models are fine-tuned with human feedback. This work extends the toolkit for distribution-based NLP evaluation, offering insights into the practical capabilities and challenges faced by current LLMs in generating diverse and high-quality text.
翻訳日:2024-02-29 17:54:57 公開日:2024-02-28
# HyperAgent: 複雑な環境のためのシンプルでスケーラブルで効率的な強化学習フレームワーク

HyperAgent: A Simple, Scalable, Efficient and Provable Reinforcement Learning Framework for Complex Environments ( http://arxiv.org/abs/2402.10228v2 )

ライセンス: Link先を確認
Yingru Li, Jiawei Xu, Lei Han, Zhi-Quan Luo(参考訳) 資源制約下での複雑なタスクを解決するためには、強化学習(RL)エージェントは単純で効率的でスケーラブルで、(1)大きな状態空間と(2)相互作用データの連続的な蓄積に対処する必要がある。 一般値関数に関連付けられた後続の計算効率の高いインクリメンタル近似を,共役性やデータ効率のよい動作選択を不要に実現した,ハイパーモデルとインデックスサンプリングを特徴とするRLフレームワークHyperAgentを提案する。 HyperAgentの実装は簡単で、Double-DQNに必要なモジュールをひとつ追加するだけでよい。 HyperAgentは、大規模なディープRLベンチマークで堅牢なパフォーマンスを提供する最初の方法であり、証明可能なスケーラブルなステップ毎の計算複雑性を実現し、表の仮定の下でサブ線形後悔を実現する。 hyperagentは、問題のサイズで最適にスケールし、atariベンチマークの下でデータと計算の両方において大幅な効率向上を示すエピソードで、深海探査の問題を解決できる。 我々の理論解析の核心は、ジョンソン・リンデンシュトラウスの非自明なマルティンゲール拡大であるシーケンシャルランダム射影のための最初の分析ツールによって実現される逐次後近似引数である。 この研究はRLの理論的および実践的な領域を橋渡しし、RLアルゴリズム設計の新しいベンチマークを確立する。

To solve complex tasks under resource constraints, reinforcement learning (RL) agents need to be simple, efficient, and scalable, addressing (1) large state spaces and (2) the continuous accumulation of interaction data. We propose HyperAgent, an RL framework featuring the hypermodel and index sampling schemes that enable computation-efficient incremental approximation for the posteriors associated with general value functions without the need for conjugacy, and data-efficient action selection. Implementing HyperAgent is straightforward, requiring only one additional module beyond what is necessary for Double-DQN. HyperAgent stands out as the first method to offer robust performance in large-scale deep RL benchmarks while achieving provably scalable per-step computational complexity and attaining sublinear regret under tabular assumptions. HyperAgent can solve Deep Sea hard exploration problems with episodes that optimally scale with problem size and exhibits significant efficiency gains in both data and computation under the Atari benchmark. The core of our theoretical analysis is the sequential posterior approximation argument, enabled by the first analytical tool for sequential random projection -- a non-trivial martingale extension of the Johnson-Lindenstrauss. This work bridges the theoretical and practical realms of RL, establishing a new benchmark for RL algorithm design.
翻訳日:2024-02-29 17:54:30 公開日:2024-02-28
# BitDelta:あなたのファインチューンは1ビットの価値しかないかもしれない

BitDelta: Your Fine-Tune May Only Be Worth One Bit ( http://arxiv.org/abs/2402.10193v2 )

ライセンス: Link先を確認
James Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han, Tri Dao, Tianle Cai(参考訳) 大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。 事前学習の計算要求が高くなると、微調整がモデルに新しい情報を加えず、圧縮しやすいと仮定するのは直感的である。 この仮定は、微調整されたモデルの重みを、事前訓練されたコンポーネントと追加のデルタに分解することで検討する。 我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。 この興味深い発見は、微調整中に追加された情報の冗長性を示すだけでなく、微調整されたモデルのマルチテナントサービスとマルチテナントストレージに大きな影響を与える。 複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減し、マルチテナント設定で生成遅延を向上することが可能になる。 我々は、Llama-2とMistralモデルファミリ、最大70Bパラメータのモデルによる実験を通じてBitDeltaを検証する。

Large Language Models (LLMs) are typically trained in two phases: pre-training on large internet-scale datasets, and fine-tuning for downstream tasks. Given the higher computational demand of pre-training, it's intuitive to assume that fine-tuning adds less new information to the model, and is thus more compressible. We explore this assumption by decomposing the weights of fine-tuned models into their pre-trained components and an additional delta. We introduce a simple method, BitDelta, which successfully quantizes this delta down to 1 bit without compromising performance. This interesting finding not only highlights the potential redundancy of information added during fine-tuning, but also has significant implications for the multi-tenant serving and multi-tenant storage of fine-tuned models. By enabling the use of a single high-precision base model accompanied by multiple 1-bit deltas, BitDelta dramatically reduces GPU memory requirements by more than 10x, which can also be translated to enhanced generation latency in multi-tenant settings. We validate BitDelta through experiments across Llama-2 and Mistral model families, and on models up to 70B parameters, showcasing minimal performance degradation over all tested settings.
翻訳日:2024-02-29 17:54:07 公開日:2024-02-28
# 読み出し後復号によるパリティエンコーディングに基づくアニールの誤り補正

Error correction of parity-encoding-based annealing through post-readout decoding ( http://arxiv.org/abs/2402.08839v3 )

ライセンス: Link先を確認
Yoshihiro Nambu(参考訳) Lechner, Hauke, Zoller らは、平面基板上に作製されたスピン間の幾何学的局所的相互作用のみを用いて、短期QAハードウェアにおける限られた接続性の問題を回避するために、QA(quantum annealing) のためのパリティ符号化スピン埋め込み方式を提案した。 それにもかかわらず、論理情報の冗長符号化、すなわち多くのスピンを使って論理情報を埋め込み、計算コストを増加させ、効率を低下させる。 本研究では,この冗長符号化をモンテカルロシミュレーションにより,論理情報を取得するためにスピンの適切なデコード,すなわち古典後処理を組み込むことにより,パリティエンコード方式の非効率性と計算コストの問題を解決することができることを示した。 本研究は,QAを短期量子技術で実現するためのパリティ符号化方式の可能性を明らかにするものである。

Lechner, Hauke, and Zoller proposed a parity-encoded spin-embedding scheme for quantum annealing (QA) with all-to-all connectivity to avoid the issue of limited connectivity in near-term QA hardware and to enable the implementation thereof using only geometrically local interactions between spins fabricated on the planar substrate. Nevertheless, the redundant encoding of logical information, i.e., using a large number of spins to embed the logical information, increases the computational cost and reduces the efficiency. In this study, we show through Monte Carlo simulation that this redundant encoding may be exploited to solve the problems of the inefficiency and computational cost of the parity-encoded scheme by incorporating appropriate decoding, namely classical post-processing, of the spins to retrieve the logical information. Our findings open up the possibility of parity-encoded schemes for realizing the QA with near-term quantum technologies.
翻訳日:2024-02-29 17:53:30 公開日:2024-02-28
# 量子昇降および剥離モデルにおける測定誘起相転移

Measurement induced phase transitions in quantum raise and peel models ( http://arxiv.org/abs/2402.08605v2 )

ライセンス: Link先を確認
Eliot Heinrich, Xiao Chen(参考訳) 古典的なアップ・アンド・ピールモデルの界面成長をエミュレートする量子回路モデルを提案する。 本モデルは, 所定のフィードバックルールに準じて, 射影的測定を行うクリフォード・ユニタリゲートからなる。 大規模シミュレーションにより, フィードバックルールにより, ハイブリッドランダムクリフォード系では観測されなかった普遍性クラス内の連続遷移や一階遷移など, 計測による絡み合い遷移を複数行うことができることがわかった。

We present a quantum circuit model which emulates the interface growth of the classical raise-and-peel model. Our model consists of Clifford unitary gates interspersed with projective measurements, applied according to prescribed feedback rules. We numerically find via large-scale simulations that, depending on the feedback rules, the system may undergo several measurement-induced entanglement transitions, including continuous transitions within a universality class not previously observed in hybrid random Clifford systems as well as a first-order transition.
翻訳日:2024-02-29 17:53:12 公開日:2024-02-28
# graphtranslator: オープンエンドタスクのためのグラフモデルを大きな言語モデルにアライメントする

GraphTranslator: Aligning Graph Model to Large Language Model for Open-ended Tasks ( http://arxiv.org/abs/2402.07197v4 )

ライセンス: Link先を確認
Mengmei Zhang, Mingwei Sun, Peng Wang, Shen Fan, Yanhu Mo, Xiaoxiao Xu, Hong Liu, Cheng Yang, Chuan Shi(参考訳) ChatGPTのような大規模言語モデル(LLM)は、強力なゼロショットと命令追従能力を示し、特にオープンエンドタスクにおいて、様々な分野にわたる革命的変換を触媒している。 このアイデアはグラフドメインではあまり検討されていないが、多数の強力なグラフモデル(gms)が利用可能だが、事前に定義された形式でタスクに限定されている。 LLMをグラフに適用するいくつかの手法が提案されているが、ノード機能拡張器やスタンドアロン予測器として、事前に定義されたオープンなタスクを同時に処理することができない。 このジレンマを解消するために,事前に訓練されたGMとLLMをGraphTranslatorというトランスレータで橋渡しすることを提案する。 このようなトランスレータを訓練するために,ノード情報,近隣情報,モデル情報に沿ったグラフテキストアライメントデータを構築することができるプロデューサを提案する。 ノード表現をトークンに変換することにより、graphtranslatorはllmに言語命令に基づいた予測を許可し、事前定義されたタスクとオープンエンドタスクの両方に対する統一的な視点を提供する。 提案するグラフトランスレータがゼロショットノード分類に有効であることを示す。 グラフ質問応答実験は、言語命令を通じて、幅広い範囲のオープンエンドタスクにまたがるグラフトランスレータの可能性を明らかにする。 私たちのコードは、https://github.com/alibaba/graphtranslatorで利用可能です。

Large language models (LLMs) like ChatGPT, exhibit powerful zero-shot and instruction-following capabilities, have catalyzed a revolutionary transformation across diverse fields, especially for open-ended tasks. While the idea is less explored in the graph domain, despite the availability of numerous powerful graph models (GMs), they are restricted to tasks in a pre-defined form. Although several methods applying LLMs to graphs have been proposed, they fail to simultaneously handle the pre-defined and open-ended tasks, with LLM as a node feature enhancer or as a standalone predictor. To break this dilemma, we propose to bridge the pretrained GM and LLM by a Translator, named GraphTranslator, aiming to leverage GM to handle the pre-defined tasks effectively and utilize the extended interface of LLMs to offer various open-ended tasks for GM. To train such Translator, we propose a Producer capable of constructing the graph-text alignment data along node information, neighbor information and model information. By translating node representation into tokens, GraphTranslator empowers an LLM to make predictions based on language instructions, providing a unified perspective for both pre-defined and open-ended tasks. Extensive results demonstrate the effectiveness of our proposed GraphTranslator on zero-shot node classification. The graph question answering experiments reveal our GraphTranslator potential across a broad spectrum of open-ended tasks through language instructions. Our code is available at: https://github.com/alibaba/GraphTranslator.
翻訳日:2024-02-29 17:53:01 公開日:2024-02-28
# 命令チューニングの限界を詳しく見る

A Closer Look at the Limitations of Instruction Tuning ( http://arxiv.org/abs/2402.05119v3 )

ライセンス: Link先を確認
Sreyan Ghosh and Chandra Kiran Reddy Evuru and Sonal Kumar and Ramaneswaran S and Deepali Aneja and Zeyu Jin and Ramani Duraiswami and Dinesh Manocha(参考訳) 命令応答ペアを用いた大規模言語モデル(LLM)の訓練プロセスであるインストラクションチューニング(IT)が,ベースとなる事前学習されたLLMをオープンドメインの会話エージェントに変換する主要な方法として登場した。 顕著な成功と広く採用されているが、その限界と欠点は未検討のままである。 本稿では、厳密な実験と、LLMがITを通して行っている変化の詳細な分析を通して、ITの様々な限界を明らかにする。 特に,(1)llmにおける知識やスキルの向上に失敗していることを示す。 LoRAファインチューニングは学習応答開始とスタイルトークンに限られており、フルパラメータのファインチューニングは知識の劣化につながる。 2)知識ソースから派生したITデータセットからの応答パターンのコピーは,応答品質の低下につながる。 3)全パラメータ細調整は,ITデータセットの概念的に類似したインスタンスからトークンを不正確な借用によって幻覚を増大させる。 (4) IT 改善のための一般的な手法は,シンプルな LoRA 微調整モデルよりも性能改善につながるものではない。 以上の結果から,オープンソースのデータセット上で新たな知識を学習するモデルが,事前学習した知識から生成した応答が,その応答を一貫して上回ることが明らかとなった。 洞察と課題が将来の仕事に刺激を与えてくれることを願っています。

Instruction Tuning (IT), the process of training large language models (LLMs) using instruction-response pairs, has emerged as the predominant method for transforming base pre-trained LLMs into open-domain conversational agents. While IT has achieved notable success and widespread adoption, its limitations and shortcomings remain underexplored. In this paper, through rigorous experiments and an in-depth analysis of the changes LLMs undergo through IT, we reveal various limitations of IT. In particular, we show that (1) IT fails to enhance knowledge or skills in LLMs. LoRA fine-tuning is limited to learning response initiation and style tokens, and full-parameter fine-tuning leads to knowledge degradation. (2) Copying response patterns from IT datasets derived from knowledgeable sources leads to a decline in response quality. (3) Full-parameter fine-tuning increases hallucination by inaccurately borrowing tokens from conceptually similar instances in the IT dataset for generating responses. (4) Popular methods to improve IT do not lead to performance improvements over a simple LoRA fine-tuned model. Our findings reveal that responses generated solely from pre-trained knowledge consistently outperform responses by models that learn any form of new knowledge from IT on open-source datasets. We hope the insights and challenges revealed inspire future work.
翻訳日:2024-02-29 17:52:36 公開日:2024-02-28
# stein boltzmann sampling:グローバル最適化のための変分的アプローチ

Stein Boltzmann Sampling: A Variational Approach for Global Optimization ( http://arxiv.org/abs/2402.04689v3 )

ライセンス: Link先を確認
Ga\"etan Serr\'e (CB), Argyris Kalogeratos (CB), Nicolas Vayatis (CB)(参考訳) 本稿では, stein boltzmann sampling (sbs) と呼ばれる, リプシッツ関数のグローバル最適化のための新しいフローベース手法を提案する。 我々の手法は、最適化される関数の最小値の集合に対して漸近的に一様となるボルツマン分布からサンプリングする。 候補解は \emph{Stein Variational Gradient Descent} アルゴリズムでサンプリングされる。 提案手法の漸近収束性を証明し、2つのSBS変種を導入し、様々なベンチマーク関数に対する最先端のグローバル最適化アルゴリズムと比較した。 提案手法の設計, 理論結果, 実験の結果から, sbsは, 効率的なグローバル最適化手法の継続として, 予算をうまく活用しながら, より良いソリューションを創造できるため, 特に適していることが示唆された。

In this paper, we introduce a new flow-based method for global optimization of Lipschitz functions, called Stein Boltzmann Sampling (SBS). Our method samples from the Boltzmann distribution that becomes asymptotically uniform over the set of the minimizers of the function to be optimized. Candidate solutions are sampled via the \emph{Stein Variational Gradient Descent} algorithm. We prove the asymptotic convergence of our method, introduce two SBS variants, and provide a detailed comparison with several state-of-the-art global optimization algorithms on various benchmark functions. The design of our method, the theoretical results, and our experiments, suggest that SBS is particularly well-suited to be used as a continuation of efficient global optimization methods as it can produce better solutions while making a good use of the budget.
翻訳日:2024-02-29 17:52:14 公開日:2024-02-28
# 周期駆動アーベルモデルにおける非可換アノン

Non-Abelian anyons in a periodically-driven Abelian model ( http://arxiv.org/abs/2402.04131v2 )

ライセンス: Link先を確認
Francesco Petiziol(参考訳) その結果,非可換なアノンは局所周期駆動を受けるアーベル位相整列モデルから出現し得ることが示され,その具体例は駆動トーリック符号モデルにおいてアノンをイジングする。 アベリア・アニオン理論を実現するトーリック符号の準粒子励起にはフェルミオンとボソニックの準粒子が含まれ、互いに$\pi$フラックスとみなす。 非可換な振る舞いの出現は、高周波領域におけるフェルミオン対のフロッケ工学的複雑相によって、変調がフェルミイオン準粒子のバンドトポロジーを設計できるという事実で説明される。 これによりフェルミオンはボソンに結合したフロッケ・メジャーーナモードに分数化される。 後者は、トポロジカル超伝導体における渦に類似した非アベリアのエノン特性を発達させる。 本研究は、駆動位相秩序量子物質の非平衡物理学に光を当て、工学的量子システムにおける非可換挙動の観察を容易にする可能性がある。

We show that non-Abelian anyons can emerge from an Abelian topologically-ordered model subject to local time-periodic driving, with the specific example of Ising anyons in a driven toric-code model. The quasiparticle excitations of the toric code, realizing an Abelian-anyon theory, include fermionic and bosonic quasiparticles which see each other as $\pi$ fluxes, namely they result in the accumulation of a $\pi$ phase if wound around each other. The emergence of non-Abelian behaviour is explained in the fact that the modulation can engineer a band topology for the fermionic quasiparticles, by Floquet engineering complex phases of fermion pairing in the high-frequency regime. This induces the fractionalization of the fermions into Floquet-Majorana modes bound to the bosons. The latter then develop non-Abelian anyon character akin to vortices in a topological superconductor. Our findings shed light on the nonequilibrium physics of driven topologically-ordered quantum matter and may facilitate the observation of non-Abelian behaviour in engineered quantum systems.
翻訳日:2024-02-29 17:51:58 公開日:2024-02-28
# グラフによる少しのショットラーニング:メタラーニングから事前学習とプロンプト

Few-Shot Learning on Graphs: from Meta-learning to Pre-training and Prompting ( http://arxiv.org/abs/2402.01440v2 )

ライセンス: Link先を確認
Xingtong Yu, Yuan Fang, Zemin Liu, Yuxia Wu, Zhihao Wen, Jianyuan Bo, Xinming Zhang and Steven C.H. Hoi(参考訳) グラフ中心のタスクにおける重要なステップであるグラフ表現学習は、大きな進歩を遂げている。 従来の手法はエンドツーエンドで動作し、性能は豊富なラベル付きデータの可用性に大きく依存する。 この制約により、グラフ上の数発の学習が出現し、各タスクで利用可能なタスク固有のラベルはわずかである。 この分野での広範な文献を踏まえ、この調査は、最近の発展を総合し、比較洞察を提供し、将来の方向性を特定するための努力である。 我々は,既存の研究を,メタラーニングアプローチ,事前学習アプローチ,ハイブリッドアプローチの3つの主要なファミリーに体系的に分類し,各ファミリーの詳細な分類を行い,読者の方法選択プロセスを支援する。 各カテゴリにおいて,これらの手法間の関係を分析し,その強度と限界を比較する。 最後に,この分野におけるイノベーションの継続を触媒するグラフ上での,少数ショット学習の今後の方向性について概説する。

Graph representation learning, a critical step in graph-centric tasks, has seen significant advancements. Earlier techniques often operate in an end-to-end setting, where performance heavily relies on the availability of ample labeled data. This constraint has spurred the emergence of few-shot learning on graphs, where only a few task-specific labels are available for each task. Given the extensive literature in this field, this survey endeavors to synthesize recent developments, provide comparative insights, and identify future directions. We systematically categorize existing studies into three major families: meta-learning approaches, pre-training approaches, and hybrid approaches, with a finer-grained classification in each family to aid readers in their method selection process. Within each category, we analyze the relationships among these methods and compare their strengths and limitations. Finally, we outline prospective future directions for few-shot learning on graphs to catalyze continued innovation in this field.
翻訳日:2024-02-29 17:51:06 公開日:2024-02-28
# 表現編集による微調整におけるパラメータ効率の向上

Advancing Parameter Efficiency in Fine-tuning via Representation Editing ( http://arxiv.org/abs/2402.15179v2 )

ライセンス: Link先を確認
Muling Wu, Wenhao Liu, Xiaohua Wang, Tianlong Li, Changze Lv, Zixuan Ling, Jianhao Zhu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang(参考訳) パラメータ効率の良いファインチューニング(PEFT)は、トレーニング可能なパラメータの小さなサブセットだけを更新しながら、競争結果を達成する能力において大きな注目を集めている。 現在のPEFT手法の有望な性能にもかかわらず、彼らはLoRAやAdapterのランクの決定やソフトプロンプトの長さの指定など、ハイパーパラメータ選択の課題を提示している。 これらの課題に対処するために、我々はRepresentation EDiting (RED)と呼ばれる、各層で生成された表現をスケールしバイアスする微調整ニューラルモデルに対する新しいアプローチを提案する。 REDはトレーニング可能なパラメータの数を、完全なパラメータの微調整に比べて25,700ドル、LoRAに比べて32ドルと大幅に削減している。 注目すべきは、REDは完全なパラメータの微調整や他のPEFTメソッドに匹敵する結果または優れた結果が得られることである。 実験はRoBERTa, GPT-2, T5, Llama-2など, 様々なアーキテクチャやスケールのモデルで実施され, REDの有効性と有効性を示し, 大規模ニューラルモデルに対して有望なPEFTアプローチとして位置づけた。

Parameter Efficient Fine-Tuning (PEFT) has gained significant attention for its ability to achieve competitive results while updating only a small subset of trainable parameters. Despite the promising performance of current PEFT methods, they present challenges in hyperparameter selection, such as determining the rank of LoRA or Adapter, or specifying the length of soft prompts. In addressing these challenges, we propose a novel approach to fine-tuning neural models, termed Representation EDiting (RED), which scales and biases the representation produced at each layer. RED substantially reduces the number of trainable parameters by a factor of $25,700$ compared to full parameter fine-tuning, and by a factor of $32$ compared to LoRA. Remarkably, RED achieves comparable or superior results to full parameter fine-tuning and other PEFT methods. Extensive experiments were conducted across models of varying architectures and scales, including RoBERTa, GPT-2, T5, and Llama-2, and the results demonstrate the efficiency and efficacy of RED, positioning it as a promising PEFT approach for large neural models.
翻訳日:2024-02-29 17:46:42 公開日:2024-02-28
# エンボディエージェント用空間認識トランスメモリ

Spatially-Aware Transformer Memory for Embodied Agents ( http://arxiv.org/abs/2402.15160v2 )

ライセンス: Link先を確認
Junmo Cho, Jaesik Yoon, Sungjin Ahn(参考訳) エピソード記憶は、過去の出来事を精神的に思い出す能力など、様々な認知過程において重要な役割を果たす。 認知科学は、エピソード記憶の形成と検索における空間コンテキストの重要性を強調する一方で、AIシステムでエピソード記憶を実装するための現在の主要なアプローチは、時間的に秩序づけられた体験を記憶するトランスフォーマーを通じて、空間次元を見渡すことである。 その結果, 空間軸を時間的秩序だけに包含し, どのような利点が得られるか, 基礎構造をどのように拡張できるかは明らかでない。 そこで本稿では,空間情報を組み込んだ空間認識トランスフォーマーモデルについて検討する。 これらのモデルにより、時空間次元と空間次元の両方を考慮する場所中心のエピソディックメモリが作成できる。 このアプローチを採用すると、メモリ利用効率が向上し、様々な場所中心の下流タスクにおいて精度が向上することを示す。 さらに,メモリ利用効率の最適化を目的とした強化学習に基づくメモリ管理手法であるadaptive memory allocatorを提案する。 本実験は, 予測, 生成, 推論, 強化学習など, 様々な環境における提案モデルの利点を実証するものである。 私たちのモデルと実験のソースコードは、https://github.com/junmokane/spatially-aware-transformerで閲覧できます。

Episodic memory plays a crucial role in various cognitive processes, such as the ability to mentally recall past events. While cognitive science emphasizes the significance of spatial context in the formation and retrieval of episodic memory, the current primary approach to implementing episodic memory in AI systems is through transformers that store temporally ordered experiences, which overlooks the spatial dimension. As a result, it is unclear how the underlying structure could be extended to incorporate the spatial axis beyond temporal order alone and thereby what benefits can be obtained. To address this, this paper explores the use of Spatially-Aware Transformer models that incorporate spatial information. These models enable the creation of place-centric episodic memory that considers both temporal and spatial dimensions. Adopting this approach, we demonstrate that memory utilization efficiency can be improved, leading to enhanced accuracy in various place-centric downstream tasks. Additionally, we propose the Adaptive Memory Allocator, a memory management method based on reinforcement learning that aims to optimize efficiency of memory utilization. Our experiments demonstrate the advantages of our proposed model in various environments and across multiple downstream tasks, including prediction, generation, reasoning, and reinforcement learning. The source code for our models and experiments will be available at https://github.com/junmokane/spatially-aware-transformer.
翻訳日:2024-02-29 17:46:04 公開日:2024-02-28
# 教育における責任ある人工知能と受容可能性に関するマルチステークホルダー視点

Multi-stakeholder Perspective on Responsible Artificial Intelligence and Acceptability in Education ( http://arxiv.org/abs/2402.15027v2 )

ライセンス: Link先を確認
A.J. Karran, P. Charland, J-T. Martineau, A. Ortiz de Guinea Lopez de Arana, AM. Lesage, S. Senecal, P-M. Leger(参考訳) 本研究は,生徒,教師,親を含む多職種の視点から,教育における異なる人工知能(ai)応用の受容性について検討する。 教育におけるAIの変革の可能性を認め、データプライバシ、AIエージェンシー、透明性、説明可能性、AIの倫理的展開に関する懸念に対処する。 vignetteの方法論を通じて、参加者は、aiのエージェント、透明性、説明可能性、プライバシを操作する4つのシナリオを提示した。 それぞれのシナリオの後、参加者はAIのグローバルユーティリティ、個人の有用性、正義、自信、リスク、そして各シナリオのAIを使用する意図に対する認識を捉えた調査を完了した。 1198人の参加者の最終サンプルからなるデータ収集は、パートナー機関とソーシャルメディアキャンペーンを通じて配布され、4つのAIユースケースに対する個々の反応に焦点を当てた。 データの仲介分析によると、AIの受け入れと信頼はステークホルダーグループによって大きく異なる。 我々は、高レベルのAIエージェンシーと透明性、説明可能性の間の重要な仲介者と、グローバルユーティリティ、正義、信頼を含む異なる教育AIを使用する意図があることを発見した。 この研究は、教育におけるAIの受容は、多様な利害関係者の認識に加えて、特定のAIアプリケーションとその特性を慎重に検討する必要がある、曖昧で多面的な問題である、と強調している。

This study investigates the acceptability of different artificial intelligence (AI) applications in education from a multi-stakeholder perspective, including students, teachers, and parents. Acknowledging the transformative potential of AI in education, it addresses concerns related to data privacy, AI agency, transparency, explainability and the ethical deployment of AI. Through a vignette methodology, participants were presented with four scenarios where AI's agency, transparency, explainability, and privacy were manipulated. After each scenario, participants completed a survey that captured their perceptions of AI's global utility, individual usefulness, justice, confidence, risk, and intention to use each scenario's AI if available. The data collection comprising a final sample of 1198 multi-stakeholder participants was distributed through a partner institution and social media campaigns and focused on individual responses to four AI use cases. A mediation analysis of the data indicated that acceptance and trust in AI varies significantly across stakeholder groups. We found that the key mediators between high and low levels of AI's agency, transparency, and explainability, as well as the intention to use the different educational AI, included perceived global utility, justice, and confidence. The study highlights that the acceptance of AI in education is a nuanced and multifaceted issue that requires careful consideration of specific AI applications and their characteristics, in addition to the diverse stakeholders' perceptions.
翻訳日:2024-02-29 17:45:28 公開日:2024-02-28
# OpenCodeInterpreter: 実行とリファインメントによるコード生成の統合

OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement ( http://arxiv.org/abs/2402.14658v2 )

ライセンス: Link先を確認
Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, and Xiang Yue(参考訳) 大きな言語モデルの導入により、コード生成が大幅に進歩した。 しかしながら、オープンソースモデルは、しばしばgpt-4コードインタプリタのような高度なシステムの実行能力や反復的な改善を欠いている。 これに対処するために,opencodeinterpreterという,コードの生成,実行,反復的な洗練を目的とした,オープンソースのコードシステムファミリを紹介します。 68Kのマルチターンインタラクションを備えたデータセットであるCode-FeedbackがサポートするOpenCodeInterpreterは、動的コード洗練のための実行と人間のフィードバックを統合する。 我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。 特に、OpenCodeInterpreter-33Bは、HumanEvalとMBPPの平均(および追加バージョン)で83.2 (76.4)の精度を達成し、GPT-4の84.2 (76.2)と密接に競合する。 OpenCodeInterpreterは、オープンソースコード生成モデルとGPT-4 Code Interpreterのようなプロプライエタリシステムとのギャップをもたらす。

The introduction of large language models has significantly advanced code generation. However, open-source models often lack the execution capabilities and iterative refinement of advanced systems like the GPT-4 Code Interpreter. To address this, we introduce OpenCodeInterpreter, a family of open-source code systems designed for generating, executing, and iteratively refining code. Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions, OpenCodeInterpreter integrates execution and human feedback for dynamic code refinement. Our comprehensive evaluation of OpenCodeInterpreter across key benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6) with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap between open-source code generation models and proprietary systems like GPT-4 Code Interpreter.
翻訳日:2024-02-29 17:44:05 公開日:2024-02-28
# Green AI: 異なるランタイムインフラストラクチャ間のDLモデルにおけるエネルギー消費に関する予備的研究

Green AI: A Preliminary Empirical Study on Energy Consumption in DL Models Across Different Runtime Infrastructures ( http://arxiv.org/abs/2402.13640v2 )

ライセンス: Link先を確認
Negar Alizadeh and Fernando Castor(参考訳) PyTorchやTensorFlowといったディープラーニング(DL)フレームワークには、ターゲットハードウェア上でトレーニングされたモデルの実行、メモリの管理、データ転送、マルチアクセラレータの実行に責任を持つランタイムインフラストラクチャが含まれている。 さらに、トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは一般的なプラクティスです。 これにより、ランタイムインフラストラクチャを含むONNXや、さまざまなDLフレームワークや言語で使用可能な標準フォーマットとして機能するONNX Runtimeなどの交換フォーマットが導入された。 これらのランタイムインフラストラクチャは推論性能に大きな影響を及ぼすが、以前の論文ではそのエネルギー効率について検討していない。 本研究では,3つのDLモデルを用いて,よく知られた3つのDLフレームワークとONNXのランタイムインフラストラクチャにおけるエネルギー消費と推論時間を監視する。 本調査では,異なる実行プロバイダを使用することによる影響についても検討した。 dlの性能とエネルギー効率は予測が困難であることが判明した。 1つのフレームワーク、MXNetは、バッチサイズ1を使用してコンピュータビジョンモデルでPyTorchとTensorFlowの両方を上回っている。 しかし、バッチサイズ64により、PyTorchとMXNetは事実上区別不能になり、TensorFlowは一貫してパフォーマンスが向上している。 BERTでは、PyTorchが最高のパフォーマンスを示している。 モデルのONNXへの変換は、ほとんどのケースで大幅なパフォーマンス向上をもたらす。 最後に、実行プロバイダの予備調査において、TensorRTがCUDAより常に優れていることを観察する。

Deep Learning (DL) frameworks such as PyTorch and TensorFlow include runtime infrastructures responsible for executing trained models on target hardware, managing memory, data transfers, and multi-accelerator execution, if applicable. Additionally, it is a common practice to deploy pre-trained models on environments distinct from their native development settings. This led to the introduction of interchange formats such as ONNX, which includes its runtime infrastructure, and ONNX Runtime, which work as standard formats that can be used across diverse DL frameworks and languages. Even though these runtime infrastructures have a great impact on inference performance, no previous paper has investigated their energy efficiency. In this study, we monitor the energy consumption and inference time in the runtime infrastructures of three well-known DL frameworks as well as ONNX, using three various DL models. To have nuance in our investigation, we also examine the impact of using different execution providers. We find out that the performance and energy efficiency of DL are difficult to predict. One framework, MXNet, outperforms both PyTorch and TensorFlow for the computer vision models using batch size 1, due to efficient GPU usage and thus low CPU usage. However, batch size 64 makes PyTorch and MXNet practically indistinguishable, while TensorFlow is outperformed consistently. For BERT, PyTorch exhibits the best performance. Converting the models to ONNX yields significant performance improvements in the majority of cases. Finally, in our preliminary investigation of execution providers, we observe that TensorRT always outperforms CUDA.
翻訳日:2024-02-29 17:42:35 公開日:2024-02-28
# ToDo:高解像度画像の効率的な生成のためのToken Downsampling

ToDo: Token Downsampling for Efficient Generation of High-Resolution Images ( http://arxiv.org/abs/2402.13573v2 )

ライセンス: Link先を確認
Ethan Smith, Nayan Saxena, Aninda Saha(参考訳) 注意機構は画像拡散モデルにおいて重要であるが、その2次計算複雑性は、適切な時間とメモリ制約で処理できる画像のサイズを制限する。 本稿では、しばしば冗長な特徴を含む生成画像モデルにおける高密度注意の重要性を考察し、スペーサーの注意機構に適合させる。 本稿では,2048x2048等の高分解能では最大2倍,最大4.5倍の安定拡散推論を高速化するために,鍵および値トークンのトークンダウンサンプリングに依存する新しいトレーニングフリー方式todoを提案する。 提案手法は,効率のよいスループットと忠実さのバランスをとる上で,従来の手法よりも優れていることを示す。

Attention mechanism has been crucial for image diffusion models, however, their quadratic computational complexity limits the sizes of images we can process within reasonable time and memory constraints. This paper investigates the importance of dense attention in generative image models, which often contain redundant features, making them suitable for sparser attention mechanisms. We propose a novel training-free method ToDo that relies on token downsampling of key and value tokens to accelerate Stable Diffusion inference by up to 2x for common sizes and up to 4.5x or more for high resolutions like 2048x2048. We demonstrate that our approach outperforms previous methods in balancing efficient throughput and fidelity.
翻訳日:2024-02-29 17:42:09 公開日:2024-02-28
# 構造インフォームド位置符号化による音楽生成

Structure-informed Positional Encoding for Music Generation ( http://arxiv.org/abs/2402.13301v2 )

ライセンス: Link先を確認
Manvi Agarwal (S2A, IDS), Changhong Wang (S2A, IDS), Ga\"el Richard (S2A, IDS)(参考訳) 深層学習の手法によって生成される音楽は、しばしば一貫性と長期的な組織化の欠如に苦しむ。 しかし、マルチスケール階層構造は音楽信号の特徴である。 この情報を活用するために,トランスフォーマーを用いた音楽生成のための構造インフォームド位置符号化フレームワークを提案する。 絶対的,相対的,非定常的な3種類の位置情報を設計する。 2つのシンボリック音楽生成タスク(next-timestep predictionとaccompaniment generation)を包括的にテストした。 比較として、文献から複数のベースラインを選択し、複数の音楽的動機付け評価指標を用いて手法の利点を実証する。 特に,本手法は生成した部品の旋律的および構造的整合性を改善する。

Music generated by deep learning methods often suffers from a lack of coherence and long-term organization. Yet, multi-scale hierarchical structure is a distinctive feature of music signals. To leverage this information, we propose a structure-informed positional encoding framework for music generation with Transformers. We design three variants in terms of absolute, relative and non-stationary positional information. We comprehensively test them on two symbolic music generation tasks: next-timestep prediction and accompaniment generation. As a comparison, we choose multiple baselines from the literature and demonstrate the merits of our methods using several musically-motivated evaluation metrics. In particular, our methods improve the melodic and structural consistency of the generated pieces.
翻訳日:2024-02-29 17:41:56 公開日:2024-02-28
# Video ReCap: 時間長ビデオの再帰的キャプション

Video ReCap: Recursive Captioning of Hour-Long Videos ( http://arxiv.org/abs/2402.13250v3 )

ライセンス: Link先を確認
Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius(参考訳) ほとんどのビデオキャプションモデルは、数秒の短いビデオクリップを処理し、低レベルの視覚概念(例えば、オブジェクト、シーン、アトミックアクション)を記述するテキストを出力するように設計されている。 しかし、ほとんどの現実世界のビデオは数分か数時間続き、時間的な粒度の異なる複雑な階層構造を持つ。 本稿では,ビデオキャプションを劇的に異なる長さ(1秒から2時間)で処理し,複数の階層レベルで映像キャプションを出力する再帰的ビデオキャプションモデルであるVideo ReCapを提案する。 再帰的なビデオ言語アーキテクチャは、異なるビデオ階層間のシナジーを利用して、1時間分のビデオを効率的に処理できる。 ビデオの階層構造を学習するためのカリキュラム学習トレーニングスキームを,ビデオのアトミックな動作を記述したクリップレベルのキャプションから学び,セグメントレベルの記述に集中し,時間単位のビデオの要約を生成する。 さらに,Ego4Dを8,267個の長範囲ビデオ要約で拡張することにより,Ego4D-HCapデータセットを導入する。 再帰的モデルでは,階層レベルの異なるキャプションを柔軟に生成できると同時に,ビデオQA on EgoSchemaなどの複雑なビデオ理解タスクにも有効である。 データ、コード、モデルは、https://sites.google.com/view/vidrecapで利用可能である。

Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap
翻訳日:2024-02-29 17:41:41 公開日:2024-02-28
# right on time: 説明を制約して時系列モデルを改訂する

Right on Time: Revising Time Series Models by Constraining their Explanations ( http://arxiv.org/abs/2402.12921v2 )

ライセンス: Link先を確認
Maurice Kraus, David Steinmann, Antonia W\"ust, Andre Kokozinski, Kristian Kersting(参考訳) 深い時系列モデルの信頼性は、結合する要因に依存する傾向によってしばしば損なわれ、誤解を招く結果に繋がる可能性がある。 実機械生産ラインから得られたP2Sというデータセットが、この点を強調している。 時系列データにおける共同創設者の緩和という課題に対処するために、Right on Time(RioT)を紹介します。 本手法は時間領域と周波数領域をまたいだモデル説明とのインタラクションを可能にする。 両方のドメインにおける説明に対するフィードバックはモデルを制約するために使用され、アノテーションを付した境界要素から遠ざかる。 デュアルドメインインタラクション戦略は、時系列データセットにおける共同設立者への効果的な対処に不可欠である。 我々は、暴動がp2sの間違った理由や一般的な時系列分類や予測データセットからモデルを効果的に導き出せることを実証的に実証する。

The reliability of deep time series models is often compromised by their tendency to rely on confounding factors, which may lead to misleading results. Our newly recorded, naturally confounded dataset named P2S from a real mechanical production line emphasizes this. To tackle the challenging problem of mitigating confounders in time series data, we introduce Right on Time (RioT). Our method enables interactions with model explanations across both the time and frequency domain. Feedback on explanations in both domains is then used to constrain the model, steering it away from the annotated confounding factors. The dual-domain interaction strategy is crucial for effectively addressing confounders in time series datasets. We empirically demonstrate that RioT can effectively guide models away from the wrong reasons in P2S as well as popular time series classification and forecasting datasets.
翻訳日:2024-02-29 17:41:16 公開日:2024-02-28
# シンボリックマルチステップ推論タスクで学習した変圧器の力学解析

A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task ( http://arxiv.org/abs/2402.11917v2 )

ライセンス: Link先を確認
Jannik Brinkmann, Abhay Sheshadri, Victor Levoso, Paul Swoboda, Christian Bartelt(参考訳) トランスフォーマーは様々な推論ベンチマークで印象的なパフォーマンスを示している。 これらの能力が実際の推論の結果である程度を評価するために、既存の研究は行動研究の洗練されたベンチマークの開発に焦点を当てている。 しかし、これらの研究は観測能力を動かす内部機構についての洞察を提供していない。 変圧器の内部機構の理解を深めるために,合成推論タスクで訓練された変圧器の包括的機構解析を行う。 モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いて結果を検証する。 その結果,並列に動作し,中間結果を選択されたトークン位置に格納する深さ境界リカレント機構を実装していることが示唆された。 私たちが合成設定で特定したモチーフは、トランスフォーマーのより広範な動作原理に関する貴重な洞察を与え、より複雑なモデルを理解するための基盤となることを期待する。

Transformers demonstrate impressive performance on a range of reasoning benchmarks. To evaluate the degree to which these abilities are a result of actual reasoning, existing work has focused on developing sophisticated benchmarks for behavioral studies. However, these studies do not provide insights into the internal mechanisms driving the observed capabilities. To improve our understanding of the internal mechanisms of transformers, we present a comprehensive mechanistic analysis of a transformer trained on a synthetic reasoning task. We identify a set of interpretable mechanisms the model uses to solve the task, and validate our findings using correlational and causal evidence. Our results suggest that it implements a depth-bounded recurrent mechanisms that operates in parallel and stores intermediate results in selected token positions. We anticipate that the motifs we identified in our synthetic setting can provide valuable insights into the broader operating principles of transformers and thus provide a basis for understanding more complex models.
翻訳日:2024-02-29 17:41:05 公開日:2024-02-28
# Compass: レイテンシに敏感なMLワークフローのための分散スケジューリング

Compass: A Decentralized Scheduler for Latency-Sensitive ML Workflows ( http://arxiv.org/abs/2402.17652v2 )

ライセンス: Link先を確認
Yuting Yang, Andrea Merlina, Weijia Song, Tiancheng Yuan, Ken Birman, Roman Vitenberg(参考訳) gpu対応ワーカーが複雑なクエリを実行するために協調する分散システムにおけるmlクエリ処理について考察する: 画像処理と自然言語処理をサポートするユーザと対話するアプリケーションでよく見られるコンピューティングスタイル。 このようなシステムでは、GPUメモリ管理とタスク配置のスケジューリングが有望な機会である。 我々は、リソースを効率的に使用しながらジョブのレイテンシを削減し、データ依存性が満たされるタスクを配置し、同じジョブからタスクをコロケーションする(これがホストやgpuをオーバーロードしない場合)、gpuメモリを効率的に管理する、これらの機能を統一する新しいフレームワークcompassを提案する。 アートスケジューラの他の状態と比較すると、同じ量またはより少ないリソースを必要としながら、完了時間が大幅に短縮される。 あるケースでは、同じワークロードを処理するのにサーバの半分しか必要なかった。

We consider ML query processing in distributed systems where GPU-enabled workers coordinate to execute complex queries: a computing style often seen in applications that interact with users in support of image processing and natural language processing. In such systems, coscheduling of GPU memory management and task placement represents a promising opportunity. We propose Compass, a novel framework that unifies these functions to reduce job latency while using resources efficiently, placing tasks where data dependencies will be satisfied, collocating tasks from the same job (when this will not overload the host or its GPU), and efficiently managing GPU memory. Comparison with other state of the art schedulers shows a significant reduction in completion times while requiring the same amount or even fewer resources. In one case, just half the servers were needed for processing the same workload.
翻訳日:2024-02-29 17:34:25 公開日:2024-02-28
# omniact: デスクトップとweb用のマルチモーダルジェネラリスト自律エージェントを実現するデータセットとベンチマーク

OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web ( http://arxiv.org/abs/2402.17553v2 )

ライセンス: Link先を確認
Raghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, Ruslan Salakhutdinov(参考訳) 何十年もの間、人間とコンピュータのインタラクションは基本的に手作業だった。 現在でも、コンピュータで行われている生産的な作業は、あらゆるステップで人間の入力を必要とする。 自律的な仮想エージェントは、これらのメニアルタスクの多くを自動化するエキサイティングなステップである。 仮想エージェントは、コンピュータシステムの可能性を最大限活用するために、限られた技術能力を持つユーザーに権限を与える。 また、カレンダー管理から複雑な旅行予約まで、人間の介入を最小限に抑えて、多数のコンピュータタスクの効率的な合理化を可能にした。 本稿では,コンピュータタスクを遂行するための実行可能プログラムを生成するエージェントの能力を評価するための,第1世代のデータセットとベンチマークであるOmniACTを紹介する。 私たちのスコープは従来のWebオートメーションを超えて、さまざまなデスクトップアプリケーションをカバーするものです。 データセットは、"Play the next song"のような基本的なタスクと、"Send a email to John Doe mentioning the time and place to meet"のような長い水平線タスクで構成されている。 具体的には、一対の画面イメージと視覚的に接地された自然言語タスクが与えられた場合、タスクを完全に実行可能なスクリプトを生成する。 ベンチマークでは、いくつかの強力なベースライン言語モデルエージェントを実行しています。 最強のベースラインであるGPT-4は、我々のベンチマークで最高の性能を発揮するが、その性能はタスクを完了できる実行可能なスクリプトを生成する能力のわずか15%に留まり、従来のWebエージェントに対するタスクの課題を実証している。 我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進歩を測定し評価するプラットフォームを提供し、大規模言語モデルとコンピュータ画面の視覚的基盤を橋渡しするマルチモーダルモデルの構築に向けた今後の取り組みを動機付けている。

For decades, human-computer interaction has fundamentally been manual. Even today, almost all productive work done on the computer necessitates human input at every step. Autonomous virtual agents represent an exciting step in automating many of these menial tasks. Virtual agents would empower users with limited technical proficiency to harness the full possibilities of computer systems. They could also enable the efficient streamlining of numerous computer tasks, ranging from calendar management to complex travel bookings, with minimal human intervention. In this paper, we introduce OmniACT, the first-of-a-kind dataset and benchmark for assessing an agent's capability to generate executable programs to accomplish computer tasks. Our scope extends beyond traditional web automation, covering a diverse range of desktop applications. The dataset consists of fundamental tasks such as "Play the next song", as well as longer horizon tasks such as "Send an email to John Doe mentioning the time and place to meet". Specifically, given a pair of screen image and a visually-grounded natural language task, the goal is to generate a script capable of fully executing the task. We run several strong baseline language model agents on our benchmark. The strongest baseline, GPT-4, performs the best on our benchmark However, its performance level still reaches only 15% of the human proficiency in generating executable scripts capable of completing the task, demonstrating the challenge of our task for conventional web agents. Our benchmark provides a platform to measure and evaluate the progress of language model agents in automating computer tasks and motivates future work towards building multimodal models that bridge large language models and the visual grounding of computer screens.
翻訳日:2024-02-29 17:34:11 公開日:2024-02-28
# Sora: 大規模ビジョンモデルの背景,技術,限界,機会に関するレビュー

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models ( http://arxiv.org/abs/2402.17177v2 )

ライセンス: Link先を確認
Yixin Liu, Kai Zhang, Yuan Li, Zhiling Yan, Chujie Gao, Ruoxi Chen, Zhengqing Yuan, Yue Huang, Hanchi Sun, Jianfeng Gao, Lifang He, and Lichao Sun(参考訳) Sora(ソラ)は、OpenAIが2024年2月にリリースした、テキストからビデオへの生成AIモデルである。 このモデルは、テキストの指示からリアルまたは想像的なシーンのビデオを生成し、物理的な世界をシミュレートする可能性を示すよう訓練されている。 本稿では,公開技術報告とリバースエンジニアリングに基づいて,テキスト対ビデオaiモデルの背景,関連技術,応用,課題,今後の方向性について概観する。 最初に sora の開発を追跡し、この "world simulator" を構築するのに使われた基礎技術を調査した。 次に,映画製作から教育,マーケティングまで多産業におけるsoraの応用と潜在的影響について詳述する。 安全で偏りのないビデオ生成の確保など,soraを広く展開するために取り組むべき主な課題と制限について論じる。 最後に、Soraとビデオ生成モデルの将来的な発展と、その分野における進歩が、ビデオ生成の生産性とクリエイティビティを向上し、人間とAIのインタラクションの新たな方法を実現する方法について論じる。

Sora is a text-to-video generative AI model, released by OpenAI in February 2024. The model is trained to generate videos of realistic or imaginative scenes from text instructions and show potential in simulating the physical world. Based on public technical reports and reverse engineering, this paper presents a comprehensive review of the model's background, related technologies, applications, remaining challenges, and future directions of text-to-video AI models. We first trace Sora's development and investigate the underlying technologies used to build this "world simulator". Then, we describe in detail the applications and potential impact of Sora in multiple industries ranging from film-making and education to marketing. We discuss the main challenges and limitations that need to be addressed to widely deploy Sora, such as ensuring safe and unbiased video generation. Lastly, we discuss the future development of Sora and video generation models in general, and how advancements in the field could enable new ways of human-AI interaction, boosting productivity and creativity of video generation.
翻訳日:2024-02-29 17:33:44 公開日:2024-02-28
# スポーツ・音楽に適用した大規模生成aiテキスト

Large Scale Generative AI Text Applied to Sports and Music ( http://arxiv.org/abs/2402.15514v2 )

ライセンス: Link先を確認
Aaron Baughman, Stephen Hammer, Rahul Agarwal, Gozde Akay, Eduardo Morales, Tony Johnson, Leonid Karlinsky, Rogerio Feris(参考訳) 我々は、世界中の大規模スポーツや音楽イベントのために、コメントやパーソナライズされたニュース記事を含むメディアコンテンツの生産を拡大する問題に対処する。 私たちのアプローチは、生成AIモデルを使用して、大量のマルチモーダルデータ(ビデオ、記事、リアルタイムスコアリングフィード、統計、ファクトシートなど)をコヒーレントで流動的なテキストに変換する。 このアプローチに基づいて,2023年のusオープン,ウィンブルドン,マスターズトーナメントにおいて,ハイライトパッケージのための自動ナレーションを生成するためにデプロイされたai解説システムについて紹介する。 同じ流れで、私たちのソリューションは、espnファンタジーフットボールのパーソナライズされたコンテンツと、グラミー賞の音楽アーティストに関するストーリーを作成するために拡張されました。 これらのアプリケーションは共通のソフトウェアアーキテクチャを使用して構築され、平均ルージュ-Lは82.00、パープレキシティは6.6で15倍の速度向上を達成した。 私たちの仕事は、前述のイベントでうまく展開され、世界中の9000万人のファンを80億ページビューでサポートし、スポーツ、エンターテイメント、AIの交差点で何ができるかを継続的に押し付けました。

We address the problem of scaling up the production of media content, including commentary and personalized news stories, for large-scale sports and music events worldwide. Our approach relies on generative AI models to transform a large volume of multimodal data (e.g., videos, articles, real-time scoring feeds, statistics, and fact sheets) into coherent and fluent text. Based on this approach, we introduce, for the first time, an AI commentary system, which was deployed to produce automated narrations for highlight packages at the 2023 US Open, Wimbledon, and Masters tournaments. In the same vein, our solution was extended to create personalized content for ESPN Fantasy Football and stories about music artists for the Grammy awards. These applications were built using a common software architecture achieved a 15x speed improvement with an average Rouge-L of 82.00 and perplexity of 6.6. Our work was successfully deployed at the aforementioned events, supporting 90 million fans around the world with 8 billion page views, continuously pushing the bounds on what is possible at the intersection of sports, entertainment, and AI.
翻訳日:2024-02-29 17:33:02 公開日:2024-02-28
# 深層学習における畳み込みの包括的調査 : 応用,課題,将来動向

A Comprehensive Survey of Convolutions in Deep Learning: Applications, Challenges, and Future Trends ( http://arxiv.org/abs/2402.15490v2 )

ライセンス: Link先を確認
Abolfazl Younesi, Mohsen Ansari, MohammadAmin Fazli, Alireza Ejlali, Muhammad Shafique, J\"org Henkel(参考訳) 今日のデジタル時代において、ディープラーニング(DL)のサブセットである畳み込みニューラルネットワーク(CNN)は、画像分類、オブジェクト検出、イメージセグメンテーションといった様々なコンピュータビジョンタスクに広く利用されている。 1D、2D、3D CNN、拡張、グループ化、注目、深みのある畳み込み、NASなど、特定のニーズと要求を満たすように設計されたCNNには、数多くの種類がある。 それぞれのタイプのcnnは独特の構造と特性を持ち、特定のタスクに適している。 強みと弱みを理解するために、これらの異なるcnnタイプの詳細な理解と比較分析を行うことが重要です。 さらに、各タイプのCNNの性能、限界、実用性についての研究は、将来新しい改良されたアーキテクチャの開発に役立てることができる。 また、研究者がさまざまな観点から研究や開発に利用するプラットフォームやフレームワークにも目を向けます。 さらに,CNNの6次元視覚,生成モデル,メタラーニングといった研究分野についても検討する。 本稿では,CNNアーキテクチャの総合的な検討と比較を行い,アーキテクチャの違いを強調し,それぞれのメリット,デメリット,アプリケーション,課題,今後の動向を強調する。

In today's digital age, Convolutional Neural Networks (CNNs), a subset of Deep Learning (DL), are widely used for various computer vision tasks such as image classification, object detection, and image segmentation. There are numerous types of CNNs designed to meet specific needs and requirements, including 1D, 2D, and 3D CNNs, as well as dilated, grouped, attention, depthwise convolutions, and NAS, among others. Each type of CNN has its unique structure and characteristics, making it suitable for specific tasks. It's crucial to gain a thorough understanding and perform a comparative analysis of these different CNN types to understand their strengths and weaknesses. Furthermore, studying the performance, limitations, and practical applications of each type of CNN can aid in the development of new and improved architectures in the future. We also dive into the platforms and frameworks that researchers utilize for their research or development from various perspectives. Additionally, we explore the main research fields of CNN like 6D vision, generative models, and meta-learning. This survey paper provides a comprehensive examination and comparison of various CNN architectures, highlighting their architectural differences and emphasizing their respective advantages, disadvantages, applications, challenges, and future trends.
翻訳日:2024-02-29 17:32:40 公開日:2024-02-28
# Text2Pic Swift: 大規模ライブラリの長文検索と画像検索

Text2Pic Swift: Enhancing Long-Text to Image Retrieval for Large-Scale Libraries ( http://arxiv.org/abs/2402.15276v2 )

ライセンス: Link先を確認
Zijun Long and Xuri Ge and Richard Mccreadie and Joemon Jose(参考訳) テキスト検索は,デジタルライブラリや電子商取引プラットフォーム,マルチメディアデータベースなど,さまざまなアプリケーションにおいて重要な役割を担っている。 先進的な性能を提供するマルチモーダル大規模言語モデル(MLLM)の進歩にもかかわらず、大規模で多様であいまいな検索シナリオの適用性は、膨大な計算要求とインジェクティブ埋め込みの生成によって制限されている。 本稿では,膨大なデータセットのテキスト記述に対応する画像の効率的かつ堅牢な検索に適したText2Pic Swiftフレームワークを提案する。 最初のentity-based ranking (er)ステージは、長いテキストクエリに固有のあいまいさをマルチクエリからマルチプルターゲット戦略を通じて解決し、その後の分析のために潜在的な候補を効果的に絞り込みます。 これに続いて、概要に基づく再ランク付け(SR)ステージは、簡潔なクエリ要約に基づいてこれらの選択をさらに洗練する。 さらに,曖昧なクエリの課題に対処し,検索プロセスの両段階を容易にし,ベクトルに基づく類似度評価による計算効率を大幅に向上させる,新たなデカップリングbeit-3エンコーダを提案する。 AToMiCデータセットで実施した評価では、Text2Pic Swiftは、トレーニングと検索期間をそれぞれ68.75%、99.79%削減し、Recall@1000を最大11.06%増加させることで、現在のMLLMよりも優れたパフォーマンスを示している。

Text-to-image retrieval plays a crucial role across various applications, including digital libraries, e-commerce platforms, and multimedia databases, by enabling the search for images using text queries. Despite the advancements in Multimodal Large Language Models (MLLMs), which offer leading-edge performance, their applicability in large-scale, varied, and ambiguous retrieval scenarios is constrained by significant computational demands and the generation of injective embeddings. This paper introduces the Text2Pic Swift framework, tailored for efficient and robust retrieval of images corresponding to extensive textual descriptions in sizable datasets. The framework employs a two-tier approach: the initial Entity-based Ranking (ER) stage addresses the ambiguity inherent in lengthy text queries through a multiple-queries-to-multiple-targets strategy, effectively narrowing down potential candidates for subsequent analysis. Following this, the Summary-based Re-ranking (SR) stage further refines these selections based on concise query summaries. Additionally, we present a novel Decoupling-BEiT-3 encoder, specifically designed to tackle the challenges of ambiguous queries and to facilitate both stages of the retrieval process, thereby significantly improving computational efficiency via vector-based similarity assessments. Our evaluation, conducted on the AToMiC dataset, demonstrates that Text2Pic Swift outperforms current MLLMs by achieving up to an 11.06% increase in Recall@1000, alongside reductions in training and retrieval durations by 68.75% and 99.79%, respectively.
翻訳日:2024-02-29 17:32:18 公開日:2024-02-28
# エントロピー規則制御による連続時間拡散モデルの微調整

Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized Control ( http://arxiv.org/abs/2402.15194v2 )

ライセンス: Link先を確認
Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali, Gabriele Scalia, Nathaniel Lee Diamant, Alex M Tseng, Tommaso Biancalani, Sergey Levine(参考訳) 拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。 拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質や生成されたタンパク質の機能的性質といった他の特性により関心を持っている。 拡散モデルは、ある報酬関数の値(例えば画像の美的品質)を最大化することにより、ゴール指向の方法で微調整することができる。 しかし,これらの手法は,不完全な報酬関数の活用により,サンプルの多様性の低減,トレーニングデータ分布の大幅なずれ,さらにはサンプル品質の低下につながる可能性がある。 最後の問題は、多くの実践的応用の場合と同様に、報酬関数が基底の「ゲヌイネ」報酬を近似する学習モデルであるときにしばしば発生する。 これらの課題は集合的に「後退崩壊」と呼ばれ、大きな障害となる。 この報酬の崩壊に対処するため,我々は,事前学習された拡散モデルに対するエントロピー正規化制御,すなわち神経sdesによるエントロピーエンハンスド報酬の直接最適化として,微調整問題を構成する。 提案手法は,不完全報酬モデルの過剰最適化を緩和し,純正報酬の高い多種多様なサンプルを効率的に生成できることを実証する理論的・実証的証拠を示す。

Diffusion models excel at capturing complex data distributions, such as those of natural images and proteins. While diffusion models are trained to represent the distribution in the training dataset, we often are more concerned with other properties, such as the aesthetic quality of the generated images or the functional properties of generated proteins. Diffusion models can be finetuned in a goal-directed way by maximizing the value of some reward function (e.g., the aesthetic quality of an image). However, these approaches may lead to reduced sample diversity, significant deviations from the training data distribution, and even poor sample quality due to the exploitation of an imperfect reward function. The last issue often occurs when the reward function is a learned model meant to approximate a ground-truth "genuine" reward, as is the case in many practical applications. These challenges, collectively termed "reward collapse," pose a substantial obstacle. To address this reward collapse, we frame the finetuning problem as entropy-regularized control against the pretrained diffusion model, i.e., directly optimizing entropy-enhanced rewards with neural SDEs. We present theoretical and empirical evidence that demonstrates our framework is capable of efficiently generating diverse samples with high genuine rewards, mitigating the overoptimization of imperfect reward models.
翻訳日:2024-02-29 17:31:48 公開日:2024-02-28
# QN-Mixer:Sparse-View CT再構成のための準ニュートンMLP-Mixerモデル

QN-Mixer: A Quasi-Newton MLP-Mixer Model for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2402.17951v1 )

ライセンス: Link先を確認
Ishak Ayad, Nicolas Larue, Ma\"i K. Nguyen(参考訳) 逆問題は様々な分野にまたがる。 医学的な文脈では、ctは患者の内部構造を再構築する上で重要な役割を担っており、本質的に不適切な逆問題に起因するアーティファクトによる課題を呈している。 これまでの研究では、ポストプロセッシングとディープアンロールアルゴリズムによる画質向上が、超疎データによるコンバージェンス時間の延長などの課題に直面している。 拡張にもかかわらず、結果として得られる画像は、しばしば重要なアーティファクトを示し、現実世界の診断アプリケーションでの有効性を制限する。 画像逆問題を解くための深い2次アンロールアルゴリズムを探索し,その収束速度と時間の複雑さを,勾配降下のような一般的な一階法と比較して強調する。 本稿では,準ニュートン法に基づくアルゴリズムであるqn-mixerを提案する。 BFGSアルゴリズムを通じて学習パラメータを使用し、非局所正規化用語として機能し、画像内の長距離依存関係をキャプチャする効率的なニューラルネットワークであるIncept-Mixerを導入する。 完全ヘッセン行列計算を必要とする準ニュートンアルゴリズムに典型的に関連する計算要求に対処するため,メモリ効率の代替案を提案する。 本手法は,勾配情報をインテリジェントにサンプリングし,性能を維持しつつ計算要求を大幅に削減する。 このアプローチは、さまざまなデータセットや走査プロトコルを含むスパースビューCT問題の実験を通じて検証され、後処理や最先端のアプローチと比較される。 提案手法は既存の手法より優れ,SSIMとPSNRの両面において最先端の性能を実現し,必要なアンロールイテレーションの回数を削減した。

Inverse problems span across diverse fields. In medical contexts, computed tomography (CT) plays a crucial role in reconstructing a patient's internal structure, presenting challenges due to artifacts caused by inherently ill-posed inverse problems. Previous research advanced image quality via post-processing and deep unrolling algorithms but faces challenges, such as extended convergence times with ultra-sparse data. Despite enhancements, resulting images often show significant artifacts, limiting their effectiveness for real-world diagnostic applications. We aim to explore deep second-order unrolling algorithms for solving imaging inverse problems, emphasizing their faster convergence and lower time complexity compared to common first-order methods like gradient descent. In this paper, we introduce QN-Mixer, an algorithm based on the quasi-Newton approach. We use learned parameters through the BFGS algorithm and introduce Incept-Mixer, an efficient neural architecture that serves as a non-local regularization term, capturing long-range dependencies within images. To address the computational demands typically associated with quasi-Newton algorithms that require full Hessian matrix computations, we present a memory-efficient alternative. Our approach intelligently downsamples gradient information, significantly reducing computational requirements while maintaining performance. The approach is validated through experiments on the sparse-view CT problem, involving various datasets and scanning protocols, and is compared with post-processing and deep unrolling state-of-the-art approaches. Our method outperforms existing approaches and achieves state-of-the-art performance in terms of SSIM and PSNR, all while reducing the number of unrolling iterations required.
翻訳日:2024-02-29 16:58:20 公開日:2024-02-28
# 事前学習言語モデルに対するグラディエントフリー適応型グローバルプルーニング

Gradient-Free Adaptive Global Pruning for Pre-trained Language Models ( http://arxiv.org/abs/2402.17946v1 )

ライセンス: Link先を確認
Guangji Bai, Yijiang Li, Chen Ling, Kibaek Kim, Liang Zhao(参考訳) LLaMAやGPTのような大規模言語モデル(LLM)が自然言語処理に与える影響は、その禁止的な計算要求に反する。 プルーニングは重要な圧縮戦略として登場し、メモリ効率と計算効率の両方を高めるためにスパーシティを導入した。 しかし、従来のグローバルpruningはスケーラビリティの問題からllmでは実用的でないが、ローカルpruningはその効率性にもかかわらず、サブオプティマイズソリューションにつながる。 これらの課題に対処し、グローバルプルーニングプロセスを管理可能かつ協調的なサブプロブレムに再定義し、グローバル最適化によるリソース効率の高い最適化を可能にする新しいフレームワークであるadaptive global pruning(adagp)を提案する。 AdaGPのアプローチは、LLMをモジュラー関数の連鎖として概念化し、問題分解のための補助変数を活用するもので、LLMの実用的適用を促進するだけでなく、特に最先端の手法を超越した高疎度なシステムにおいて、大幅な性能向上を示す。

The transformative impact of large language models (LLMs) like LLaMA and GPT on natural language processing is countered by their prohibitive computational demands. Pruning has emerged as a pivotal compression strategy, introducing sparsity to enhance both memory and computational efficiency. Yet, traditional global pruning is impractical for LLMs due to scalability issues, while local pruning, despite its efficiency, leads to suboptimal solutions. Addressing these challenges, we propose Adaptive Global Pruning (AdaGP), a novel framework that redefines the global pruning process into manageable, coordinated subproblems, allowing for resource-efficient optimization with global optimality. AdaGP's approach, which conceptualizes LLMs as a chain of modular functions and leverages auxiliary variables for problem decomposition, not only facilitates a pragmatic application on LLMs but also demonstrates significant performance improvements, particularly in high-sparsity regimes where it surpasses current state-of-the-art methods.
翻訳日:2024-02-29 16:57:50 公開日:2024-02-28
# M3-VRD:マルチモーダルマルチタスクマルチ教師 ビジュアルリッチフォーム文書理解

M3-VRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding ( http://arxiv.org/abs/2402.17983v1 )

ライセンス: Link先を確認
Yihao Ding, Lorenzo Vaiani, Caren Han, Jean Lee, Paolo Garza, Josiah Poon, Luca Cagliero(参考訳) 本稿では,視覚的にリッチな文書理解のためのマルチモーダル・マルチタスク・マルチ教師合同知識蒸留モデルを提案する。 このモデルは、トークンとエンティティ表現の微妙な相関を容易にし、フォームドキュメントに固有の複雑さに対処することによって、きめ細かなレベルと粗いレベルの両方の洞察を活用するように設計されている。 さらに, 多様な多教師間知識蒸留プロセスの高度化, 分散ギャップの提示, フォーム文書の調和的理解を実現するために, 新たな粒度間・粒度間損失関数を導入する。 公開フォーム文書理解データセットの包括的評価を通じて,提案モデルは既存のベースラインを一貫して上回り,視覚的に複雑なフォーム文書の複雑な構造や内容を扱う上での有効性を示す。

This paper presents a groundbreaking multimodal, multi-task, multi-teacher joint-grained knowledge distillation model for visually-rich form document understanding. The model is designed to leverage insights from both fine-grained and coarse-grained levels by facilitating a nuanced correlation between token and entity representations, addressing the complexities inherent in form documents. Additionally, we introduce new inter-grained and cross-grained loss functions to further refine diverse multi-teacher knowledge distillation transfer process, presenting distribution gaps and a harmonised understanding of form documents. Through a comprehensive evaluation across publicly available form document understanding datasets, our proposed model consistently outperforms existing baselines, showcasing its efficacy in handling the intricate structures and content of visually complex form documents.
翻訳日:2024-02-29 16:47:12 公開日:2024-02-28
# 大規模言語モデルの事実性向上のための重要トークンの協調復号化

Collaborative decoding of critical tokens for boosting factuality of large language models ( http://arxiv.org/abs/2402.17982v1 )

ライセンス: Link先を確認
Lifeng Jin, Baolin Peng, Linfeng Song, Haitao Mi, Ye Tian and Dong Yu(参考訳) 大規模言語モデルの最も一般的なトレーニングパイプラインは、事前訓練、微調整、調整フェーズであり、事前訓練されたモデルや微調整されたモデルのようなそれぞれのモデルである。 ファインチューニングモデルとアライメントモデルでは、命令追従と安全生成の能力が向上しているが、世界に関する事実を保ち続ける能力は、ファインチューニングプロセスによって影響を受ける。 さらに、世代間サンプリングの一般的な実践は幻覚の可能性を増大させる。 本研究では,クリティカルトークンの概念を通じて,事前学習モデル内の高事実性を活用するための協調的復号化フレームワークを提案する。 まず,次のトークンに使用するモデルを決定するために重要なトークン分類器を設計し,その後,異なる復号戦略を用いて次のトークンを生成する。 異なるモデルとデータセットを用いた実験は、我々のデコーディングフレームワークがモデル幻覚を著しく低減することができ、協調デコーディングフレームワークの重要性を示している。

The most common training pipeline for large language models includes pretraining, finetuning and aligning phases, with their respective resulting models, such as the pretrained model and the finetuned model. Finetuned and aligned models show improved abilities of instruction following and safe generation, however their abilities to stay factual about the world are impacted by the finetuning process. Furthermore, the common practice of using sampling during generation also increases chances of hallucination. In this work, we introduce a collaborative decoding framework to harness the high factuality within pretrained models through the concept of critical tokens. We first design a critical token classifier to decide which model to use for the next token, and subsequently generates the next token using different decoding strategies. Experiments with different models and datasets show that our decoding framework is able to reduce model hallucination significantly, showcasing the importance of the collaborative decoding framework.
翻訳日:2024-02-29 16:46:57 公開日:2024-02-28
# Ensemble Methodology:LightGBM, XGBoost, LocalEnsemble を用いたクレジットデフォルト予測の革新

Ensemble Methodology:Innovations in Credit Default Prediction Using LightGBM, XGBoost, and LocalEnsemble ( http://arxiv.org/abs/2402.17979v1 )

ライセンス: Link先を確認
Mengran Zhu, Ye Zhang, Yulu Gong, Kaijuan Xing, Xu Yan, Jintong Song(参考訳) 消費者ローンの分野では、正確な信用デフォルト予測はリスク軽減と融資決定の最適化において重要な要素である。 広範囲にわたる研究は、顧客体験の向上と貸付機関の健全な経済機能を保証するため、既存のモデルの継続的な改善を追求している。 本研究は,信用デフォルト予測の展開,従来型モデルへの挑戦,革新的アプローチの導入などに対応している。 基礎研究と最近のイノベーションを基盤として,信用デフォルト予測の精度基準を再定義し,業界に新たなベンチマークを設定することを目的としています。 これらの課題を克服するために,LightGBM,XGBoost,LocalEnsembleモジュールからなるEnsemble Methodsフレームワークを提案する。 本手法は,異なる特徴セットを利用することで,従来の研究で特定された制約に対処し,信用デフォルト予測精度の新たな標準を確立することを目的としている。 実験の結果,データセット上でのアンサンブルモデルの有効性が検証され,この分野への多大な貢献が得られた。 この革新的なアプローチは、既存の障害に対処するだけでなく、信用デフォルト予測モデルの正確性と堅牢性を向上させる先例となる。

In the realm of consumer lending, accurate credit default prediction stands as a critical element in risk mitigation and lending decision optimization. Extensive research has sought continuous improvement in existing models to enhance customer experiences and ensure the sound economic functioning of lending institutions. This study responds to the evolving landscape of credit default prediction, challenging conventional models and introducing innovative approaches. By building upon foundational research and recent innovations, our work aims to redefine the standards of accuracy in credit default prediction, setting a new benchmark for the industry. To overcome these challenges, we present an Ensemble Methods framework comprising LightGBM, XGBoost, and LocalEnsemble modules, each making unique contributions to amplify diversity and improve generalization. By utilizing distinct feature sets, our methodology directly tackles limitations identified in previous studies, with the overarching goal of establishing a novel standard for credit default prediction accuracy. Our experimental findings validate the effectiveness of the ensemble model on the dataset, signifying substantial contributions to the field. This innovative approach not only addresses existing obstacles but also sets a precedent for advancing the accuracy and robustness of credit default prediction models.
翻訳日:2024-02-29 16:46:41 公開日:2024-02-28
# マルチエージェント強化学習における効果的な探索手法の想像,初期化,探索

Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2402.17978v1 )

ライセンス: Link先を確認
Zeyang Liu, Lipeng Wan, Xinrui Yang, Zhuoran Chen, Xingyu Chen, Xuguang Lan(参考訳) 複雑な協調作業におけるマルチエージェント強化学習(MARL)の最適戦略を発見するためには,効果的な探索が重要である。 既存の手法では、主に内在的な報酬を利用して、行動観察空間全体において集団探索を直接行うのではなく、共同行動空間を分解する役割ベースの学習を可能にする。 しかし、彼らは長い水平タスクで成功する状態に到達するための特定の共同行動シーケンスを得るという課題に直面している。 この制限に対処するため,複雑なシナリオにおける効率的なマルチエージェント探索のための新しい手法であるImagine, Initialize, Explore (IIE)を提案する。 IIEはトランスフォーマーモデルを用いて、エージェントが互いの遷移関数に影響を与える臨界状態に達する方法を想像する。 そして,探索フェーズの前にシミュレータを用いて,この状態で環境を初期化する。 我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。 プロンプトは、タイムステップ・トゥ・ゴー、リターン・トゥ・ゴー、インフルエンス値、ワンショットのデモで構成され、望ましい状態と軌道を指定するとともに、アクション生成を導く。 臨界状態のエージェントを初期化することにより、IIEは潜在的に重要でない領域を発見する可能性を大幅に高める。 その単純さにもかかわらず,本手法はStarCraft Multi-Agent Challenge (SMAC) とSMACv2環境におけるマルチエージェント探索ベースラインよりも優れていることを示す。 特に、IIEはスパース逆SMACタスクの性能を改善し、CVAE-GANや拡散モデルのような他の生成手法よりも初期化状態よりも効果的なカリキュラムを生成する。

Effective exploration is crucial to discovering optimal strategies for multi-agent reinforcement learning (MARL) in complex coordination tasks. Existing methods mainly utilize intrinsic rewards to enable committed exploration or use role-based learning for decomposing joint action spaces instead of directly conducting a collective search in the entire action-observation space. However, they often face challenges obtaining specific joint action sequences to reach successful states in long-horizon tasks. To address this limitation, we propose Imagine, Initialize, and Explore (IIE), a novel method that offers a promising solution for efficient multi-agent exploration in complex scenarios. IIE employs a transformer model to imagine how the agents reach a critical state that can influence each other's transition functions. Then, we initialize the environment at this state using a simulator before the exploration phase. We formulate the imagination as a sequence modeling problem, where the states, observations, prompts, actions, and rewards are predicted autoregressively. The prompt consists of timestep-to-go, return-to-go, influence value, and one-shot demonstration, specifying the desired state and trajectory as well as guiding the action generation. By initializing agents at the critical states, IIE significantly increases the likelihood of discovering potentially important under-explored regions. Despite its simplicity, empirical results demonstrate that our method outperforms multi-agent exploration baselines on the StarCraft Multi-Agent Challenge (SMAC) and SMACv2 environments. Particularly, IIE shows improved performance in the sparse-reward SMAC tasks and produces more effective curricula over the initialized states than other generative methods, such as CVAE-GAN and diffusion models.
翻訳日:2024-02-29 16:46:20 公開日:2024-02-28
# 補助防御ネットワークによるトラッキングロバスト性の向上

Enhancing Tracking Robustness with Auxiliary Adversarial Defense Networks ( http://arxiv.org/abs/2402.17976v1 )

ライセンス: Link先を確認
Zhewei Wu, Ruilong Yu, Qihe Liu, Shuying Cheng, Shilin Qiu, Shijie Zhou(参考訳) 視覚物体追跡における敵対的攻撃は、画像に不可避な摂動を導入することによって、高度な追跡装置の性能を著しく低下させた。 これらの攻撃方法は近年、研究者からかなりの注目を集めている。 しかし、視覚オブジェクト追跡に特化した敵防御方法の設計には、まだ研究が不足している。 これらの問題に対処するために、トラッキングプロセス中の対向的摂動を解消するDuaLossDefと呼ばれる効果的な前処理ネットワークを提案する。 DuaLossDefは、トラッカーの検索ブランチまたはテンプレートブランチの前にデプロイされ、入力イメージに防御的な変換を適用する。 さらに、パラメータの調整を必要とせずに、プラグアンドプレイモジュールとして他のビジュアルトラッカーとシームレスに統合することもできる。 我々はDua-Lossを使ってDuaLossDefを訓練し、特にDua-Lossを用いてトラッカーの分類と回帰を同時に攻撃する逆サンプルを生成する。 OTB100、LaSOT、VOT2018ベンチマークで実施された大規模な実験により、DuaLossDefは適応的および非適応的な攻撃シナリオにおいて、敵の攻撃方法に対する優れた防御力を維持していることが示された。 さらに、防衛ネットワークを他のトラッカーに転送する場合、信頼性の高い転送性を示す。 最後に、DuaLossDefは最大5ms/frameの処理時間を実現し、計算オーバーヘッドを伴わずに既存の高速トラッカーとシームレスに統合できる。 私たちはまもなくコードを公開します。

Adversarial attacks in visual object tracking have significantly degraded the performance of advanced trackers by introducing imperceptible perturbations into images. These attack methods have garnered considerable attention from researchers in recent years. However, there is still a lack of research on designing adversarial defense methods specifically for visual object tracking. To address these issues, we propose an effective additional pre-processing network called DuaLossDef that eliminates adversarial perturbations during the tracking process. DuaLossDef is deployed ahead of the search branche or template branche of the tracker to apply defensive transformations to the input images. Moreover, it can be seamlessly integrated with other visual trackers as a plug-and-play module without requiring any parameter adjustments. We train DuaLossDef using adversarial training, specifically employing Dua-Loss to generate adversarial samples that simultaneously attack the classification and regression branches of the tracker. Extensive experiments conducted on the OTB100, LaSOT, and VOT2018 benchmarks demonstrate that DuaLossDef maintains excellent defense robustness against adversarial attack methods in both adaptive and non-adaptive attack scenarios. Moreover, when transferring the defense network to other trackers, it exhibits reliable transferability. Finally, DuaLossDef achieves a processing time of up to 5ms/frame, allowing seamless integration with existing high-speed trackers without introducing significant computational overhead. We will make our code publicly available soon.
翻訳日:2024-02-29 16:45:49 公開日:2024-02-28
# dynamics aware rewardsを用いたサンプル効率の高い選好型強化学習

Sample-Efficient Preference-based Reinforcement Learning with Dynamics Aware Rewards ( http://arxiv.org/abs/2402.17975v1 )

ライセンス: Link先を確認
Katherine Metcalf, Miguel Sarabia, Natalie Mackraz, Barry-John Theobald(参考訳) 選好に基づく強化学習(pbrl)は,エージェント行動よりもバイナリフィードバックから学習した報奨関数を通じて,ロボットの行動と人間の選好を整合させる。 また, ダイナミックスアウェア報酬関数はpbrlのサンプル効率を桁違いに向上させることを示した。 本実験では,(1)自己監督型時間的整合性タスクを通じて動的に認識された状態行動表現(z^{sa})を学習し,(2)優先型報酬関数(z^{sa})をブートストラップすることで,より高速な政策学習と最終政策性能を実現する。 例えば、四足歩行、ウォーカーウォーク、チーターランでは、50の選好ラベルで、500の選好ラベルを持つ既存のアプローチと同じ性能を達成し、83\%と66\%の真理報酬政策性能を38\%と21\%で回復する。 パフォーマンス向上は、動的認識報酬モデルを明確に学習するメリットを示している。 Repo: \texttt{https://github.com/apple/ml-reed}

Preference-based reinforcement learning (PbRL) aligns a robot behavior with human preferences via a reward function learned from binary feedback over agent behaviors. We show that dynamics-aware reward functions improve the sample efficiency of PbRL by an order of magnitude. In our experiments we iterate between: (1) learning a dynamics-aware state-action representation (z^{sa}) via a self-supervised temporal consistency task, and (2) bootstrapping the preference-based reward function from (z^{sa}), which results in faster policy learning and better final policy performance. For example, on quadruped-walk, walker-walk, and cheetah-run, with 50 preference labels we achieve the same performance as existing approaches with 500 preference labels, and we recover 83\% and 66\% of ground truth reward policy performance versus only 38\% and 21\%. The performance gains demonstrate the benefits of explicitly learning a dynamics-aware reward model. Repo: \texttt{https://github.com/apple/ml-reed}.
翻訳日:2024-02-29 16:45:23 公開日:2024-02-28
# 一般化から精度:手術環境におけるツールセグメンテーションのためのSAMの探索

From Generalization to Precision: Exploring SAM for Tool Segmentation in Surgical Environments ( http://arxiv.org/abs/2402.17972v1 )

ライセンス: Link先を確認
Kanyifeechukwu J. Oguine, Roger D. Soberanis-Mukul, Nathan Drenkow, Mathias Unberath(参考訳) 目的: コンピュータ支援手順において, 正確なツールセグメンテーションが不可欠である。 しかし, この課題は, 医療現場における人工物の存在と限られたトレーニングデータによる課題である。 見えないデータを一般化する手法は、ゼロショットセグメンテーションがデータ制限を考慮に入れたオプションを提供する興味深い場所を表す。 SAM(Segment Anything Model)による初期の探索研究は、境界ボックスベースのプロンプトが顕著なゼロショート一般化を示すことを示している。 しかし、ポイントベースのプロンプトは、画像の腐敗下でさらに劣化するパフォーマンス低下につながる。 我々はサムが汚損率の高い画像を大幅に過大評価し、単一のセグメンテーションマスクのみを考慮すれば性能が低下し、一方、関心対象と重なり合うマスクの組み合わせは正確な予測を生じさせると主張している。 方法: SAMを用いて内視鏡フレームの過偏予測を生成する。 そこで,本研究では,最高の単一マスクが選択された場合のSAMの結果を分析し,対象物と重なる各マスクを組み合わせて最終予測マスクを得る。 本研究では,様々な強みの合成汚損データを用いて,Endovis18とEndovis17の計器セグメンテーションデータセットを解析した。 結果: 過剰なマスクの組み合わせはIoUの改善に寄与する。 さらに、最高のシングルセグメンテーションを選択すると、クリーンな画像に対して競合するIoUスコアが表示される。 結論: SAM予測を組み合わせることで、ある汚職レベルまで改善された結果と堅牢性が得られる。 しかし、医療領域におけるこれらのモデルの実装には適切なプロンプト戦略が不可欠である。

Purpose: Accurate tool segmentation is essential in computer-aided procedures. However, this task conveys challenges due to artifacts' presence and the limited training data in medical scenarios. Methods that generalize to unseen data represent an interesting venue, where zero-shot segmentation presents an option to account for data limitation. Initial exploratory works with the Segment Anything Model (SAM) show that bounding-box-based prompting presents notable zero-short generalization. However, point-based prompting leads to a degraded performance that further deteriorates under image corruption. We argue that SAM drastically over-segment images with high corruption levels, resulting in degraded performance when only a single segmentation mask is considered, while the combination of the masks overlapping the object of interest generates an accurate prediction. Method: We use SAM to generate the over-segmented prediction of endoscopic frames. Then, we employ the ground-truth tool mask to analyze the results of SAM when the best single mask is selected as prediction and when all the individual masks overlapping the object of interest are combined to obtain the final predicted mask. We analyze the Endovis18 and Endovis17 instrument segmentation datasets using synthetic corruptions of various strengths and an In-House dataset featuring counterfactually created real-world corruptions. Results: Combining the over-segmented masks contributes to improvements in the IoU. Furthermore, selecting the best single segmentation presents a competitive IoU score for clean images. Conclusions: Combined SAM predictions present improved results and robustness up to a certain corruption level. However, appropriate prompting strategies are fundamental for implementing these models in the medical domain.
翻訳日:2024-02-29 16:45:00 公開日:2024-02-28
# すべて1つのイメージで:大きなマルチモーダルモデルは画像内の学習者です

All in a Single Image: Large Multimodal Models are In-Image Learners ( http://arxiv.org/abs/2402.17971v1 )

ライセンス: Link先を確認
Lei Wang, Wanyu Xu, Zhiqiang Hu, Yihuai Lan, Shan Dong, Hao Wang, Roy Ka-Wei Lee, Ee-Peng Lim(参考訳) 本稿では、実演例、視覚的手がかり、指示を1つの画像に組み合わせ、GPT-4Vの能力を増強するインコンテクスト学習(ICL)機構を新たに導入する。 画像のテキスト変換や視覚入力を言語モデルに組み込む従来のアプローチとは異なり、I$^2$Lは全ての情報を1つの画像に統合し、主に画像処理、理解、推論能力を活用する。 複雑な画像の不正確なテキスト記述を回避し、サンプルの位置決めの柔軟性を提供し、入力の負担を軽減し、複数の画像と長いテキストの必要性をなくすことで、入力制限を超えることを回避する。 異なる icl メソッドの強みを更に結合するために,与えられたタスクにおけるデータ例に対して適切な icl メソッドを選択するための自動戦略を導入する。 複雑なマルチモーダル推論タスクにおけるi$^2$lの有効性を検証し,言語幻覚と視覚錯覚の軽減を目的として,mathvistaとhallusionbenchを用いた実験を行った。 さらに,画像解像度の影響,実演例数,i$^2$lの有効性について検討した。 私たちのコードはhttps://github.com/AGI-Edgerunners/IILで公開されています。

This paper introduces a new in-context learning (ICL) mechanism called In-Image Learning (I$^2$L) that combines demonstration examples, visual cues, and instructions into a single image to enhance the capabilities of GPT-4V. Unlike previous approaches that rely on converting images to text or incorporating visual input into language models, I$^2$L consolidates all information into one image and primarily leverages image processing, understanding, and reasoning abilities. This has several advantages: it avoids inaccurate textual descriptions of complex images, provides flexibility in positioning demonstration examples, reduces the input burden, and avoids exceeding input limits by eliminating the need for multiple images and lengthy text. To further combine the strengths of different ICL methods, we introduce an automatic strategy to select the appropriate ICL method for a data example in a given task. We conducted experiments on MathVista and Hallusionbench to test the effectiveness of I$^2$L in complex multimodal reasoning tasks and mitigating language hallucination and visual illusion. Additionally, we explored the impact of image resolution, the number of demonstration examples, and their positions on the effectiveness of I$^2$L. Our code is publicly available at https://github.com/AGI-Edgerunners/IIL.
翻訳日:2024-02-29 16:44:34 公開日:2024-02-28
# 視覚コンテキスト抽出を用いた視覚言語モデルに基づくキャプション評価法

Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction ( http://arxiv.org/abs/2402.17969v1 )

ライセンス: Link先を確認
Koki Maeda, Shuhei Kurita, Taiki Miyanishi, Naoaki Okazaki(参考訳) 視覚と言語モデリングの急速な進歩を踏まえ、機械による画像キャプションの正確な評価は依然として重要である。 人間の好みにもっと近いキャプションを評価するためには、さまざまな品質と内容のキャプションを区別する必要がある。 しかし、従来のメトリクスは、表面的な単語の一致や類似性を比較できないため、改善が必要である。 本稿では視覚言語モデルを用いた字幕評価手法VisCE$^2$を提案する。 本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点を当てる。 それらを構造化形式に抽出し整理することにより、人間の記述した参照を視覚的コンテキストに置き換え、VLMが画像をよりよく理解し、評価性能を向上させる。 複数のデータセット上でのメタ評価を通じて, visce$^2$がキャプション品質をキャプチャする従来の事前学習指標を上回っており, 人間の判断と優れた一貫性を示すことを検証した。

Given the accelerating progress of vision and language modeling, accurate evaluation of machine-generated image captions remains critical. In order to evaluate captions more closely to human preferences, metrics need to discriminate between captions of varying quality and content. However, conventional metrics fail short of comparing beyond superficial matches of words or embedding similarities; thus, they still need improvement. This paper presents VisCE$^2$, a vision language model-based caption evaluation method. Our method focuses on visual context, which refers to the detailed content of images, including objects, attributes, and relationships. By extracting and organizing them into a structured format, we replace the human-written references with visual contexts and help VLMs better understand the image, enhancing evaluation performance. Through meta-evaluation on multiple datasets, we validated that VisCE$^2$ outperforms the conventional pre-trained metrics in capturing caption quality and demonstrates superior consistency with human judgment.
翻訳日:2024-02-29 16:44:12 公開日:2024-02-28
# ネットワーク上の模倣規則化された最適輸送:確率ロバスト性とロジスティックス計画への応用

Imitation-regularized Optimal Transport on Networks: Provable Robustness and Application to Logistics Planning ( http://arxiv.org/abs/2402.17967v1 )

ライセンス: Link先を確認
Koshi Oishi, Yota Hashizume, Tomohiko Jimbo, Hirotaka Kaji, and Kenji Kashima(参考訳) ネットワークシステムは現代社会の基礎を形成し、様々な応用において重要な役割を果たしている。 しかし、これらのシステムは災害などの予期せぬ状況に悪影響を及ぼす恐れがある。 これを踏まえて、ネットワークシステムの堅牢性を高める研究の必要性が高まっている。 近年,強化学習において,強靭性獲得と正規化エントロピーの関係が確認されている。 さらに、模倣学習は専門家の行動を反映するためにこのフレームワーク内で使用される。 しかし、ネットワーク上での最適な輸送に類似した模倣フレームワークを使用することに関する包括的な研究はない。 そこで本研究では,ネットワーク上での模倣正規化最適輸送(i-ot)について検討した。 与えられた事前分布を模倣してネットワーク上の事前知識を符号化する。 I-OTソリューションはネットワーク上で定義されたコストの観点から堅牢性を示した。 さらに,実データを用いた物流計画問題にI-OTを適用した。 また,提案手法の有効性と意義を実証するために,模倣とアプリオリリスク情報のシナリオについても検討した。

Network systems form the foundation of modern society, playing a critical role in various applications. However, these systems are at significant risk of being adversely affected by unforeseen circumstances, such as disasters. Considering this, there is a pressing need for research to enhance the robustness of network systems. Recently, in reinforcement learning, the relationship between acquiring robustness and regularizing entropy has been identified. Additionally, imitation learning is used within this framework to reflect experts' behavior. However, there are no comprehensive studies on the use of a similar imitation framework for optimal transport on networks. Therefore, in this study, imitation-regularized optimal transport (I-OT) on networks was investigated. It encodes prior knowledge on the network by imitating a given prior distribution. The I-OT solution demonstrated robustness in terms of the cost defined on the network. Moreover, we applied the I-OT to a logistics planning problem using real data. We also examined the imitation and apriori risk information scenarios to demonstrate the usefulness and implications of the proposed method.
翻訳日:2024-02-29 16:43:53 公開日:2024-02-28
# コンフォーマー:天気予報のための視覚変換器の連続的注意を組み込む

Conformer: Embedding Continuous Attention in Vision Transformer for Weather Forecasting ( http://arxiv.org/abs/2402.17966v1 )

ライセンス: Link先を確認
Hira Saleem, Flora Salim, Cormac Purcell(参考訳) 運用気象予報システムは計算コストの高い物理モデルに依存している。 トランスフォーマーベースのモデルは天気予報において顕著な可能性を示しているが、トランスフォーマーは動的気象システムの時相的連続的な特徴を学習する能力を制限する離散モデルである。 天気予報のための時空間連続視変換器であるConformerでこの問題に対処する。 コンフォーマーは,マルチヘッドアテンション機構に連続性を実装することで,時間とともに連続的な気象変動を学習するように設計されている。 注意機構は、複雑な気象力学をモデル化するトランスフォーマーアーキテクチャにおける微分可能な関数として符号化される。 我々はコンフォーマーを最先端の数値気象予測(NWP)モデルと深層学習に基づく天気予報モデルに対して評価する。 conformerは、解像度の低いデータでのみトレーニングしながら、すべてのリードタイムで既存のデータ駆動モデルよりも優れています。

Operational weather forecasting system relies on computationally expensive physics-based models. Although Transformers-based models have shown remarkable potential in weather forecasting, Transformers are discrete models which limit their ability to learn the continuous spatio-temporal features of the dynamical weather system. We address this issue with Conformer, a spatio-temporal Continuous Vision Transformer for weather forecasting. Conformer is designed to learn the continuous weather evolution over time by implementing continuity in the multi-head attention mechanism. The attention mechanism is encoded as a differentiable function in the transformer architecture to model the complex weather dynamics. We evaluate Conformer against a state-of-the-art Numerical Weather Prediction (NWP) model and several deep learning based weather forecasting models. Conformer outperforms some of the existing data-driven models at all lead times while only being trained at lower resolution data.
翻訳日:2024-02-29 16:43:41 公開日:2024-02-28
# ナノメカニカルトルクバランスの量子磁気イメージングによるDNA曲げの直接測定

Direct measure of DNA bending by quantum magnetic imaging of a nano-mechanical torque-balance ( http://arxiv.org/abs/2402.17964v1 )

ライセンス: Link先を確認
Zeeshawn Kazi, Isaac M. Shelby, Ruhee Nirodi, Joseph Turnbull, Hideyuki Watanabe, Kohei M. Itoh, Paul A. Wiggins, Kai-Mei C. Fu(参考訳) DNAの柔軟性は、ヌクレオソームの位置決めから転写調節まで、生物学的機能の鍵となる決定因子であり、個々のDNA分子の曲がりトルク反応を直接測定する動機となっている。 本研究は、個々のDNA分子による強磁性ナノ粒子プローブをダイヤモンド磁場撮像器にテザリングして形成したナノメカニカルトルクバランスを用いてDNA曲げを検出する。 ダイヤモンド表面近傍の量子欠陥の広視野イメージングを用いて、印加された磁気トルクによって引き起こされる曲げに応答したdnaによるトルクを測定する。 DNAバイオメカニカル結合構造の違いの質的測定を実証し, 個々のDNA分子に対する曲げ応答の定量的測定を行った。 この量子可能な測定法は、生物物理学的に関係のある短いDNA分子の曲げ応答と、DNAの曲げエネルギーの配列依存性を特徴づけるために応用できる。

DNA flexibility is a key determinant of biological function, from nucleosome positioning to transcriptional regulation, motivating a direct measurement of the bend-torque response of individual DNA molecules. In this work, DNA bending is detected using a nano-mechanical torque balance formed by tethering a ferromagnetic nanoparticle probe by an individual DNA molecule to a diamond magnetic field imager. The torque exerted by the DNA in response to bending caused by an applied magnetic torque is measured using wide-field imaging of quantum defects near the surface of the diamond. Qualitative measurements of differences in DNA bio-mechanical binding configuration are demonstrated, and as a proof-of-principle, a quantitative measurement of the bend response is made for individual DNA molecules. This quantum-enabled measurement approach could be applied to characterize the bend response of biophysically relevant short DNA molecules as well as the sequence dependence of DNA bending energy.
翻訳日:2024-02-29 16:43:27 公開日:2024-02-28
# 婦人科癌組織サブタイピングのためのスパースデータからの高速超分光光熱中赤外分光イメージング

Rapid hyperspectral photothermal mid-infrared spectroscopic imaging from sparse data for gynecologic cancer tissue subtyping ( http://arxiv.org/abs/2402.17960v1 )

ライセンス: Link先を確認
Reza Reihanisaransari, Chalapathi Charan Gajjela, Xinyu Wu, Ragib Ishrak, Sara Corvigno, Yanping Zhong, Jinsong Liu, Anil K. Sood, David Mayerich, Sebastian Berisha, and Rohith Reddy(参考訳) 卵巣がんの検出は、伝統的に、生検、組織染色、および経験豊富な病理学者による形態学的分析を含む多段階のプロセスに依存してきた。 この手法は広く実践されているが、定性的であり、時間集約的で、染色の品質に大きく依存している。 中赤外(mir)ハイパースペクトルフォトサーマルイメージング(mid-infrared (mir) hyperspectral photothermal imaging)はラベルなし、生化学的に定量的な技術であり、機械学習アルゴリズムと組み合わせることで、染色の必要性をなくし、従来の組織学に匹敵する定量的な結果を得ることができる。 しかし、この技術は遅い。 この研究は、MIR光熱画像への新しいアプローチを示し、その速度を桁違いに向上させる。 提案手法は,高分解能,高分解能,低分解能の赤外線画像とデータ補間のための計算手法を併用することにより,データ収集を著しく高速化する。 スパースデータ取得と曲線に基づく再構成アルゴリズムを用いて,データ収集要求を効果的に最小化する。 この方法は、アンダーサンプルデータセットから高品質で高解像度の画像の再構成を可能にし、データ取得時間の10倍の改善を実現する。 平均二乗誤差(MSE)、構造類似度指数(SSIM)、組織サブタイプ分類精度(SSIM)など、様々な定量的指標を用いてスパースイメージング手法の性能を評価し、ランダムフォレストと畳み込みニューラルネットワーク(CNN)モデルの両方を用いて、ROC曲線を伴って評価した。 統計学的にロバストな解析を行った結果,100例の卵巣癌患者と6,500万点以上のデータから,画像品質が良好で,セグメンテーション精度95%以上の異なる婦人科組織タイプを高精度に識別できることを示した。

Ovarian cancer detection has traditionally relied on a multi-step process that includes biopsy, tissue staining, and morphological analysis by experienced pathologists. While widely practiced, this conventional approach suffers from several drawbacks: it is qualitative, time-intensive, and heavily dependent on the quality of staining. Mid-infrared (MIR) hyperspectral photothermal imaging is a label-free, biochemically quantitative technology that, when combined with machine learning algorithms, can eliminate the need for staining and provide quantitative results comparable to traditional histology. However, this technology is slow. This work presents a novel approach to MIR photothermal imaging that enhances its speed by an order of magnitude. Our method significantly accelerates data collection by capturing a combination of high-resolution and interleaved, lower-resolution infrared band images and applying computational techniques for data interpolation. We effectively minimize data collection requirements by leveraging sparse data acquisition and employing curvelet-based reconstruction algorithms. This method enables the reconstruction of high-quality, high-resolution images from undersampled datasets and achieving a 10X improvement in data acquisition time. We assessed the performance of our sparse imaging methodology using a variety of quantitative metrics, including mean squared error (MSE), structural similarity index (SSIM), and tissue subtype classification accuracies, employing both random forest and convolutional neural network (CNN) models, accompanied by ROC curves. Our statistically robust analysis, based on data from 100 ovarian cancer patient samples and over 65 million data points, demonstrates the method's capability to produce superior image quality and accurately distinguish between different gynecological tissue types with segmentation accuracy exceeding 95%.
翻訳日:2024-02-29 16:43:12 公開日:2024-02-28
# 共感応答生成のための反復的連想記憶モデル

An Iterative Associative Memory Model for Empathetic Response Generation ( http://arxiv.org/abs/2402.17959v1 )

ライセンス: Link先を確認
Zhou Yang, Zhaochun Ren, Yufeng Wang, Chao Chen, Haizhou Sun, Xiaofei Zhu, Xiangwen Liao(参考訳) 共感的応答生成は、対話発話における認知的および感情的状態を理解し、適切な応答を生成することである。 心理的理論は、感情的および認知的な状態を理解するには、対話の発話を通して関連する単語を反復的に捉えて理解する必要があると仮定する。 しかし、既存のアプローチでは、会話の発話を長い列または独立した発話とみなし、それら間の関係する単語を見落としがちである。 この問題に対処するために,共感応答生成のための反復連想記憶モデル(IAMM)を提案する。 具体的には,対話発話と状況,対話履歴,記憶モジュール間の重要な関連語を反復的に捉えて,発話を正確かつニュアンス的に理解する,新たな第2次対話注目機構を用いる。 共感-対話データセットの実験を行う。 自動評価も人間評価も、モデルの有効性を検証する。 一方、LLMの変種実験では、関連する単語への参加が共感的理解と表現を改善することが示されている。

Empathetic response generation is to comprehend the cognitive and emotional states in dialogue utterances and generate proper responses. Psychological theories posit that comprehending emotional and cognitive states necessitates iteratively capturing and understanding associated words across dialogue utterances. However, existing approaches regard dialogue utterances as either a long sequence or independent utterances for comprehension, which are prone to overlook the associated words between them. To address this issue, we propose an Iterative Associative Memory Model (IAMM) for empathetic response generation. Specifically, we employ a novel second-order interaction attention mechanism to iteratively capture vital associated words between dialogue utterances and situations, dialogue history, and a memory module (for storing associated words), thereby accurately and nuancedly comprehending the utterances. We conduct experiments on the Empathetic-Dialogue dataset. Both automatic and human evaluations validate the efficacy of the model. Meanwhile, variant experiments on LLMs also demonstrate that attending to associated words improves empathetic comprehension and expression.
翻訳日:2024-02-29 16:42:35 公開日:2024-02-28
# 自動音声認識によるジェンダー性能向上のための多言語音声モデル

Multilingual Speech Models for Automatic Speech Recognition Exhibit Gender Performance Gaps ( http://arxiv.org/abs/2402.17954v1 )

ライセンス: Link先を確認
Giuseppe Attanasio, Beatrice Savoldi, Dennis Fucci, Dirk Hovy(参考訳) 現在の音声認識アプローチでは、ASR(Automatic Speech Recognition)のような音声タスクのためのマルチタスクの多言語モデルを使用して、実質的な変化なしに多くの言語に適用することができる。 しかし、幅広い言語カバレッジは、例えばジェンダー間の言語内のパフォーマンスギャップを隠蔽する可能性がある。 本研究では,多言語asrシステムの性能差を体系的に評価する。 7つの語族にまたがる19の言語で3つのデータセットの2つの人気モデルを用いて、明らかな男女差を見出した。 しかし、有利なグループは言語によって異なる。 音韻変数(ピッチ、スピーキングレートなど)のグループ間で有意な差はないが、モデルの内部状態を調べると、プローブのパフォーマンスと性差の関係が明らかになる。 すなわち、言語における話者の性別を区別しやすいほど、モデルが女性話者に好まれる。 その結果,マルチタスクと多言語性に大きな進歩があったにもかかわらず,グループ格差は未解決のままであることがわかった。 我々は,多言語ASRシステムにおける性差を評価するための最初の貴重な洞察を提供する。 すべてのコードとアーティファクトをhttps://github.com/g8a9/multilingual-asr-gender-gapでリリースします。

Current voice recognition approaches use multi-task, multilingual models for speech tasks like Automatic Speech Recognition (ASR) to make them applicable to many languages without substantial changes. However, broad language coverage can still mask performance gaps within languages, for example, across genders. We systematically evaluate multilingual ASR systems on gendered performance gaps. Using two popular models on three datasets in 19 languages across seven language families, we find clear gender disparities. However, the advantaged group varies between languages. While there are no significant differences across groups in phonetic variables (pitch, speaking rate, etc.), probing the model's internal states reveals a negative correlation between probe performance and the gendered performance gap. I.e., the easier to distinguish speaker gender in a language, the more the models favor female speakers. Our results show that group disparities remain unsolved despite great progress on multi-tasking and multilinguality. We provide first valuable insights for evaluating gender gaps in multilingual ASR systems. We release all code and artifacts at https://github.com/g8a9/multilingual-asr-gender-gap.
翻訳日:2024-02-29 16:42:16 公開日:2024-02-28
# 説明可能なAIを用いたユーザ意思決定支援に向けた動的説明選択

Dynamic Explanation Selection Towards Successful User-Decision Support with Explainable AI ( http://arxiv.org/abs/2402.18016v1 )

ライセンス: Link先を確認
Yosuke Fukuchi and Seiji Yamada(参考訳) 本稿では,XAI (Explainable AI) ベースの知的意思決定支援システム (IDSS) における説明の選択方法について議論する。 IDSSは、AI予測とともに、XAI生成の説明を通じてユーザー決定を改善することを約束している。 XAIの開発で様々な説明が得られているので、より優れた意思決定を導く説明を戦略的に選択できれば、IDSSは大幅に改善できると考えています。 本稿では,説明を動的に選択するX-セレクタを提案する。 x-selectorは、説明の異なる組み合わせがユーザーの決定に与える影響を予測することによって、ユーザーをより良い決定へと導くことを目的としている。 x-selectorのパフォーマンスを2つのナイーブな戦略(最も可能性の高い予測のためにのみ可能な説明と説明)と2つのベースライン(説明なし、aiサポートなし)と比較した。 その結果,X-Selectorは,AIの精度が高い場合や,低い場合の課題に対して,ユーザの推奨決定を導き,パフォーマンスを向上させることができる可能性が示唆された。

This paper addresses the problem of how to select explanations for XAI (Explainable AI)-based Intelligent Decision Support Systems (IDSSs). IDSSs have shown promise in improving user decisions through XAI-generated explanations along with AI predictions. As the development of XAI made various explanations available, we believe that IDSSs can be greatly improved if they can strategically select explanations that guide users to better decisions. This paper proposes X-Selector, a method for dynamically selecting explanations. X-Selector aims to guide users to better decisions by predicting the impact of different combinations of explanations on user decisions. We compared X-Selector's performance with two naive strategies (all possible explanations and explanations only for the most likely prediction) and two baselines (no explanation and no AI support). The results suggest the potential of X-Selector to guide users to recommended decisions and improve the performance when AI accuracy is high and a challenge when it is low.
翻訳日:2024-02-29 16:37:23 公開日:2024-02-28
# LLMを用いたマルチターン対話システムの最近の進歩

A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems ( http://arxiv.org/abs/2402.18013v1 )

ライセンス: Link先を確認
Zihao Yi, Jiarui Ouyang, Yuwen Liu, Tianhao Liao, Zhe Xu and Ying Shen(参考訳) 本調査は,大規模言語モデル(llms)に基づく多段対話システムを中心に,多段対話システムの研究を包括的にレビューする。 この論文の目的は (a) 下流業務にLLMを適用するための既存のLLMとアプローチの概要を述べる。 b) llmベースのopen-domain dialogue (odd) と task-oriented dialogue (tod) システムとデータセットおよび評価指標の両方をカバーするマルチターン対話システムにおける最近の進歩 (c) LLMの発展とマルチターン対話システムへの需要の増加に伴う今後の課題と最近の研究課題について論じる。

This survey provides a comprehensive review of research on multi-turn dialogue systems, with a particular focus on multi-turn dialogue systems based on large language models (LLMs). This paper aims to (a) give a summary of existing LLMs and approaches for adapting LLMs to downstream tasks; (b) elaborate recent advances in multi-turn dialogue systems, covering both LLM-based open-domain dialogue (ODD) and task-oriented dialogue (TOD) systems, along with datasets and evaluation metrics; (c) discuss some future emphasis and recent research problems arising from the development of LLMs and the increasing demands on multi-turn dialogue systems.
翻訳日:2024-02-29 16:37:04 公開日:2024-02-28
# 未知制約を用いた最適化のための制約サンプリングとしての拡散モデル

Diffusion Models as Constrained Samplers for Optimization with Unknown Constraints ( http://arxiv.org/abs/2402.18012v1 )

ライセンス: Link先を確認
Lingkai Kong, Yuanqi Du, Wenhao Mu, Kirill Neklyudov, Valentin De Bortol, Haorui Wang, Dongxia Wu, Aaron Ferber, Yi-An Ma, Carla P. Gomes, Chao Zhang(参考訳) 実世界の最適化問題に対処することは、分析対象関数や制約が利用できない場合に特に困難になる。 多くの研究が未知の目的の問題を扱っているが、限定的な研究は実現可能性の制約が明示的に与えられないシナリオに焦点を当てている。 これらの制約を見過ごせば、実際には非現実的な解決策につながる可能性がある。 このような未知の制約に対処するため、拡散モデルを用いてデータ多様体内で最適化を行う。 最適化プロセスをデータ多様体に限定するために,目的関数で定義されるボルツマン分布と拡散モデルで学習したデータ分布の積からサンプリング問題として元の最適化問題を再構成する。 サンプリング効率を向上させるために,ウォームアップのための誘導拡散プロセスから始まり,さらにさらなる補正のためにランジュバンダイナミクスステージから開始する2段階フレームワークを提案する。 理論的解析により、初期段階は実現可能な解に焦点をあてた分布をもたらすことが示され、それによって後半段階のより優れた初期化が得られる。 総合的なデータセット、6つの実世界のブラックボックス最適化データセット、多目的最適化データセットに関する包括的な実験により、従来の最先端のベースラインと同等の性能が得られることを示した。

Addressing real-world optimization problems becomes particularly challenging when analytic objective functions or constraints are unavailable. While numerous studies have addressed the issue of unknown objectives, limited research has focused on scenarios where feasibility constraints are not given explicitly. Overlooking these constraints can lead to spurious solutions that are unrealistic in practice. To deal with such unknown constraints, we propose to perform optimization within the data manifold using diffusion models. To constrain the optimization process to the data manifold, we reformulate the original optimization problem as a sampling problem from the product of the Boltzmann distribution defined by the objective function and the data distribution learned by the diffusion model. To enhance sampling efficiency, we propose a two-stage framework that begins with a guided diffusion process for warm-up, followed by a Langevin dynamics stage for further correction. Theoretical analysis shows that the initial stage results in a distribution focused on feasible solutions, thereby providing a better initialization for the later stage. Comprehensive experiments on a synthetic dataset, six real-world black-box optimization datasets, and a multi-objective optimization dataset show that our method achieves better or comparable performance with previous state-of-the-art baselines.
翻訳日:2024-02-29 16:36:52 公開日:2024-02-28
# カメラ再局在化のための3次元スパースマップポイントと線表現

Representing 3D sparse map points and lines for camera relocalization ( http://arxiv.org/abs/2402.18011v1 )

ライセンス: Link先を確認
Bach-Thuan Bui, Huy-Hoang Bui, Dinh-Tuan Tran, and Joo-Ho Lee(参考訳) 近年の視覚的ローカライゼーションとマッピングの進歩は、点と線の特徴の統合において大きな成功を収めている。 しかし、ローカライゼーションフレームワークを拡張して追加のマッピングコンポーネントを含めると、しばしばタスクのマッチングに特化したメモリと計算リソースの需要が増加する。 本研究では,軽量ニューラルネットワークを用いて3次元点と線の特徴を表現し,複数の学習マップのパワーを活用し,先導的なポーズ精度を示す方法を示す。 具体的には,1つの変圧器ブロックを用いて線特徴を符号化し,それらを特異点のような記述子に変換する。 その後、これらの点と行記述子集合を別々に相互接続された特徴集合として扱う。 複数のグラフ層における自己およびクロスアテンションの統合により,2つの単純なmlpを用いて3dマップをレグレッションする前に,各機能を効果的に洗練する。 総合的な実験では, 室内の局所化は, Hloc と Limap を, 点ベース, ラインアシストの両構成で上回った。 さらに,屋外シナリオにおいて,本手法は最先端の学習手法に対する最も顕著な強化を図り,重要なリードを確保できる。 この作業のソースコードとデモビデオは、https://thpjp.github.io/pl2map/で公開されている。

Recent advancements in visual localization and mapping have demonstrated considerable success in integrating point and line features. However, expanding the localization framework to include additional mapping components frequently results in increased demand for memory and computational resources dedicated to matching tasks. In this study, we show how a lightweight neural network can learn to represent both 3D point and line features, and exhibit leading pose accuracy by harnessing the power of multiple learned mappings. Specifically, we utilize a single transformer block to encode line features, effectively transforming them into distinctive point-like descriptors. Subsequently, we treat these point and line descriptor sets as distinct yet interconnected feature sets. Through the integration of self- and cross-attention within several graph layers, our method effectively refines each feature before regressing 3D maps using two simple MLPs. In comprehensive experiments, our indoor localization findings surpass those of Hloc and Limap across both point-based and line-assisted configurations. Moreover, in outdoor scenarios, our method secures a significant lead, marking the most considerable enhancement over state-of-the-art learning-based methodologies. The source code and demo videos of this work are publicly available at: https://thpjp.github.io/pl2map/
翻訳日:2024-02-29 16:36:30 公開日:2024-02-28
# 高速かつ解釈可能な2次元ホモグラフィ分解:類似性-カーネル類似性とアフィン-コア-アフィン変換

Fast and Interpretable 2D Homography Decomposition: Similarity-Kernel-Similarity and Affine-Core-Affine Transformations ( http://arxiv.org/abs/2402.18008v1 )

ライセンス: Link先を確認
Shen Cai, Zhanhao Wu, Lingxi Guo, Jiachun Wang, Siyu Zhang, Junchi Yan, and Shuhan Shen(参考訳) 本稿では,2次元ホモグラフィの高速かつ解釈可能な分解法として,それぞれ類似性・核相似性(sks)とアフィン核相同性(aca)変換法を提案する。 最小4$-point構成では、SKSにおける最初の類似変換と最後の類似変換はそれぞれターゲット面上の2つのアンカー点とソース面によって計算される。 そして、他の2点対応を利用して、中間核変換を4つのパラメータで計算することができる。 さらに、ACAは、最初のアフィン変換と最後のアフィン変換の計算に3つのアンカーポイントを使用し、続いて、もう一方の1点対応を利用した中間コア変換の計算を行う。 ACAは85ドル(約8,800円)の浮動小数点演算(FLOP)でホモグラフィーを計算できる。 そのため、ACAはプラグインモジュールとして、従来の機能ベースのRandom Sample Consensus(RANSAC)パイプライン、および4$ポイントオフセットを推定するディープホモグラフィパイプラインを促進する。 幾何学的パラメータ化と計算効率の利点に加えて、sks と aca は、入力座標の多項式 (7$thdegreeから9$th degree) によってホモグラフィの各要素を表現でき、既存の本質的類似性-アフィン射影(sap)分解を拡張し、2次元アフィン変換を統一的に計算することができる。 ソースコードはhttps://github.com/cscvlab/SKS-Homographyで公開されている。

In this paper, we present two fast and interpretable decomposition methods for 2D homography, which are named Similarity-Kernel-Similarity (SKS) and Affine-Core-Affine (ACA) transformations respectively. Under the minimal $4$-point configuration, the first and the last similarity transformations in SKS are computed by two anchor points on target and source planes, respectively. Then, the other two point correspondences can be exploited to compute the middle kernel transformation with only four parameters. Furthermore, ACA uses three anchor points to compute the first and the last affine transformations, followed by computation of the middle core transformation utilizing the other one point correspondence. ACA can compute a homography up to a scale with only $85$ floating-point operations (FLOPs), without even any division operations. Therefore, as a plug-in module, ACA facilitates the traditional feature-based Random Sample Consensus (RANSAC) pipeline, as well as deep homography pipelines estimating $4$-point offsets. In addition to the advantages of geometric parameterization and computational efficiency, SKS and ACA can express each element of homography by a polynomial of input coordinates ($7$th degree to $9$th degree), extend the existing essential Similarity-Affine-Projective (SAP) decomposition and calculate 2D affine transformations in a unified way. Source codes are released in https://github.com/cscvlab/SKS-Homography.
翻訳日:2024-02-29 16:36:09 公開日:2024-02-28
# Mixerは単なるモデルではない

Mixer is more than just a model ( http://arxiv.org/abs/2402.18007v1 )

ライセンス: Link先を確認
Qingfeng Ji, Yuxin Wang, Letong Sun(参考訳) 近年、MLP構造が復活し、MLP-Mixerが顕著な例となっている。 コンピュータビジョンの分野では、mlp-mixerはチャネルとトークンの両方の観点からデータ情報を抽出でき、チャネルとトークン情報の融合として効果的に機能する。 事実、mixerはチャネルとトークン情報を融合した情報抽出のパラダイムを表している。 ミキサーの本質は、様々な視点から情報をブレンドし、ニューラルネットワークアーキテクチャの領域における「ミックス」の真の概念を具現化する能力にある。 チャネルやトークンの考慮を超えて、さまざまな観点からよりカスタマイズされたミキサーを作成して、特定のタスク要求に適合させることができる。 本研究は,時間領域と周波数領域の両方から洞察を取り入れた,ロールタイムとハーミットFFT(ASM-RH)を用いたオーディオスペクトログラムミキサーという新しいモデルを導入することを目的とした。 実験により、ASM-RHは音声データに特に適しており、複数の分類タスクで有望な結果が得られることが示された。

Recently, MLP structures have regained popularity, with MLP-Mixer standing out as a prominent example. In the field of computer vision, MLP-Mixer is noted for its ability to extract data information from both channel and token perspectives, effectively acting as a fusion of channel and token information. Indeed, Mixer represents a paradigm for information extraction that amalgamates channel and token information. The essence of Mixer lies in its ability to blend information from diverse perspectives, epitomizing the true concept of "mixing" in the realm of neural network architectures. Beyond channel and token considerations, it is possible to create more tailored mixers from various perspectives to better suit specific task requirements. This study focuses on the domain of audio recognition, introducing a novel model named Audio Spectrogram Mixer with Roll-Time and Hermit FFT (ASM-RH) that incorporates insights from both time and frequency domains. Experimental results demonstrate that ASM-RH is particularly well-suited for audio data and yields promising outcomes across multiple classification tasks.
翻訳日:2024-02-29 16:35:37 公開日:2024-02-28
# 科学的感性要約のための多文書情報統合の探索

Exploring Multi-Document Information Consolidation for Scientific Sentiment Summarization ( http://arxiv.org/abs/2402.18005v1 )

ライセンス: Link先を確認
Miao Li and Jey Han Lau and Eduard Hovy(参考訳) llmを用いた現代の自然言語生成システムは、複数の文書の正確な要約を生成する能力を示しているが、モデルが本当に要約を生成するための情報統合能力を持っているかどうかは不明である。 科学的感情の要約をより基礎づけるために,人間のメタレビュアはメタレビュアを書くための3層的な感情統合の枠組みを踏襲し,メタレビュア生成における科学的感情の要約の論理を表現する。 このフレームワークは人間のアノテーションによって検証される。 この枠組みに基づいて, 生成したメタレビューの質を評価するための評価指標を提案し, 広範囲な実験でメタレビューを生成するためのLSMのプロンプトとして, 感情統合フレームワークの仮説が実証的に有効であることを見出した。

Modern natural language generation systems with LLMs exhibit the capability to generate a plausible summary of multiple documents; however, it is uncertain if models truly possess the ability of information consolidation to generate summaries, especially on those source documents with opinionated information. To make scientific sentiment summarization more grounded, we hypothesize that in peer review human meta-reviewers follow a three-layer framework of sentiment consolidation to write meta-reviews and it represents the logic of summarizing scientific sentiments in meta-review generation. The framework is validated via human annotation. Based on the framework, we propose evaluation metrics to assess the quality of generated meta-reviews, and we find that the hypothesis of the sentiment consolidation framework works out empirically when we incorporate it as prompts for LLMs to generate meta-reviews in extensive experiments.
翻訳日:2024-02-29 16:35:19 公開日:2024-02-28
# ソフトハンドによる部分的可観測性下でのロボットアセンブリの対称性・アウェア強化学習

Symmetry-aware Reinforcement Learning for Robotic Assembly under Partial Observability with a Soft Wrist ( http://arxiv.org/abs/2402.18002v1 )

ライセンス: Link先を確認
Hai Nguyen, Tadashi Kozuno, Cristian C. Beltran-Hernandez, Masashi Hamaya(参考訳) 本研究は,ロボット組立体において,より安全に動作し,より低周波制御信号を許容するソフト手首を用いて,特に課題の多いpeg-in-holeタスクに取り組む。 以前の研究では、peg-to-holeのポーズに外部設定や推定子を必要とする、完全に観察可能な定式化が用いられることが多い。 対照的に,実験による部分的に観察可能な定式化と深層強化学習を用いて,純粋に触覚的および固有的信号に作用する記憶に基づくエージェントを学習する。 さらに、以前の研究はポテンシャル領域対称性を取り入れていないため、より大きな空間における解を探す必要がある。 代わりに, トレーニングデータを強化し, 補助損失を構築し, エージェントを対称性に固執させることにより, サンプル効率に対称性を活用することを提案する。 5種類の対称ペグ形状のシミュレーションの結果から,提案するエージェントは状態ベースエージェントに匹敵するか,さらに優れることが示された。 特にサンプル効率は、実際のロボットについて3時間以内に直接学習することもできます。

This study tackles the representative yet challenging contact-rich peg-in-hole task of robotic assembly, using a soft wrist that can operate more safely and tolerate lower-frequency control signals than a rigid one. Previous studies often use a fully observable formulation, requiring external setups or estimators for the peg-to-hole pose. In contrast, we use a partially observable formulation and deep reinforcement learning from demonstrations to learn a memory-based agent that acts purely on haptic and proprioceptive signals. Moreover, previous works do not incorporate potential domain symmetry and thus must search for solutions in a bigger space. Instead, we propose to leverage the symmetry for sample efficiency by augmenting the training data and constructing auxiliary losses to force the agent to adhere to the symmetry. Results in simulation with five different symmetric peg shapes show that our proposed agent can be comparable to or even outperform a state-based agent. In particular, the sample efficiency also allows us to learn directly on the real robot within 3 hours.
翻訳日:2024-02-29 16:35:01 公開日:2024-02-28
# 駆動型中央スピンモデルにおけるヒルベルト空間フラグメンテーションと部分空間スカーの時間-結晶性

Hilbert Space Fragmentation and Subspace Scar Time-Crystallinity in Driven Homogeneous Central-Spin Models ( http://arxiv.org/abs/2402.18001v1 )

ライセンス: Link先を確認
Abhishek Kumar, Rafail Frantzeskakis, Edwin Barnes(参考訳) 均質な中心スピン相互作用を含む周期的に蹴り上げられたハミルトニアンのストロボスコープ非平衡量子力学について研究する。 この系はヒルベルト空間の4次元フロケ・クリロフ部分空間への強い断片化を示し、2つの非連結な2次元部分空間の間で振動し、したがって系の離散時間変換対称性を破る。 解析および数値解析により,衛星スピンの完全偏極状態は摂動に対して安定なフラグメンテーションを示し,非定型的に低二部絡みエントロピー(scar状態)のフロッケ固有状態と高い重なりを持つことが明らかとなった。 我々は、長期にわたって持続する完全偏極衛星スピン状態の全磁化の周期倍の形で、頑健な時間結晶挙動の証拠を示す。 我々は, ハイゼンベルク, ising, xxz, xxなど様々な相互作用型に対して, 磁場, カップリング項, パルス誤差について非平衡位相図を計算する。 また,色中心,量子ドット,希土類イオンプラットフォームにおけるスカータイム結晶の実験的実現の可能性についても考察した。

We study the stroboscopic non-equilibrium quantum dynamics of periodically kicked Hamiltonians involving homogeneous central-spin interactions. The system exhibits a strong fragmentation of Hilbert space into four-dimensional Floquet-Krylov subspaces, which oscillate between two disjointed two-dimensional subspaces and thus break the discrete time-translation symmetry of the system. Our analytical and numerical analyses reveal that fully polarized states of the satellite spins exhibit fragmentations that are stable against perturbations and have high overlap with Floquet eigenstates of atypically low bipartite entanglement entropy (scar states). We present evidence of robust time-crystalline behavior in the form of a period doubling of the total magnetization of fully polarized satellite spin states that persists over long time scales. We compute non-equilibrium phase diagrams with respect to a magnetic field, coupling terms, and pulse error for various interaction types, including Heisenberg, Ising, XXZ, and XX. We also discuss possible experimental realizations of scar time crystals in color center, quantum dot, and rare-earth ion platforms.
翻訳日:2024-02-29 16:34:41 公開日:2024-02-28
# フラグメント分子軌道(fmo)を用いたユニタリ結合クラスター単一および二重計算(uccsd)

Unitary coupled-cluster singles and doubles (UCCSD) calculations in conjunction with fragment molecular orbital (FMO) scheme ( http://arxiv.org/abs/2402.17993v1 )

ライセンス: Link先を確認
Kenji Sugisaki, Tatsuya Nakano, Yuji Mochizuki(参考訳) フラグメント分子軌道 (FMO) 法は、静電電位 (ESP) に埋め込まれた小さなフラグメントに関心の系を分割することで、マクロ分子系を効率的に扱う方法の1つである。 このような断片化法は、量子コンピュータ上の量子化学計算において回路をフラットにする潜在的な利点を持つ。 本研究では、GPU加速量子シミュレータ(cuQuantum)を用いて、FMO計算の電子相関部分を一元結合クラスタ単体として実行し、水素結合系(FH)$_3$および(FH)$_2$-H$_2$Oをテストベッドとして、変分量子固有解器(VQE)と二重結合(UCCSD)する。 数値シミュレーションにより, UCCSDアンザッツのトロッター分解は軌道不変条件を破り, 対称的に等価な分子に対して異なる総エネルギーが得られることがわかった。 また, 分子軌道を二量体に非局在化する場合, トロッタ化utcsdはfmoスキームにおいて必須要件である大きさ-一貫性を満たさないことを観測した。 GPUアクセラレーションは、より多くの量子ビットを持つシミュレーションでは相当なもので、18量子ビット系では約5.8-7.5である。

The fragment molecular orbital (FMO) method is one of the popular methods to efficiently treat macromolecular systems by dividing the system of interest into small fragments based on embedding under the electrostatic potential (ESP). Such a fragmentation method has the potential advantage of making the circuit flat in quantum chemical calculations on quantum computers. In this study, we used a GPU-accelerated quantum simulator (cuQuantum) to perform the electron correlation part of the FMO calculation as a unitary coupled-cluster singles and doubles (UCCSD) with the variational quantum eigensolver (VQE), using hydrogen-bonded systems (FH)$_3$ and (FH)$_2$-H$_2$O as testbeds. From the numerical simulations, we found that the Trotter decomposition of the UCCSD ansatz breaks the orbital-invariance condition, and it can yield different total energies for symmetrically equivalent molecules. We also observed that the Trotterized UCCSD does not satisfy the size-consistency, which is an essential requirement in the FMO scheme, when the molecular orbitals delocalized to dimers are used. The GPU acceleration was substantial for the simulations with larger numbers of qubits, and it was about a factor of 5.8--7.5 for 18 qubit systems.
翻訳日:2024-02-29 16:34:21 公開日:2024-02-28
# 非線形鋼モーメント抵抗フレーム構造の地震応答予測のための物理不定形機械学習

Physics-Informed Machine Learning for Seismic Response Prediction OF Nonlinear Steel Moment Resisting Frame Structures ( http://arxiv.org/abs/2402.17992v1 )

ライセンス: Link先を確認
R. Bailey Bond, Pu Ren, Jerome F. Hajjar, and Hao Sun(参考訳) 従来の数値シミュレーションの計算コストが大きいため,構造メタモデリングにおける機械学習(ML)手法の利用への関心が高まっている。 既存のデータ駆動戦略は、モデルロバスト性と解釈可能性、およびリッチデータへの依存性に対する潜在的な制限を示しています。 本稿では,非線形構造物の地震応答をモデル化する深層ニューラルネットワークに科学的原理と物理法則を組み込んだ新しい物理インフォームド機械学習(piml)手法を提案する。 基本的な概念は、既知の物理的境界内のMLモデルの解空間を制約することである。 これは3つの主要な特徴、すなわちモデル順序の低減、長い短期記憶(LSTM)ネットワーク、ニュートンの第2法則(例えば運動方程式)によって実現されている。 モデル順序の低減は、固有冗長性を持つ構造系の処理とモデル効率の向上に不可欠である。 LSTMネットワークは時間依存を捕捉し、時系列応答の正確な予測を可能にする。 運動方程式は系の非線形性を学ぶために操作され、物理的に解釈可能な結果の中で解空間を閉じる。 これらの機能は比較的スパースなデータによるモデルトレーニングを可能にし、正確性、解釈可能性、堅牢性の観点から利点を提供する。 さらに, 設計セーフ-CIデータベースで利用可能な水平地震荷重を受ける場合の耐震設計型延性板状鋼モーメントフレームのデータセットを, 提案手法の評価のために検討した。 結果として得られるメタモデルは、既存の物理誘導LSTMモデルよりも複雑なデータを扱うことができ、他の非物理データ駆動ニューラルネットワークより優れている。

There is a growing interest in utilizing machine learning (ML) methods for structural metamodeling due to the substantial computational cost of traditional numerical simulations. The existing data-driven strategies show potential limitations to the model robustness and interpretability as well as the dependency of rich data. To address these challenges, this paper presents a novel physics-informed machine learning (PiML) method, which incorporates scientific principles and physical laws into deep neural networks for modeling seismic responses of nonlinear structures. The basic concept is to constrain the solution space of the ML model within known physical bounds. This is made possible with three main features, namely, model order reduction, a long short-term memory (LSTM) networks, and Newton's second law (e.g., the equation of motion). Model order reduction is essential for handling structural systems with inherent redundancy and enhancing model efficiency. The LSTM network captures temporal dependencies, enabling accurate prediction of time series responses. The equation of motion is manipulated to learn system nonlinearities and confines the solution space within physically interpretable results. These features enable model training with relatively sparse data and offer benefits in terms of accuracy, interpretability, and robustness. Furthermore, a dataset of seismically designed archetype ductile planar steel moment resistant frames under horizontal seismic loading, available in the DesignSafe-CI Database, is considered for evaluation of the proposed method. The resulting metamodel is capable of handling more complex data compared to existing physics-guided LSTM models and outperforms other non-physics data-driven neural networks.
翻訳日:2024-02-29 16:33:52 公開日:2024-02-28
# 文脈感性文法の左・右クオリティ化による符号言語モデルの制約付き復号法

Constrained Decoding for Code Language Models via Efficient Left and Right Quotienting of Context-Sensitive Grammars ( http://arxiv.org/abs/2402.17988v1 )

ライセンス: Link先を確認
Daniel Melcer, Nathan Fulton, Sanjay Krishna Gouda, Haifeng Qian(参考訳) 大きな言語モデルはプログラム合成と高度なオートコンプリートのための強力なツールであるが、出力コードが構文的に正しいという保証はない。 本稿では,構文上の誤りを早期に否定できるインクリメンタル・パーサと,FItM(Fit-in-the-middle)タスクのための完全プログラムの効率的な検出に寄与する。 我々は任意の文脈自由文法の左および右クォージェントで作用するアールリー型構文解析器を開発し、そのインクリメンタル解析と商演算を、多くの共通プログラミング言語の文法に存在するいくつかの文脈依存的特徴に拡張する。 これらのコントリビューションの結果は、左と右の商解析の効率的で、一般的で、そしてしっかりとした方法である。 理論的なコントリビューション、そして特定の設計決定の実践的有効性を検証するため、我々はPython 3のFItM完了の特に難しいケースについて、我々の手法を評価します。 その結果,制約付き生成は推奨コードにおける構文エラーの発生率を大幅に削減できることがわかった。

Large Language Models are powerful tools for program synthesis and advanced auto-completion, but come with no guarantee that their output code is syntactically correct. This paper contributes an incremental parser that allows early rejection of syntactically incorrect code, as well as efficient detection of complete programs for fill-in-the-middle (FItM) tasks. We develop Earley-style parsers that operate over left and right quotients of arbitrary context-free grammars, and we extend our incremental parsing and quotient operations to several context-sensitive features present in the grammars of many common programming languages. The result of these contributions is an efficient, general, and well-grounded method for left and right quotient parsing. To validate our theoretical contributions -- and the practical effectiveness of certain design decisions -- we evaluate our method on the particularly difficult case of FItM completion for Python 3. Our results demonstrate that constrained generation can significantly reduce the incidence of syntax errors in recommended code.
翻訳日:2024-02-29 16:33:26 公開日:2024-02-28
# 航空機のマルチスタティックラダーrcs信号認識:ベイズ核融合アプローチ

Multistatic-Radar RCS-Signature Recognition of Aerial Vehicles: A Bayesian Fusion Approach ( http://arxiv.org/abs/2402.17987v1 )

ライセンス: Link先を確認
Michael Potter, Murat Akcakaya, Marius Necsoiu, Gunar Schirner, Deniz Erdogmus, Tales Imbiriba(参考訳) 無人航空機(UAV)用のレーダー自動目標認識(RATR)は、電磁波(EMW)を送信し、受信したレーダーエコーで目標型認識を行う。 以前の研究では、ratrのモノスタティックレーダよりもマルチスタティックレーダ構成のアドバンテージを強調した。 しかし、マルチスタティックレーダ構成の融合法は、個々のレーダの分類ベクトルを確率的に組み合わせることが多い。 そこで我々は,複数のレーダからの分類確率ベクトルを集約するために,OBF(Optimal Bayesian Fusion)を用いた完全ベイズRATRフレームワークを提案する。 OBFは、予想される0-1の損失に基づいて、複数の時間ステップにわたる歴史的観測に基づいて、ターゲットUAVタイプの再帰ベイズ分類(RBC)後部分布を更新する。 本研究では,無響室におけるレーダ断面積(rcs)測定と目標アスペクト角を関連付けた7機のランダム歩行軌跡シミュレーションを用いて,そのアプローチを評価した。 単一レーダ自動目標認識(ATR)システムと準最適フュージョン法との比較により,RBCと統合されたOBF法は,他のフュージョン法や単一レーダ構成と比較して,分類精度を著しく向上することを示した。

Radar Automated Target Recognition (RATR) for Unmanned Aerial Vehicles (UAVs) involves transmitting Electromagnetic Waves (EMWs) and performing target type recognition on the received radar echo, crucial for defense and aerospace applications. Previous studies highlighted the advantages of multistatic radar configurations over monostatic ones in RATR. However, fusion methods in multistatic radar configurations often suboptimally combine classification vectors from individual radars probabilistically. To address this, we propose a fully Bayesian RATR framework employing Optimal Bayesian Fusion (OBF) to aggregate classification probability vectors from multiple radars. OBF, based on expected 0-1 loss, updates a Recursive Bayesian Classification (RBC) posterior distribution for target UAV type, conditioned on historical observations across multiple time steps. We evaluate the approach using simulated random walk trajectories for seven drones, correlating target aspect angles to Radar Cross Section (RCS) measurements in an anechoic chamber. Comparing against single radar Automated Target Recognition (ATR) systems and suboptimal fusion methods, our empirical results demonstrate that the OBF method integrated with RBC significantly enhances classification accuracy compared to other fusion methods and single radar configurations.
翻訳日:2024-02-29 16:33:06 公開日:2024-02-28
# polyoculus: 同時多視点画像ベースノベルビュー合成

PolyOculus: Simultaneous Multi-view Image-based Novel View Synthesis ( http://arxiv.org/abs/2402.17986v1 )

ライセンス: Link先を確認
Jason J. Yu, Tristan Aumentado-Armstrong, Fereshteh Forghani, Konstantinos G. Derpanis, Marcus A. Brubaker(参考訳) 本稿では,生成的新規ビュー合成(GNVS)の問題について考察する。 本稿では,多数の既知のビューを条件に,複数の自己整合性を持つ新しいビューを同時に生成できるセットベース生成モデルを提案する。 我々のアプローチは一度に1つの画像を生成することに限らず、0、1、またはそれ以上のビューで条件を設定できる。 その結果、多数のビューを生成する場合、この手法は低次自己回帰生成アプローチに制限されず、大量の画像に対してより優れた画像品質を維持することができる。 提案したモデルを標準NVSデータセット上で評価し,最新画像ベースGNVSベースラインよりも優れていることを示す。 さらに,このモデルでは,ループや双眼軌跡など,自然な順序順序順序を持たないカメラビューを生成でき,他の手法を大幅に上回ることができることを示す。

This paper considers the problem of generative novel view synthesis (GNVS), generating novel, plausible views of a scene given a limited number of known views. Here, we propose a set-based generative model that can simultaneously generate multiple, self-consistent new views, conditioned on any number of known views. Our approach is not limited to generating a single image at a time and can condition on zero, one, or more views. As a result, when generating a large number of views, our method is not restricted to a low-order autoregressive generation approach and is better able to maintain generated image quality over large sets of images. We evaluate the proposed model on standard NVS datasets and show that it outperforms the state-of-the-art image-based GNVS baselines. Further, we show that the model is capable of generating sets of camera views that have no natural sequential ordering, like loops and binocular trajectories, and significantly outperforms other methods on such tasks.
翻訳日:2024-02-29 16:32:41 公開日:2024-02-28
# FlattenQuant: テンソル量子化付き大規模言語モデルの推論計算バウンドを破る

FlattenQuant: Breaking Through the Inference Compute-bound for Large Language Models with Per-tensor Quantization ( http://arxiv.org/abs/2402.17985v1 )

ライセンス: Link先を確認
Yi Zhang, Fei Yang, Shuang Peng, Fangyu Wang, Aimin Pan(参考訳) 大規模言語モデル (LLM) は様々なタスクで最先端のパフォーマンスを実証している。 しかし、推論のレイテンシとLLMのGPUメモリ使用量が大きいため、デプロイメント性能は制限される。 近年,LLMの定量化が試みられているが,大きなバッチサイズや長いシーケンスの推論では計算バウンドの問題がまだ残っている。 細粒度量子化法はLLMの低ビット量子化を実現するのに、線形層計算にFP16データ型を必要とする一方で、大きなバッチサイズや長いシーケンスを扱うのに時間がかかる。 本稿では,テンソル内の大きなチャネルを平坦化することでテンソルの最大値を大幅に削減し,精度を最小に抑え,低ビット毎の量子化を実現するflattenquant法を提案する。 実験の結果,FlattenQuantはLLMの48.29%の線形層計算を4ビットで直接行うことができ,残りの層は8ビットで計算できることがわかった。 FlattenQuant法で導入された4ビット行列乗算は,大規模行列計算による計算バウンドに効果的に対処できる。 我々の研究は、2$\times$ Speedupと2.3$\times$ memory reduction for LLMs with negligible loss in accuracyを達成している。

Large language models (LLMs) have demonstrated state-of-the-art performance across various tasks. However, the latency of inference and the large GPU memory consumption of LLMs restrict their deployment performance. Recently, there have been some efficient attempts to quantize LLMs, yet inference with large batch size or long sequence still has the issue of being compute-bound. Fine-grained quantization methods have showcased their proficiency in achieving low-bit quantization for LLMs, while requiring FP16 data type for linear layer computations, which is time-consuming when dealing with large batch size or long sequence. In this paper, we introduce a method called FlattenQuant, which significantly reduces the maximum value of the tensor by flattening the large channels in the tensor, to achieve low bit per-tensor quantization with minimal accuracy loss. Our experiments show that FlattenQuant can directly use 4 bits to achieve 48.29% of the linear layer calculation in LLMs, with the remaining layers using 8 bits. The 4-bit matrix multiplication introduced in the FlattenQuant method can effectively address the compute-bound caused by large matrix calculation. Our work achieves up to 2$\times$ speedup and 2.3$\times$ memory reduction for LLMs with negligible loss in accuracy.
翻訳日:2024-02-29 16:32:25 公開日:2024-02-28
# 健康記録のモデル化のためのデータ拡張法とclopidogrel治療障害検出への応用

Data augmentation method for modeling health records with applications to clopidogrel treatment failure detection ( http://arxiv.org/abs/2402.18046v1 )

ライセンス: Link先を確認
Sunwoong Choi and Samuel Kim(参考訳) 自然言語処理(NLP)アルゴリズムを用いた患者の電子健康記録(EHR)における時系列パターンのモデリングにおけるデータ不足の課題に対処する新しいデータ拡張手法を提案する。 提案手法は, 元素の順序が明確でない訪問先において, 医療記録の順序を並べ替えることにより, 拡張データを生成する。 提案手法をクロピドレル処理失敗検出タスクに適用することにより, プレトレーニング中に使用した場合に, ROC-AUC(増量せずに0.908から0.961まで)で5.3%の絶対改善が可能となった。 また,この強化は,特にラベル付きトレーニングデータの量が限られている場合には,微調整手順における性能向上に寄与した。

We present a novel data augmentation method to address the challenge of data scarcity in modeling longitudinal patterns in Electronic Health Records (EHR) of patients using natural language processing (NLP) algorithms. The proposed method generates augmented data by rearranging the orders of medical records within a visit where the order of elements are not obvious, if any. Applying the proposed method to the clopidogrel treatment failure detection task enabled up to 5.3% absolute improvement in terms of ROC-AUC (from 0.908 without augmentation to 0.961 with augmentation) when it was used during the pre-training procedure. It was also shown that the augmentation helped to improve performance during fine-tuning procedures, especially when the amount of labeled training data is limited.
翻訳日:2024-02-29 16:29:32 公開日:2024-02-28
# マルチファクト:FActScoreを用いた多言語LLMの多言語知識の評価

Multi-FAct: Assessing Multilingual LLMs' Multi-Regional Knowledge using FActScore ( http://arxiv.org/abs/2402.18045v1 )

ライセンス: Link先を確認
Sheikh Shafayat, Eunsu Kim, Juhyun Oh, Alice Oh(参考訳) 大規模言語モデル(llm)は事実性幻覚(factuality hallucination)を起こしやすく、確立された知識と矛盾するテキストを生成する。 多くの研究が英語でこれに取り組んでいるが、多言語LLMについてはほとんど知られていない。 本稿では,言語と地理的領域の多言語LLMの事実精度を体系的に評価する。 多様な言語にFActScore(Min et al., 2023)を適用した多言語事実性評価のための新しいパイプラインを提案する。 9つの言語で分析したところ、英語は事実の正確さと量で他より一貫して優れていることがわかった。 さらに、多言語モデルは西欧大陸の事実情報に対するバイアスを示す。 これらの知見は,LLMの事実生成における多言語的事実性評価の改善の必要性と,地理的偏見の低さを浮き彫りにした。

Large Language Models (LLMs) are prone to factuality hallucination, generating text that contradicts established knowledge. While extensive research has addressed this in English, little is known about multilingual LLMs. This paper systematically evaluates multilingual LLMs' factual accuracy across languages and geographic regions. We introduce a novel pipeline for multilingual factuality evaluation, adapting FActScore(Min et al., 2023) for diverse languages. Our analysis across nine languages reveals that English consistently outperforms others in factual accuracy and quantity of generated facts. Furthermore, multilingual models demonstrate a bias towards factual information from Western continents. These findings highlight the need for improved multilingual factuality assessment and underscore geographical biases in LLMs' fact generation.
翻訳日:2024-02-29 16:29:18 公開日:2024-02-28
# SFTformer:レーダエコー外挿用時空間周波数相関デカップリング変換器

SFTformer: A Spatial-Frequency-Temporal Correlation-Decoupling Transformer for Radar Echo Extrapolation ( http://arxiv.org/abs/2402.18044v1 )

ライセンス: Link先を確認
Liangyu Xu, Wanxuan Lu, Hongfeng Yu, Fanglong Yao, Xian Sun, Kun Fu(参考訳) 将来の気象レーダーのエコーを過去の観測から推定することは、降雨を流すのに必須の複雑なタスクである。 レーダーエコーの空間的形態と時間的進化はある程度の相関を示すが、それらは独立した特性を持っている。 既存の手法は、高度に結合した特徴空間における統一的な空間的・時間的表現を学習し、空間的特徴と時間的特徴の相関を強調するが、それらの独立した特徴の明示的なモデリングを無視する。 レーダーエコーの時空間ダイナミクスを効果的にモデル化するために,空間周波数-時空間相関分離トランス (sftformer) を提案する。 このモデルでは、複数のsftブロックを積み重ねることでエコー細胞の時空間ダイナミクスの相関関係を発掘するだけでなく、時間的モデリングと空間形態の微粒化との相互干渉を回避できる。 さらに、気象予報の専門家が歴史的エコー進化を効果的に見直して正確な予測を行うという慣行に触発されて、sftfomerは歴史的エコーシーケンス再構成と将来のエコーシーケンス予測のための合同訓練パラダイムを取り入れている。 HKO-7データセットとChinaNorth-2021データセットの実験結果から,ショート(1h),ミドル(2h),長期降雨(3h)におけるSFTfomerの優れた性能を示した。

Extrapolating future weather radar echoes from past observations is a complex task vital for precipitation nowcasting. The spatial morphology and temporal evolution of radar echoes exhibit a certain degree of correlation, yet they also possess independent characteristics. {Existing methods learn unified spatial and temporal representations in a highly coupled feature space, emphasizing the correlation between spatial and temporal features but neglecting the explicit modeling of their independent characteristics, which may result in mutual interference between them.} To effectively model the spatiotemporal dynamics of radar echoes, we propose a Spatial-Frequency-Temporal correlation-decoupling Transformer (SFTformer). The model leverages stacked multiple SFT-Blocks to not only mine the correlation of the spatiotemporal dynamics of echo cells but also avoid the mutual interference between the temporal modeling and the spatial morphology refinement by decoupling them. Furthermore, inspired by the practice that weather forecast experts effectively review historical echo evolution to make accurate predictions, SFTfomer incorporates a joint training paradigm for historical echo sequence reconstruction and future echo sequence prediction. Experimental results on the HKO-7 dataset and ChinaNorth-2021 dataset demonstrate the superior performance of SFTfomer in short(1h), mid(2h), and long-term(3h) precipitation nowcasting.
翻訳日:2024-02-29 16:29:04 公開日:2024-02-28
# 危機講演:エネルギー危機と生活費に関する国民の議論の分析

Crisis talk: analysis of the public debate around the energy crisis and cost of living ( http://arxiv.org/abs/2402.18043v1 )

ライセンス: Link先を確認
Rrubaa Panchendrarajan, Geri Popova, Tony Russell-Rose(参考訳) 2020年代初頭の英国における顕著なメディアの話題は、英国とヨーロッパの大半に影響を及ぼすエネルギー危機である。 これは、エネルギー依存と持続可能性、経済的負担と生活コストの公平な分配、気候変動、リスク、持続可能性に関する単一の公的な議論をもたらす。 本稿では, エネルギー危機と生活コストに関する公衆の言論を考察し, この議論においてこれらの重要な問題と矛盾する問題がどのように一致しているかを確認し, どのような社会的アクターが関与し, それらが果たす役割を明らかにする。 2014年1月から2023年3月までに英国の新聞から入手した文書コーパスを分析した。 我々は,様々な自然言語処理とデータ視覚化手法を適用し,重要トピック,新しいトレンド,重要なソーシャルアクタ,議論における役割,それらのアクタやトピックに関連する感情を識別する。 本研究で明らかになった知見を探究し,検証するために,自動化技術と手話分析を組み合わせる。 これらの技術の有用性は,言論分析のための柔軟でスケーラブルなパイプラインを提供し,生活エネルギー危機ネクサス研究のコストに対する重要な洞察を提供することによって検証された。

A prominent media topic in the UK in the early 2020s is the energy crisis affecting the UK and most of Europe. It brings into a single public debate issues of energy dependency and sustainability, fair distribution of economic burdens and cost of living, as well as climate change, risk, and sustainability. In this paper, we investigate the public discourse around the energy crisis and cost of living to identify how these pivotal and contradictory issues are reconciled in this debate and to identify which social actors are involved and the role they play. We analyse a document corpus retrieved from UK newspapers from January 2014 to March 2023. We apply a variety of natural language processing and data visualisation techniques to identify key topics, novel trends, critical social actors, and the role they play in the debate, along with the sentiment associated with those actors and topics. We combine automated techniques with manual discourse analysis to explore and validate the insights revealed in this study. The findings verify the utility of these techniques by providing a flexible and scalable pipeline for discourse analysis and providing critical insights for cost of living - energy crisis nexus research.
翻訳日:2024-02-29 16:28:35 公開日:2024-02-28
# 大規模言語モデルのためのデータセット: 包括的調査

Datasets for Large Language Models: A Comprehensive Survey ( http://arxiv.org/abs/2402.18041v1 )

ライセンス: Link先を確認
Yang Liu, Jiahuan Cao, Chongyu Liu, Kai Ding, Lianwen Jin(参考訳) 本稿では,LLMの顕著な進歩に重要な役割を果たすLarge Language Model (LLM)データセットについて検討する。 データセットは、LLMの開発を維持、育成するルートシステムに類似した基盤基盤として機能する。 その結果、これらのデータセットの検証は研究において重要なトピックとして現れる。 llmデータセットの包括的概要と詳細な分析の欠如に対処し,その現状と今後の動向に関する洞察を得るため,本調査は,(1)事前学習コーパス,(2)命令微調整データセット,(3)選好データセット,(4)評価データセット,(5)伝統的自然言語処理(nlp)データセットの5つの視点から,llmデータセットの基本的な側面を統合し,分類する。 調査は一般的な課題に光を当て、今後の調査の道筋を指摘する。 さらに、既存のデータセットリソースの包括的なレビューも提供されており、44のデータセットからの統計、8つの言語カテゴリ、32のドメインをカバーする。 20次元からの情報はデータセット統計に組み込まれている。 調査対象のデータサイズは、事前トレーニングのコーパスが774.5TB、他のデータセットが700万インスタンスを超えている。 我々は,LLMテキストデータセットの全体像を提示し,この分野の研究者の包括的参照と今後の研究への貢献を目的としている。 関連するリソースは、https://github.com/lmmlzn/awesome-llms-datasetsで入手できる。

This paper embarks on an exploration into the Large Language Model (LLM) datasets, which play a crucial role in the remarkable advancements of LLMs. The datasets serve as the foundational infrastructure analogous to a root system that sustains and nurtures the development of LLMs. Consequently, examination of these datasets emerges as a critical topic in research. In order to address the current lack of a comprehensive overview and thorough analysis of LLM datasets, and to gain insights into their current status and future trends, this survey consolidates and categorizes the fundamental aspects of LLM datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. The survey sheds light on the prevailing challenges and points out potential avenues for future investigation. Additionally, a comprehensive review of the existing available dataset resources is also provided, including statistics from 444 datasets, covering 8 language categories and spanning 32 domains. Information from 20 dimensions is incorporated into the dataset statistics. The total data size surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for other datasets. We aim to present the entire landscape of LLM text datasets, serving as a comprehensive reference for researchers in this field and contributing to future studies. Related resources are available at: https://github.com/lmmlzn/Awesome-LLMs-Datasets.
翻訳日:2024-02-29 16:28:13 公開日:2024-02-28
# ディープラーニングによる積分の自動発見

Automated Discovery of Integral with Deep Learning ( http://arxiv.org/abs/2402.18040v1 )

ライセンス: Link先を確認
Xiaoxin Yin(参考訳) ディープラーニングの分野における最近の進歩、特に大規模言語モデル(llm)の開発は、複雑な数学的問題にaiが取り組んだり、プログラミングの課題を解決する能力を示している。 しかし、広範な訓練データに基づいて明確に定義された問題を解決する能力は、科学的発見を行うニュアンス過程とは大きく異なる。 今日の高度なLLMは、ほとんどすべての人間の知識に基づいて訓練され、基本的にトークンのシーケンスを予測することを学ぶ。 彼らは数学的導出を生成し、エッセイを書くのと同じような方法でコードを書くが、人間の科学者のように科学的発見を開拓する能力はない。 本研究では、深層学習を用いて基本的な数学的概念、積分を再発見する可能性を探る。 曲線の下の領域として積分を定義することにより、aiが与えられた関数の積分をどのように推測できるかを、例えば$\int_{0}^{x} t^2 dt = \frac{x^3}{3}$ および $\int_{0}^{x} ae^{bt} dt = \frac{a}{b} e^{bx} - \frac{a}{b}$ と推測して示す。 実験の結果, 深層学習モデルは, 逐次列列列モデル, 言語翻訳, あるいは $\int_{0}^{x} t^n dt = \frac{x^{n+1}}{n+1}$ のような初歩的な統合原理を明らかにすることによって, 積分を推論する作業にアプローチできることがわかった。

Recent advancements in the realm of deep learning, particularly in the development of large language models (LLMs), have demonstrated AI's ability to tackle complex mathematical problems or solving programming challenges. However, the capability to solve well-defined problems based on extensive training data differs significantly from the nuanced process of making scientific discoveries. Trained on almost all human knowledge available, today's sophisticated LLMs basically learn to predict sequences of tokens. They generate mathematical derivations and write code in a similar way as writing an essay, and do not have the ability to pioneer scientific discoveries in the manner a human scientist would do. In this study we delve into the potential of using deep learning to rediscover a fundamental mathematical concept: integrals. By defining integrals as area under the curve, we illustrate how AI can deduce the integral of a given function, exemplified by inferring $\int_{0}^{x} t^2 dt = \frac{x^3}{3}$ and $\int_{0}^{x} ae^{bt} dt = \frac{a}{b} e^{bx} - \frac{a}{b}$. Our experiments show that deep learning models can approach the task of inferring integrals either through a sequence-to-sequence model, akin to language translation, or by uncovering the rudimentary principles of integration, such as $\int_{0}^{x} t^n dt = \frac{x^{n+1}}{n+1}$.
翻訳日:2024-02-29 16:27:43 公開日:2024-02-28
# ResLoRA: 低ランク適応におけるアイデンティティ残差マッピング

ResLoRA: Identity Residual Mapping in Low-Rank Adaption ( http://arxiv.org/abs/2402.18039v1 )

ライセンス: Link先を確認
Shuhua Shi, Shaohan Huang, Minghui Song, Zhoujun Li, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang(参考訳) 最も一般的なパラメータ効率のよい微調整(PEFT)手法の一つとして、低ランク適応(LoRA)がファインチューン大言語モデル(LLM)に適用される。 しかし,loraブロックの重みを効果的かつ迅速に更新することは,元のモデルでは計算経路が長いため困難である。 そこで我々は,LoRAの改良フレームワークであるResLoRAを提案する。 トレーニング中に残留経路を追加し,これらの余分な経路を除去するためにマージ手法を用いることで,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,トレーニングステップの短縮を達成できる。 NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。 私たちの知る限りでは、ResLoRAは残余のパスとLoRAを組み合わせた最初の作品です。 このメソッドのコードはhttps://github.com/microsoft/lmops/tree/main/resloraで利用可能です。

As one of the most popular parameter-efficient fine-tuning (PEFT) methods, low-rank adaptation (LoRA) is commonly applied to fine-tune large language models (LLMs). However, updating the weights of LoRA blocks effectively and expeditiously is challenging due to the long calculation path in the original model. To address this, we propose ResLoRA, an improved framework of LoRA. By adding residual paths during training and using merging approaches to eliminate these extra paths during inference, our method can achieve better results in fewer training steps without any extra trainable parameters or inference cost compared to LoRA. The experiments on NLG, NLU, and text-to-image tasks demonstrate the effectiveness of our method. To the best of our knowledge, ResLoRA is the first work that combines the residual path with LoRA. The code of our method is available at https://github.com/microsoft/LMOps/tree/main/reslora .
翻訳日:2024-02-29 16:27:04 公開日:2024-02-28
# NPT境界問題の解法:蒸留性集合から不等式へ,多変量洞察へ

Unveiling NPT bound problem: From Distillability Sets to Inequalities and Multivariable Insights ( http://arxiv.org/abs/2402.18037v1 )

ライセンス: Link先を確認
Si-Yuan Qi, Geni Gupur, Yu-Chun Wu, Guo-Ping Guo(参考訳) 正部分転置(ppt)の絡み合いと束縛絡みの間の等価性は量子情報理論における長年のオープン問題である。 これまでのところ、ワーナー状態境界絡みの一見単純な場合でさえ、進歩は限られている。 主な課題は、不蒸留性の簡潔な数学的表現を与えることである。 そこで本論文では,N-不安定性検証を$log(N)=1-不安定性検証の繰り返しステップに分解する手法を提案する。 ヴェルナー状態 N-不安定性検証には、ヴェルナー状態の次元性とは独立なN-不安定性の境界が与えられる。 階数 1 と 2 の 2 つの行列の等価な不等式を示し、2 つの不安定なケースを行列解析問題に変換する。 新たな視点は、これを非凸な多変数函数と見なし、その臨界点を証明し、ヘッセン正則を導出することによって局所最小化を図った。

Equivalence between Positive Partial Transpose (PPT) entanglement and bound entanglement is a long-standing open problem in quantum information theory. So far limited progress has been made, even on the seemingly simple case of Werner states bound entanglement. The primary challenge is to give a concise mathematical representation of undistillability. To this end, we propose a decomposition of the N-undistillability verification into $log(N)$ repeated steps of 1-undistillability verification. For Werner state N-undistillability verification, a bound for N-undistillability is given, which is independent of the dimensionality of Werner states. Equivalent forms of inequalities for both rank one and two matrices are presented, before transforming the two-undistillability case into a matrix analysis problem. A new perspective is also attempted by seeing it as a non-convex multi-variable function, proving its critical points and conjecturing Hessian positivity, which would make them local minimums.
翻訳日:2024-02-29 16:26:38 公開日:2024-02-28
# 人間の形状と衣服推定

Human Shape and Clothing Estimation ( http://arxiv.org/abs/2402.18032v1 )

ライセンス: Link先を確認
Aayush Gupta, Aditya Gulati, Himanshu, Lakshya LNU(参考訳) オンラインショッピング、ファッション小売、拡張現実(AR)、仮想現実(VR)、ゲームなど、さまざまな分野において、人間の形や衣服の推定が顕著に行われている。 近年、人間の形や衣服の視覚的表現は、コンピュータビジョン研究者にとって焦点となっている。 本稿では,その分野における主要な研究を包括的に調査し,人間の形状推定,ファッション生成,ランドマーク検出,属性認識の4つの重要な側面に着目した。 それぞれの課題について,最近の進歩を考察し,その強みと限界,アプローチと成果の質的差異について考察した。 人体形状と衣服推定の最新の展開を探求することにより、この分野の総合的な理解を提供し、この急速に発展する領域における将来の研究を刺激することを目的とする。

Human shape and clothing estimation has gained significant prominence in various domains, including online shopping, fashion retail, augmented reality (AR), virtual reality (VR), and gaming. The visual representation of human shape and clothing has become a focal point for computer vision researchers in recent years. This paper presents a comprehensive survey of the major works in the field, focusing on four key aspects: human shape estimation, fashion generation, landmark detection, and attribute recognition. For each of these tasks, the survey paper examines recent advancements, discusses their strengths and limitations, and qualitative differences in approaches and outcomes. By exploring the latest developments in human shape and clothing estimation, this survey aims to provide a comprehensive understanding of the field and inspire future research in this rapidly evolving domain.
翻訳日:2024-02-29 16:26:10 公開日:2024-02-28
# 大規模言語モデルを用いたコーパスステアードクエリ拡張

Corpus-Steered Query Expansion with Large Language Models ( http://arxiv.org/abs/2402.18031v1 )

ライセンス: Link先を確認
Yibin Lei, Yu Cao, Tianyi Zhou, Tao Shen, Andrew Yates(参考訳) 近年の研究では,大規模言語モデル(LLM)が生成するクエリ拡張が,クエリに応答する仮説文書を拡張として生成することにより,情報検索システムを大幅に強化できることが示されている。 しかし、拡張と検索コーパスのミスアライメントにより、LLMの内在的知識が限られているため、幻覚や時代遅れの情報といった問題が発生する。 Pseudo Relevance Feedback (PRF)にヒントを得て,コーパス内に埋め込まれた知識の取り込みを促進するためにCSQE(Corpus-Steered Query Expansion)を導入する。 CSQEは、LLMの関連性評価機能を利用して、最初に検索された文書の重要文を体系的に同定する。 これらのコーパス指向のテキストは、LLM知識の拡張とともにクエリを拡張し、クエリとターゲットドキュメント間の関連性を予測するために使用される。 大規模な実験により、CSQEは訓練を必要とせず、特にLLMが知識を欠いているクエリで強い性能を示すことが明らかとなった。

Recent studies demonstrate that query expansions generated by large language models (LLMs) can considerably enhance information retrieval systems by generating hypothetical documents that answer the queries as expansions. However, challenges arise from misalignments between the expansions and the retrieval corpus, resulting in issues like hallucinations and outdated information due to the limited intrinsic knowledge of LLMs. Inspired by Pseudo Relevance Feedback (PRF), we introduce Corpus-Steered Query Expansion (CSQE) to promote the incorporation of knowledge embedded within the corpus. CSQE utilizes the relevance assessing capability of LLMs to systematically identify pivotal sentences in the initially-retrieved documents. These corpus-originated texts are subsequently used to expand the query together with LLM-knowledge empowered expansions, improving the relevance prediction between the query and the target documents. Extensive experiments reveal that CSQE exhibits strong performance without necessitating any training, especially with queries for which LLMs lack knowledge.
翻訳日:2024-02-29 16:25:46 公開日:2024-02-28
# OpenMEDLab: 医療における多要素モデルのためのオープンソースプラットフォーム

OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models in Medicine ( http://arxiv.org/abs/2402.18028v1 )

ライセンス: Link先を確認
Xiaosong Wang and Xiaofan Zhang and Guotai Wang and Junjun He and Zhongyu Li and Wentao Zhu and Yi Guo and Qi Dou and Xiaoxiao Li and Dequan Wang and Liang Hong and Qicheng Lao and Tong Ruan and Yukun Zhou and Yixue Li and Jie Zhao and Kang Li and Xin Sun and Lifeng Zhu and Shaoting Zhang(参考訳) GPTv4やGeminiといった汎用人工知能の進歩するトレンドは、機械学習やその他の多くの研究分野における研究(学界と産業)の風景を変えつつある。 しかし、そのような基礎モデル(例えば医学)のドメイン固有の応用は、まだ触れられていないか、しばしばごく初期段階にある。 ドメイン知識とデータでこれらのモデルをさらに拡張し、注入することで、トランスファー学習とモデル適応のテクニックを個別にセットする必要があります。 このような技術の開発は、データ、アルゴリズム、事前訓練された基礎モデルのバンドルがまとめられ、組織化された方法でオープンソースになれば、大幅に加速できる。 本稿では,マルチモダリティ基盤モデルのオープンソースプラットフォームであるOpenMEDLabを紹介する。 最前線臨床およびバイオインフォマティクス応用のための大規模言語とビジョンモデルを促進、微調整する先駆的な試みの解決策をカプセル化するとともに、大規模マルチモーダル医療データを用いたドメイン固有の基礎モデルを構築する。 重要なのは、さまざまな医療画像のモダリティ、臨床テキスト、タンパク質工学などのための、事前訓練された基礎モデルへのアクセスだ。 また、ダウンストリームタスクのさまざまなベンチマークにおいて、収集された各アプローチとモデルに対して、刺激的かつ競争的な結果が示される。 私たちは医学的人工知能分野の研究者を歓迎し、最先端の方法やモデルをopenmedlabに継続的に提供し、https://github.com/openmedlab.comからアクセスできるようにします。

The emerging trend of advancing generalist artificial intelligence, such as GPTv4 and Gemini, has reshaped the landscape of research (academia and industry) in machine learning and many other research areas. However, domain-specific applications of such foundation models (e.g., in medicine) remain untouched or often at their very early stages. It will require an individual set of transfer learning and model adaptation techniques by further expanding and injecting these models with domain knowledge and data. The development of such technologies could be largely accelerated if the bundle of data, algorithms, and pre-trained foundation models were gathered together and open-sourced in an organized manner. In this work, we present OpenMEDLab, an open-source platform for multi-modality foundation models. It encapsulates not only solutions of pioneering attempts in prompting and fine-tuning large language and vision models for frontline clinical and bioinformatic applications but also building domain-specific foundation models with large-scale multi-modal medical data. Importantly, it opens access to a group of pre-trained foundation models for various medical image modalities, clinical text, protein engineering, etc. Inspiring and competitive results are also demonstrated for each collected approach and model in a variety of benchmarks for downstream tasks. We welcome researchers in the field of medical artificial intelligence to continuously contribute cutting-edge methods and models to OpenMEDLab, which can be accessed via https://github.com/openmedlab.
翻訳日:2024-02-29 16:25:13 公開日:2024-02-28
# ブラックボックスを破る: 分散シフトに対する信頼度誘導モデル反転攻撃

Breaking the Black-Box: Confidence-Guided Model Inversion Attack for Distribution Shift ( http://arxiv.org/abs/2402.18027v1 )

ライセンス: Link先を確認
Xinhao Liu, Yingzhao Jiang, Zetao Lin(参考訳) モデルインバージョンアタック(MIA)は、ターゲットクラスの特性を反映した合成画像を生成することにより、ターゲット分類器のプライベートトレーニングデータを推論しようとする。 しかし、先行研究はターゲットモデルへの完全なアクセスに依存しており、現実のシナリオでは実用的ではない。 さらに、既存のブラックボックスMIAは、画像先行とターゲットモデルが同じ分布に従うと仮定する。 しかし、様々なデータ配信設定に直面した場合、これらの手法は攻撃を行う際の最適でない性能をもたらす可能性がある。 これらの制約に対処するために, 事前学習された公開生成逆数ネットワーク(GAN)の潜伏空間を事前情報として利用し, ブラックボックス設定で異なるデータ分布にまたがる高分解能MIAを実現するCG-MIという, \textbf{C}onfidence-\textbf{G}uided \textbf{M}odel \textbf{I}nversion attack methodを提案する。 実験の結果,SOTA ブラックボックス MIA は Celeba では 49 % ,Facescrub では 58 % 以上,それぞれ異なる分散環境下では SOTA ブラックボックス MIA を有意に向上させることがわかった。 さらに,ホワイトボックス攻撃によって生成された画像と比較可能な高品質な画像生成能力を示す。 本手法は,ブラックボックスモデル逆攻撃に対する実用的で効果的な解決策を提供する。

Model inversion attacks (MIAs) seek to infer the private training data of a target classifier by generating synthetic images that reflect the characteristics of the target class through querying the model. However, prior studies have relied on full access to the target model, which is not practical in real-world scenarios. Additionally, existing black-box MIAs assume that the image prior and target model follow the same distribution. However, when confronted with diverse data distribution settings, these methods may result in suboptimal performance in conducting attacks. To address these limitations, this paper proposes a \textbf{C}onfidence-\textbf{G}uided \textbf{M}odel \textbf{I}nversion attack method called CG-MI, which utilizes the latent space of a pre-trained publicly available generative adversarial network (GAN) as prior information and gradient-free optimizer, enabling high-resolution MIAs across different data distributions in a black-box setting. Our experiments demonstrate that our method significantly \textbf{outperforms the SOTA black-box MIA by more than 49\% for Celeba and 58\% for Facescrub in different distribution settings}. Furthermore, our method exhibits the ability to generate high-quality images \textbf{comparable to those produced by white-box attacks}. Our method provides a practical and effective solution for black-box model inversion attacks.
翻訳日:2024-02-29 16:24:31 公開日:2024-02-28
# 言語学者を雇え! 言語記述を用いた絶滅危惧言語学習

Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions ( http://arxiv.org/abs/2402.18025v1 )

ライセンス: Link先を確認
Kexun Zhang, Yee Man Choi, Zhenqiao Song, Taiqi He, William Yang Wang, Lei Li(参考訳) 大規模言語モデル(llm)は、どのようにして絶滅危惧言語を処理し、翻訳できるのか? 多くの言語は適切なllmを訓練するために大きなコーパスを欠いているため、既存のllmが目に見えない絶滅危惧言語でうまく機能することはほとんどない。 それとは対照的に,2000の絶滅危惧言語は大きなコーパスを持たないものの文法書や辞書を持っている。 我々は,LLMが事前学習でほとんど起こらない未知の言語を処理可能にするための,トレーニング不要のアプローチであるlingOLLMを提案する。 私たちの重要な洞察は、辞書、文法書、形態素解析された入力テキストを含むllmのプロンプトで、目に見えない言語の言語知識を示すことです。 lingollmをgpt-4とmixtralという2つのモデル上に実装し、8つの絶滅危惧言語や低リソース言語で5つのタスクでのパフォーマンスを評価した。 GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。 絶滅危惧言語におけるLLMの時代における言語知識の価値は極めて高い。 私たちのデータ、コード、モデル世代はhttps://github.com/LLiLab/llm4endangeredlangで確認できます。

How can large language models (LLMs) process and translate endangered languages? Many languages lack a large corpus to train a decent LLM; therefore existing LLMs rarely perform well in unseen, endangered languages. On the contrary, we observe that 2000 endangered languages, though without a large corpus, have a grammar book or a dictionary. We propose LINGOLLM, a training-free approach to enable an LLM to process unseen languages that hardly occur in its pre-training. Our key insight is to demonstrate linguistic knowledge of an unseen language in an LLM's prompt, including a dictionary, a grammar book, and morphologically analyzed input text. We implement LINGOLLM on top of two models, GPT-4 and Mixtral, and evaluate their performance on 5 tasks across 8 endangered or low-resource languages. Our results show that LINGOLLM elevates translation capability from GPT-4's 0 to 10.5 BLEU for 10 language directions. Our findings demonstrate the tremendous value of linguistic knowledge in the age of LLMs for endangered languages. Our data, code, and model generations can be found at https://github.com/LLiLab/llm4endangeredlang.
翻訳日:2024-02-29 16:23:46 公開日:2024-02-28
# 大規模言語モデルは認知言語処理をミラー化するか?

Do Large Language Models Mirror Cognitive Language Processing? ( http://arxiv.org/abs/2402.18023v1 )

ライセンス: Link先を確認
Yuqi Ren, Renren Jin, Tongxuan Zhang, Deyi Xiong(参考訳) 大規模言語モデル(LLM)は、テキスト理解と論理的推論において顕著な能力を示し、多くの認知タスクにおいて人間レベルのパフォーマンスを達成または超えた。 LLMは、人間の言語認知の膨大なテキスト出力から訓練されているため、LLMが認知言語処理を反映しているかどうかを問うことは当然である。 あるいはllmを認知言語処理に拡張するのでしょうか? 本稿では,LLM表現と人間の認知信号をブリッジして,LLMが認知言語処理をいかに効果的にシミュレートするかを評価する手法を提案する。 我々はRepresentational similarity Analysis (RSA) を用いて16個の主要LDMとfMRI信号のアライメントを測定する。 様々な要因(モデルスケーリング、アライメントトレーニング、命令付加など)が、そのようなllm-脳アライメントに与える影響を実証的に検討する。 実験結果から,モデルスケーリングはLLM-脳類似性と正の相関を示し,アライメントトレーニングはLLM-脳類似性を大幅に改善することが示された。 さらに、幅広いLLM評価(例えばMMLU、Chatbot Arena)の性能は、LLM-Brain類似性と強く相関している。

Large language models (LLMs) have demonstrated remarkable capabilities in text comprehension and logical reasoning, achiving or even surpassing human-level performance in numerous cognition tasks. As LLMs are trained from massive textual outputs of human language cognition, it is natural to ask whether LLMs mirror cognitive language processing. Or to what extend LLMs resemble cognitive language processing? In this paper, we propose a novel method that bridge between LLM representations and human cognition signals to evaluate how effectively LLMs simulate cognitive language processing. We employ Representational Similarity Analysis (RSA) to mearsure the alignment between 16 mainstream LLMs and fMRI signals of the brain. We empirically investigate the impact of a variety of factors (e.g., model scaling, alignment training, instruction appending) on such LLM-brain alignment. Experimental results indicate that model scaling is positively correlated with LLM-brain similarity, and alignment training can significantly improve LLM-brain similarity. Additionally, the performance of a wide range of LLM evaluations (e.g., MMLU, Chatbot Arena) is highly correlated with the LLM-brain similarity.
翻訳日:2024-02-29 16:23:25 公開日:2024-02-28
# コミュニケーション効率のよいコンフェデレーション学習:イベントトリガー型SAGAアプローチ

Communication Efficient ConFederated Learning: An Event-Triggered SAGA Approach ( http://arxiv.org/abs/2402.18018v1 )

ライセンス: Link先を確認
Bin Wang and Jun Fang and Hongbin Li and Yonina C. Eldar(参考訳) Federated Learning(FL)は、さまざまなデータソースに分散したローカルデータを収集することなく、モデルトレーニングをターゲットにした機械学習パラダイムである。 単一のサーバを使用するStandard FLは、限られた数のユーザしかサポートできないため、学習能力の低下につながる。 本研究では,多数のユーザに対応するために,マルチサーバ型flフレームワークを \emph{confederated learning} (cfl) として検討する。 cflシステムは複数のネットワーク化されたエッジサーバで構成され、各サーバは個々のユーザ群に接続されている。 サーバ間の分散コラボレーションを利用して、すべてのユーザのデータをモデルトレーニングに活用する。 膨大な数のユーザが関与する可能性があるため、CFLシステムの通信オーバーヘッドを低減することが重要である。 CFLフレームワークにおける分散学習のための確率勾配法を提案する。 提案手法は,通信オーバヘッドを効果的に低減するために,条件付きユーザ選択(CTUS)機構を中心コンポーネントとして組み込む。 微妙に設計されたトリガー条件に基づき、CTUSメカニズムにより、各サーバはアルゴリズムの収束性能を著しく損なうことなく、少数のユーザーだけが勾配をアップロードできる。 理論的解析により,提案アルゴリズムは線形収束率を満足することが明らかとなった。 シミュレーションの結果,通信効率の面では最先端アルゴリズムよりも大幅に改善できることがわかった。

Federated learning (FL) is a machine learning paradigm that targets model training without gathering the local data dispersed over various data sources. Standard FL, which employs a single server, can only support a limited number of users, leading to degraded learning capability. In this work, we consider a multi-server FL framework, referred to as \emph{Confederated Learning} (CFL), in order to accommodate a larger number of users. A CFL system is composed of multiple networked edge servers, with each server connected to an individual set of users. Decentralized collaboration among servers is leveraged to harness all users' data for model training. Due to the potentially massive number of users involved, it is crucial to reduce the communication overhead of the CFL system. We propose a stochastic gradient method for distributed learning in the CFL framework. The proposed method incorporates a conditionally-triggered user selection (CTUS) mechanism as the central component to effectively reduce communication overhead. Relying on a delicately designed triggering condition, the CTUS mechanism allows each server to select only a small number of users to upload their gradients, without significantly jeopardizing the convergence performance of the algorithm. Our theoretical analysis reveals that the proposed algorithm enjoys a linear convergence rate. Simulation results show that it achieves substantial improvement over state-of-the-art algorithms in terms of communication efficiency.
翻訳日:2024-02-29 16:23:02 公開日:2024-02-28
# 画像クラス増分学習のための一般化可能な2分岐フレームワーク

Generalizable Two-Branch Framework for Image Class-Incremental Learning ( http://arxiv.org/abs/2402.18086v1 )

ライセンス: Link先を確認
Chao Wu, Xiaobin Chang, Ruixuan Wang(参考訳) 深層ニューラルネットワークは、新しい知識を学ぶとき、事前学習した知識をひどく忘れてしまう。 種々の連続学習(CL)手法は, 様々な視点から, 破滅的な忘れの問題に対処し, 大幅な改善を実現し, 既存のCL手法をさらに強化するために, 新たな2分岐連続学習フレームワークを提案する。 具体的には、メインブランチは既存のCLモデルであり、新しく導入されたサイドブランチは軽量な畳み込みネットワークである。 各主分岐ブロックの出力は、対応する側分岐ブロックの出力によって変調される。 このような単純な2分岐モデルを簡単に実装し、ホイッスルやベルを使わずにバニラ最適化設定で学習し、複数の画像データセットに様々な設定を組み込んだ実験により、提案手法は最先端の手法よりも一貫した改善をもたらすことを示した。

Deep neural networks often severely forget previously learned knowledge when learning new knowledge. Various continual learning (CL) methods have been proposed to handle such a catastrophic forgetting issue from different perspectives and achieved substantial improvements.In this paper, a novel two-branch continual learning framework is proposed to further enhance most existing CL methods. Specifically, the main branch can be any existing CL model and the newly introduced side branch is a lightweight convolutional network. The output of each main branch block is modulated by the output of the corresponding side branch block. Such a simple two-branch model can then be easily implemented and learned with the vanilla optimization setting without whistles and bells.Extensive experiments with various settings on multiple image datasets show that the proposed framework yields consistent improvements over state-of-the-art methods.
翻訳日:2024-02-29 16:18:10 公開日:2024-02-28
# 効率的な画像アノテーションによる自律ナビゲーションのための意味セグメンテーションの拡張

Spannotation: Enhancing Semantic Segmentation for Autonomous Navigation with Efficient Image Annotation ( http://arxiv.org/abs/2402.18084v1 )

ライセンス: Link先を確認
Samuel O. Folorunsho and William R. Norris(参考訳) Spannotationは、特に自律的なナビゲーションタスクにおいてセマンティックセグメンテーションのためのイメージアノテーションのために開発された、オープンソースのユーザフレンドリーなツールである。 本研究は, 農作物列, オフロード地形, 都市道路など, 様々な環境において, 正確なセグメンテーションマスクの生成に有効であることを示す。 一般的なナビゲーションタスクでセマンティックセグメンテーションのために画像にアノテートするのに約40秒を要する他の一般的なアノテーションツールとは異なり、Spannotationは同様の結果を約6.03秒で達成する。 このツールの効用は、生成されたマスクを使用して、検証精度98.27%、平均インターセクションオーバーユニオン96.66%のU-Netモデルを訓練することで検証された。 アクセシビリティ、シンプルなアノテーションプロセス、そしてコストのかかる機能はすべて、2098年のダウンロード数(2024年2月25日現在)から明らかなSpannotationの採用に寄与している。 Spannotationの今後の拡張は、複雑なナビゲーションシナリオへのアプリケーションの拡大と、さらなる自動化機能の追加を目的としている。 Spannotationは、その人気と将来性を考えると、自律的なナビゲーションとセマンティックセグメンテーションにおいて貴重なリソースである。 詳細な情報とSpannotationへのアクセスについては、https://github.com/sof-danny/spannotationでプロジェクトのGitHubリポジトリを参照してほしい。

Spannotation is an open source user-friendly tool developed for image annotation for semantic segmentation specifically in autonomous navigation tasks. This study provides an evaluation of Spannotation, demonstrating its effectiveness in generating accurate segmentation masks for various environments like agricultural crop rows, off-road terrains and urban roads. Unlike other popular annotation tools that requires about 40 seconds to annotate an image for semantic segmentation in a typical navigation task, Spannotation achieves similar result in about 6.03 seconds. The tools utility was validated through the utilization of its generated masks to train a U-Net model which achieved a validation accuracy of 98.27% and mean Intersection Over Union (mIOU) of 96.66%. The accessibility, simple annotation process and no-cost features have all contributed to the adoption of Spannotation evident from its download count of 2098 (as of February 25, 2024) since its launch. Future enhancements of Spannotation aim to broaden its application to complex navigation scenarios and incorporate additional automation functionalities. Given its increasing popularity and promising potential, Spannotation stands as a valuable resource in autonomous navigation and semantic segmentation. For detailed information and access to Spannotation, readers are encouraged to visit the project's GitHub repository at https://github.com/sof-danny/spannotation
翻訳日:2024-02-29 16:17:55 公開日:2024-02-28
# Pose-Guided Person画像合成のための粗-重遅延拡散

Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis ( http://arxiv.org/abs/2402.18078v1 )

ライセンス: Link先を確認
Yanzuo Lu, Manlin Zhang, Andy J Ma, Xiaohua Xie, Jian-Huang Lai(参考訳) 拡散モデルは画像生成に有望なアプローチであり,PGPIS (Pose-Guided Person Image Synthesis) に競争力を持つ。 既存の手法では、人物の外観をターゲットのポーズに合わせるだけでよいが、ソースの人物画像に対する高度な意味理解が欠如しているため、オーバーフィットしがちである。 本稿では,pgpisの粗・微粒拡散(cfld)法を提案する。 画像キャプチャペアとテキストプロンプトの欠如により,事前学習したテキスト・ツー・イメージ拡散モデルの生成過程を制御するために,純粋に画像に基づく新しい訓練パラダイムを開発する。 認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。 これにより、きめ細かい外観を分離し、異なる段階で情報を制御し、潜在的な過度な問題を回避することができる。 より現実的なテクスチャの詳細を生成するため,マルチスケールの微細な外観特徴をバイアス項として符号化し,粗いプロンプトを増大させるハイブリッド・グラニュラリティ・アテンション・モジュールを提案する。 DeepFashionベンチマークの定量的および定性的な実験結果は,PGPISの最先端技術よりも,我々の手法が優れていることを示している。 コードはhttps://github.com/YanzuoLu/CFLDで入手できる。

Diffusion model is a promising approach to image generation and has been employed for Pose-Guided Person Image Synthesis (PGPIS) with competitive performance. While existing methods simply align the person appearance to the target pose, they are prone to overfitting due to the lack of a high-level semantic understanding on the source person image. In this paper, we propose a novel Coarse-to-Fine Latent Diffusion (CFLD) method for PGPIS. In the absence of image-caption pairs and textual prompts, we develop a novel training paradigm purely based on images to control the generation process of the pre-trained text-to-image diffusion model. A perception-refined decoder is designed to progressively refine a set of learnable queries and extract semantic understanding of person images as a coarse-grained prompt. This allows for the decoupling of fine-grained appearance and pose information controls at different stages, and thus circumventing the potential overfitting problem. To generate more realistic texture details, a hybrid-granularity attention module is proposed to encode multi-scale fine-grained appearance features as bias terms to augment the coarse-grained prompt. Both quantitative and qualitative experimental results on the DeepFashion benchmark demonstrate the superiority of our method over the state of the arts for PGPIS. Code is available at https://github.com/YanzuoLu/CFLD.
翻訳日:2024-02-29 16:17:28 公開日:2024-02-28
# SynArtifact:視覚言語モデルによる合成画像中のアーティファクトの分類と緩和

SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model ( http://arxiv.org/abs/2402.18068v1 )

ライセンス: Link先を確認
Bin Cao, Jianhao Yuan, Yexin Liu, Jian Li, Shuyang Sun, Jing Liu, Bo Zhao(参考訳) 画像合成の急速に発展する領域において、深刻な課題は、合成画像の知覚的現実主義を妥協する複雑な人工物の存在である。 人工画像の品質を向上させるため,我々は,多種多様な人工物を自動的に識別・分類し,生成モデルをさらに最適化するための監督を行うために,人工物分類器としてVLM(Vision-Language Model)を微調整した。 具体的には,包括的アーティファクト分類法を開発し,synartifact-1kと呼ばれる微調整vlmのためのアーティファクトアノテーションを用いた合成画像のデータセットを構築する。 微調整されたVLMは、アーティファクトを識別する優れた能力を示し、ベースラインを25.66%上回る。 私たちの知る限り、このようなエンドツーエンドのアーティファクト分類タスクとソリューションが提案されたのはこれが初めてです。 最後に,VLMの出力をフィードバックとして活用し,人工物の緩和のための生成モデルを改良する。 可視化結果とユーザスタディにより,精製拡散モデルにより合成した画像の品質が明らかに向上した。

In the rapidly evolving area of image synthesis, a serious challenge is the presence of complex artifacts that compromise perceptual realism of synthetic images. To alleviate artifacts and improve quality of synthetic images, we fine-tune Vision-Language Model (VLM) as artifact classifier to automatically identify and classify a wide range of artifacts and provide supervision for further optimizing generative models. Specifically, we develop a comprehensive artifact taxonomy and construct a dataset of synthetic images with artifact annotations for fine-tuning VLM, named SynArtifact-1K. The fine-tuned VLM exhibits superior ability of identifying artifacts and outperforms the baseline by 25.66%. To our knowledge, this is the first time such end-to-end artifact classification task and solution have been proposed. Finally, we leverage the output of VLM as feedback to refine the generative model for alleviating artifacts. Visualization results and user study demonstrate that the quality of images synthesized by the refined diffusion model has been obviously improved.
翻訳日:2024-02-29 16:17:05 公開日:2024-02-28
# 溶液空間を縮小したマルチカメラシステムの6点法

Six-Point Method for Multi-Camera Systems with Reduced Solution Space ( http://arxiv.org/abs/2402.18066v1 )

ライセンス: Link先を確認
Banglei Guan, Ji Zhao, Laurent Kneip(参考訳) 点対応(pc)を用いた相対ポーズ推定は広く用いられている手法である。 汎用カメラには6台のpcの最小構成が必要である。 本稿では,6台のPCを用いて,マルチカメラシステムの6DOF相対的なポーズを計算し,汎用カメラの最小解法と2台のカメラリグの実用的構成のための最小解法を含む最小解法について述べる。 方程式の構成は回転と変換の分離に基づいている。 回転はケイリーあるいは四元数パラメトリゼーションで表され、隠れ変数技術を用いて翻訳を除去できる。 レイバンドルの制約は、PCのサブセットが2つのビューで同じカメラを関連付けるときに発見され、証明される。 これは解の数を減らし、数値的に安定な解法を生成する鍵である。 さらに、マルチカメラシステムにおける6点問題の全ての構成を列挙する。 大規模な実験により, 解法は最先端の6点法よりも精度が高く, 効率性も向上した。

Relative pose estimation using point correspondences (PC) is a widely used technique. A minimal configuration of six PCs is required for generalized cameras. In this paper, we present several minimal solvers that use six PCs to compute the 6DOF relative pose of a multi-camera system, including a minimal solver for the generalized camera and two minimal solvers for the practical configuration of two-camera rigs. The equation construction is based on the decoupling of rotation and translation. Rotation is represented by Cayley or quaternion parametrization, and translation can be eliminated by using the hidden variable technique. Ray bundle constraints are found and proven when a subset of PCs relate the same cameras across two views. This is the key to reducing the number of solutions and generating numerically stable solvers. Moreover, all configurations of six-point problems for multi-camera systems are enumerated. Extensive experiments demonstrate that our solvers are more accurate than the state-of-the-art six-point methods, while achieving better performance in efficiency.
翻訳日:2024-02-29 16:16:48 公開日:2024-02-28
# アクティブトランスファー学習による空間依存型環境仮説の自動テスト

Automated Testing of Spatially-Dependent Environmental Hypotheses through Active Transfer Learning ( http://arxiv.org/abs/2402.18064v1 )

ライセンス: Link先を確認
Nicholas Harrison, Nathan Wallace, Salah Sukkarieh(参考訳) サンプルの効率的な収集は、時間、エネルギー、環境破壊の可能性といった高いサンプリングコストを考慮した屋外情報収集アプリケーションにおいて重要な要素である。 利用可能なa-prioriデータの利用は、効率を上げるための強力なツールである。 しかし、このデータと関心の量との関係は、しばしば事前に分かっておらず、計画効率を向上させるためにこの知識を活用する能力を制限する。 この目的のために,多タスクガウス過程と情報に基づく客観関数による伝達学習と能動的学習を組み合わせる。 この組み合わせにより、仮説間量関係の空間を探索し、これらの仮説をリアルタイムで評価し、この新しい知識をすぐに将来の計画に活用することができる。 提案手法の性能を合成データに対して評価し,複数の仮説を正しく評価した。 その効果は実際のデータセットにも示される。 この手法は、中間相関または強い相関を示す仮説を同定し、最初の5サンプル中の1.5〜6の因子で予測誤差を減少させ、不良仮説を迅速に同定して拒絶し、約3サンプル後の計画に悪影響を与えない。

The efficient collection of samples is an important factor in outdoor information gathering applications on account of high sampling costs such as time, energy, and potential destruction to the environment. Utilization of available a-priori data can be a powerful tool for increasing efficiency. However, the relationships of this data with the quantity of interest are often not known ahead of time, limiting the ability to leverage this knowledge for improved planning efficiency. To this end, this work combines transfer learning and active learning through a Multi-Task Gaussian Process and an information-based objective function. Through this combination it can explore the space of hypothetical inter-quantity relationships and evaluate these hypotheses in real-time, allowing this new knowledge to be immediately exploited for future plans. The performance of the proposed method is evaluated against synthetic data and is shown to evaluate multiple hypotheses correctly. Its effectiveness is also demonstrated on real datasets. The technique is able to identify and leverage hypotheses which show a medium or strong correlation to reduce prediction error by a factor of 1.5--6 within the first 5 samples, and poor hypotheses are quickly identified and rejected, having no adverse effect on planning after around 3 samples.
翻訳日:2024-02-29 16:16:30 公開日:2024-02-28
# 無人車両群のためのジェネレーティブAI:挑戦、応用、機会

Generative AI for Unmanned Vehicle Swarms: Challenges, Applications and Opportunities ( http://arxiv.org/abs/2402.18062v1 )

ライセンス: Link先を確認
Guangyuan Liu, Nguyen Van Huynh, Hongyang Du, Dinh Thai Hoang, Dusit Niyato, Kun Zhu, Jiawen Kang, Zehui Xiong, Abbas Jamalipour, Dong In Kim(参考訳) 人工知能(AI)とロボティクスの最近の進歩により、人間による実行が困難で危険なサービスを提供する可能性から、無人の車両群は学術と産業の両方から大きな注目を集めている。 しかし、複雑な環境や動的環境における多数の無人車両の動きと行動の学習と調整は、従来のAI手法に重大な課題をもたらす。 複雑なデータの特徴抽出、変換、拡張機能を備えた生成AI(GAI)は、無人車両群におけるこれらの課題を解決する大きな可能性を秘めている。 そこで本研究では,無人車両群におけるGAIの適用,課題,可能性に関する総合的な調査を行う。 具体的には、まず、無人車両と無人車両群の概要と、その使用事例と既存の問題について概説する。 そして、各種GAI技術の奥深くの背景と、無人車両群を増強する能力が提供される。 その後,無人車両群におけるGAIの適用状況と課題について,さまざまな知見と議論を加えて概説する。 最後に、無人車両群におけるGAIのオープンな課題を強調し、今後の研究方向性について論じる。

With recent advances in artificial intelligence (AI) and robotics, unmanned vehicle swarms have received great attention from both academia and industry due to their potential to provide services that are difficult and dangerous to perform by humans. However, learning and coordinating movements and actions for a large number of unmanned vehicles in complex and dynamic environments introduce significant challenges to conventional AI methods. Generative AI (GAI), with its capabilities in complex data feature extraction, transformation, and enhancement, offers great potential in solving these challenges of unmanned vehicle swarms. For that, this paper aims to provide a comprehensive survey on applications, challenges, and opportunities of GAI in unmanned vehicle swarms. Specifically, we first present an overview of unmanned vehicles and unmanned vehicle swarms as well as their use cases and existing issues. Then, an in-depth background of various GAI techniques together with their capabilities in enhancing unmanned vehicle swarms are provided. After that, we present a comprehensive review on the applications and challenges of GAI in unmanned vehicle swarms with various insights and discussions. Finally, we highlight open issues of GAI in unmanned vehicle swarms and discuss potential research directions.
翻訳日:2024-02-29 16:16:09 公開日:2024-02-28
# ゼロショット分類タスクにおける銀標準データを用いた情報抽出

On the use of Silver Standard Data for Zero-shot Classification Tasks in Information Extraction ( http://arxiv.org/abs/2402.18061v1 )

ライセンス: Link先を確認
Jianwei Wang, Tianyin Wang, Ziqian Zeng(参考訳) 情報抽出(IE)領域における教師付き分類手法の優れた性能は、大量の金標準データに大きく依存している。 最近のゼロショット分類法では、タスクを他のNLPタスク(例えば、テキストのエンターメント)に変換し、これらのNLPタスクのオフザシェルフモデルを使用して、大量のIEアノテーションデータを使用することなく、テストデータに直接推論を行う。 これらの手法の潜在的に価値のある副産物は、大規模な銀標準データ、すなわち他のNLPタスクのオフザシェルフモデルによる擬似ラベル付きデータである。 しかし、これらのデータの使用に関するさらなる調査は行われていない。 本稿では,銀標準データを利用したゼロショット性能向上を目的とした新しいフレームワークであるClean-LaVeを提案する。 clean-LaVeは、(1)銀データを取得すること、(2)銀データから比較的きれいなデータを識別すること、(3)クリーンデータを用いて市販のモデルを微調整すること、(4)テストデータに対する推論である。 実験結果から,ゼロショット関係分類タスクではTACREDおよびWiki80データセットで5%,6%,ゼロショット間関係分類タスクではスマイル(韓国とポーランド)では3%-7%,ゼロショットイベント引数分類タスクではACE05-E+で8%,ベースラインでは6%を達成できた。 コードはhttps://github.com/wjw136/clean_lave.gitで共有される。

The superior performance of supervised classification methods in the information extraction (IE) area heavily relies on a large amount of gold standard data. Recent zero-shot classification methods converted the task to other NLP tasks (e.g., textual entailment) and used off-the-shelf models of these NLP tasks to directly perform inference on the test data without using a large amount of IE annotation data. A potentially valuable by-product of these methods is the large-scale silver standard data, i.e., pseudo-labeled data by the off-the-shelf models of other NLP tasks. However, there is no further investigation into the use of these data. In this paper, we propose a new framework, Clean-LaVe, which aims to utilize silver standard data to enhance the zero-shot performance. Clean-LaVe includes four phases: (1) Obtaining silver data; (2) Identifying relatively clean data from silver data; (3) Finetuning the off-the-shelf model using clean data; (4) Inference on the test data. The experimental results show that Clean-LaVe can outperform the baseline by 5% and 6% on TACRED and Wiki80 dataset in the zero-shot relation classification task, and by 3%-7% on Smile (Korean and Polish) in the zero-shot cross-lingual relation classification task, and by 8% on ACE05-E+ in the zero-shot event argument classification task. The code is share in https://github.com/wjw136/Clean_LaVe.git.
翻訳日:2024-02-29 16:15:51 公開日:2024-02-28
# 医学的疑問への回答と説明に関する大規模言語モデルのベンチマーク

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions ( http://arxiv.org/abs/2402.18060v1 )

ライセンス: Link先を確認
Hanjie Chen, Zhouxiang Fang, Yash Singla, Mark Dredze(参考訳) LLMは、医療免許試験に合格するなど、医療上の問題に答える上で、素晴らしいパフォーマンスを示している。 しかし、既存のベンチマークのほとんどは試験の質問や一般的な医学的な質問に依存しており、現実的な臨床症例の複雑さを捉えるには不足している。 さらに, 参照説明の欠如は, 複雑な医学的判断を下す上で, 医師を支援する上で重要なモデル説明の評価を妨げている。 これらの課題に対処するため、JAMA Clinical ChallengeとMedbulletsという2つの新しいデータセットを構築した。 jama clinical challengeは挑戦的な臨床症例に基づく質問から成り、medbulletsはusmle step 2&3スタイルの臨床質問からなる。 どちらのデータセットも、専門家が記述した説明を伴う複数の質問回答タスクとして構成されている。 異なるプロンプトを用いて2つのデータセット上で4つのLSMを評価する。 実験では、データセットが以前のベンチマークよりも難しいことが示されています。 モデル生成説明の自動評価と人的評価の矛盾は、説明可能な医療QAに関する将来の研究を支援するために、新しいメトリクスを開発する必要性を浮き彫りにする。

LLMs have demonstrated impressive performance in answering medical questions, such as passing medical licensing examinations. However, most existing benchmarks rely on board exam questions or general medical questions, falling short in capturing the complexity of realistic clinical cases. Moreover, the lack of reference explanations for answers hampers the evaluation of model explanations, which are crucial to supporting doctors in making complex medical decisions. To address these challenges, we construct two new datasets: JAMA Clinical Challenge and Medbullets. JAMA Clinical Challenge consists of questions based on challenging clinical cases, while Medbullets comprises USMLE Step 2&3 style clinical questions. Both datasets are structured as multiple-choice question-answering tasks, where each question is accompanied by an expert-written explanation. We evaluate four LLMs on the two datasets using various prompts. Experiments demonstrate that our datasets are harder than previous benchmarks. The inconsistency between automatic and human evaluations of model-generated explanations highlights the need to develop new metrics to support future research on explainable medical QA.
翻訳日:2024-02-29 16:15:19 公開日:2024-02-28
# 大規模言語モデルの検出性とセマンティックコヒーレンスを向上したトークン特有な透かし

Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models ( http://arxiv.org/abs/2402.18059v1 )

ライセンス: Link先を確認
Mingjia Huo, Sai Ashish Somayajula, Youwei Liang, Ruisi Zhang, Farinaz Koushanfar, Pengtao Xie(参考訳) 大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成し、AI生成テキストと人文テキストを区別することで、規制の必要性を強調する。 ウォーターマーキングは、LLM推論フェーズ中にテキストに隠れたマーカーを埋め込むという文脈において重要な役割を担っている。 しかし、現在の透かしアルゴリズムは、挿入された透かしの検出可能性と生成されたテキストのセマンティックな整合性の両方を達成するという課題に直面している。 そこで本研究では,軽量ネットワークを用いてトークン特異的なウォーターマーキングロジットと分割比率を生成する,新しい多目的最適化(moo)手法を提案する。 本手法は,MOOを利用して検出性と意味的目的関数の両方を最適化することにより,検出性と意味的整合性を同時に達成する。 実験結果から,本手法は,LLMが生成するテキストのセマンティックコヒーレンスを維持しつつ,検出可能性を高めるために,現在の透かし技術よりも優れていることがわかった。 私たちのコードはhttps://github.com/mignonjia/TS_watermarkで利用可能です。

Large language models generate high-quality responses with potential misinformation, underscoring the need for regulation by distinguishing AI-generated and human-written texts. Watermarking is pivotal in this context, which involves embedding hidden markers in texts during the LLM inference phase, which is imperceptible to humans. Current watermarking algorithms, however, face the challenge of achieving both the detectability of inserted watermarks and the semantic integrity of generated texts, where enhancing one aspect often undermines the other. To overcome this, we introduce a novel multi-objective optimization (MOO) approach for watermarking that utilizes lightweight networks to generate token-specific watermarking logits and splitting ratios. By leveraging MOO to optimize for both detection and semantic objective functions, our method simultaneously achieves detectability and semantic integrity. Experimental results show that our method outperforms current watermarking techniques in enhancing the detectability of texts generated by LLMs while maintaining their semantic coherence. Our code is available at https://github.com/mignonjia/TS_watermark .
翻訳日:2024-02-29 16:14:59 公開日:2024-02-28
# フォトニック集積回路におけるスケーラブルな空洞型スピン光子界面

A scalable cavity-based spin-photon interface in a photonic integrated circuit ( http://arxiv.org/abs/2402.18057v1 )

ライセンス: Link先を確認
Kevin C. Chen, Ian Christen, Hamza Raniwala, Marco Colangelo, Lorenzo De Santis, Katia Shtyrkova, David Starling, Ryan Murphy, Linsen Li, Karl Berggren, P. Benjamin Dixon, Matthew Trusheim, Dirk Englund(参考訳) 量子ネットワークにおける中心的な課題は、飛行するフォトニック量子ビットと静止量子メモリの間の様々な物理モード間で量子状態の転送である。 1つの実装は、ダイヤモンド中の色中心のような固体スピン量子ビットとフォトニックナノ構造を結合したスピン光子インターフェースを使用する。 しかし、高忠実度スピン光子相互作用は孤立したデバイスで実証されているが、実用的な量子リピータを構築するには、多くのインターフェースにスケールする必要がある。 本稿では,光電子集積回路(PIC)におけるスズ空洞(SnV)中心を含むナノフォトニックキャビティの統合を実証する。 6チャンネルの量子マイクロチップ(QMC)のうち、平均パーセル係数が7の4つの結合SnVキャビティデバイスが見つかった。 システム解析と数値シミュレーションに基づいて、この多重化アーキテクチャにより高忠実度量子状態伝達が可能となり、大規模量子リピータ構築への道が開かれた。

A central challenge in quantum networking is transferring quantum states between different physical modalities, such as between flying photonic qubits and stationary quantum memories. One implementation entails using spin-photon interfaces that combine solid-state spin qubits, such as color centers in diamond, with photonic nanostructures. However, while high-fidelity spin-photon interactions have been demonstrated on isolated devices, building practical quantum repeaters requires scaling to large numbers of interfaces yet to be realized. Here, we demonstrate integration of nanophotonic cavities containing tin-vacancy (SnV) centers in a photonic integrated circuit (PIC). Out of a six-channel quantum micro-chiplet (QMC), we find four coupled SnV-cavity devices with an average Purcell factor of ~7. Based on system analyses and numerical simulations, we find with near-term improvements this multiplexed architecture can enable high-fidelity quantum state transfer, paving the way towards building large-scale quantum repeaters.
翻訳日:2024-02-29 16:14:38 公開日:2024-02-28
# 生成した引用テキストの文脈化

Contextualizing Generated Citation Texts ( http://arxiv.org/abs/2402.18054v1 )

ライセンス: Link先を確認
Biswadip Mandal, Xiangci Li, Jessica Ouyang(参考訳) 抽象的引用テキスト生成は、通常、参照用紙とターゲット周辺のコンテキストウインドウに与えられた引用を生成するためにシーケンス・ツー・シーケンスモデルが訓練されるインフィルディングタスクとして構成される。 しかし,最近のledを用いた引用生成システムでは,生成した引用の多くは参照論文の汎用要約であり,引用文脈が異なる話題に焦点を合わせることを無視していることがわかった。 この問題に対処するために,生成対象は引用そのものだけではなく,対象の引用を含むコンテキストウィンドウ全体である,引用テキスト生成タスクの簡単な修正を提案する。 この手法は, 抽象的な引用生成システムにも容易に適用でき, 実験結果から, この方法でのトレーニングが人間の読者に好まれることを示すとともに, 生成モデルが議論すべきトピックや取るべきスタンスについて, 文脈的手がかりを活用できることが示唆された。

Abstractive citation text generation is usually framed as an infilling task, where a sequence-to-sequence model is trained to generate a citation given a reference paper and the context window around the target; the generated citation should be a brief discussion of the reference paper as it relates to the citing context. However, examining a recent LED-based citation generation system, we find that many of the generated citations are generic summaries of the reference papers main contribution, ignoring the citation contexts focus on a different topic. To address this problem, we propose a simple modification to the citation text generation task: the generation target is not only the citation itself, but the entire context window, including the target citation. This approach can be easily applied to any abstractive citation generation system, and our experimental results show that training in this way is preferred by human readers and allows the generation model to make use of contextual clues about what topic to discuss and what stance to take.
翻訳日:2024-02-29 16:14:20 公開日:2024-02-28
# 薄膜単結晶ニオブ共振器におけるエッチの影響

Impact of etches on thin-film single-crystal niobium resonators ( http://arxiv.org/abs/2402.18051v1 )

ライセンス: Link先を確認
H. Wang, T. Banerjee, T.G. Farinha, A.T. Hanbicki, V. Fatemi, B.S. Palmer, C.J.K. Richardson(参考訳) 単結晶ニオブ薄膜をc面サファイアウェハ上に分子線エピタキシーにより成長させた。 マイクロファブリケーション法と溶媒清浄法を用いていくつかの試料を直流比抵抗試験装置とコプラナー導波路共振器チップに作製した。 次に, ピラニア, フッ化水素酸, 緩衝酸化物エッチング溶液の異なる組み合わせを用いて, 異なる酸洗浄処理を行った。 各試料は, 常温および超伝導状態におけるdc比の変化を示し, 低温比が100\%以上変化し, 残留比が2。 5〜GHz付近で測定されたコプラナー導波路共振器の内部品質係数も1.4$\times 10^6$から60$\times 10^3$まで大きな変化を示した。 これらの変化は炭化水素と思われる表面結晶の形成と相関している。 すべての観測は、水素化ニオブの観察に必要な飽和しきい値以下でニオブ膜に拡散する水素と一致している。

A single crystal niobium thin film was grown using molecular beam epitaxy on a c-plane sapphire wafer. Several samples were fabricated into dc resistivity test devices and coplanar waveguide resonator chips using the same microfabrication procedures and solvent cleans. The samples were then subject to different acid cleaning treatments using different combinations of piranha, hydrofluoric acid, and buffered oxide etch solutions. The different samples expressed changes in dc resistivity in the normal and superconducting states such that the low temperature resistivities changed by more than 100\%, and the residual resistivity ratio dropped by a factor of 2. The internal quality factor of coplanar waveguide resonators measured near 5~GHz also showed significant variation at single photon powers ranging from 1.4$\times 10^6$ to less than 60$\times 10^3$. These changes correlate with the formation of surface crystallites that appear to be hydrocarbons. All observations are consistent with hydrogen diffusing into the niobium film at levels below the saturation threshold that is needed to observe niobium hydrides.
翻訳日:2024-02-29 16:14:02 公開日:2024-02-28
# MEGAnno+: 人間-LLM協調アノテーションシステム

MEGAnno+: A Human-LLM Collaborative Annotation System ( http://arxiv.org/abs/2402.18050v1 )

ライセンス: Link先を確認
Hannah Kim, Kushan Mitra, Rafael Li Chen, Sajjadur Rahman, Dan Zhang(参考訳) 大規模言語モデル(LLM)は、さまざまなNLPタスクにおいて、人間よりも高速で安価にデータをラベル付けすることができる。 それらの長所にもかかわらず、LLMは複雑な、社会文化的、あるいはドメイン固有の文脈の理解に乏しくなり、誤ったアノテーションにつながる可能性がある。 そこで我々は,人間とLLMが協力して,信頼性と高品質のラベルを作成する,協調的なアプローチを提唱する。 我々は,有効なLLMエージェントとアノテーション管理,便利で堅牢なLLMアノテーション,および人間によるLLMラベルの探索的検証を提供する,人間-LLM協調アノテーションシステムMEGAnno+を提案する。

Large language models (LLMs) can label data faster and cheaper than humans for various NLP tasks. Despite their prowess, LLMs may fall short in understanding of complex, sociocultural, or domain-specific context, potentially leading to incorrect annotations. Therefore, we advocate a collaborative approach where humans and LLMs work together to produce reliable and high-quality labels. We present MEGAnno+, a human-LLM collaborative annotation system that offers effective LLM agent and annotation management, convenient and robust LLM annotation, and exploratory verification of LLM labels by humans.
翻訳日:2024-02-29 16:13:43 公開日:2024-02-28
# 局所内在次元を持つ大規模言語モデル生成における真性の特徴

Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension ( http://arxiv.org/abs/2402.18048v1 )

ライセンス: Link先を確認
Fan Yin, Jayanth Srinivasa, Kai-Wei Chang(参考訳) 我々は,人間とLLMの信頼関係を構築する上で重要なステップとなる,大規模言語モデル(LLM)から生成したテキストの真偽を特徴づけ,予測する方法を研究する。 モデル予測のキャリブレーションにはエントロピーや言語的不確実性に基づくいくつかの手法が提案されているが、これらの手法はしばしば難解であり、ハイパーパラメータに敏感であり、LLMを用いた生成タスクに適用した場合の信頼性は低い。 本稿では,モデルアクティベーションの局所固有次元(LID)を用いて,内部アクティベーションを調査し,LLMの真偽を定量化する。 4つの質問応答(QA)データセットの実験を通じて,提案手法の有効性を実証した。 さらに, LLMの内在次元とモデル層との関係, 自己回帰言語モデリング, およびLLMの訓練について検討し, 内在次元がLLMを理解するための強力なアプローチであることを明らかにする。

We study how to characterize and predict the truthfulness of texts generated from large language models (LLMs), which serves as a crucial step in building trust between humans and LLMs. Although several approaches based on entropy or verbalized uncertainty have been proposed to calibrate model predictions, these methods are often intractable, sensitive to hyperparameters, and less reliable when applied in generative tasks with LLMs. In this paper, we suggest investigating internal activations and quantifying LLM's truthfulness using the local intrinsic dimension (LID) of model activations. Through experiments on four question answering (QA) datasets, we demonstrate the effectiveness ohttps://info.arxiv.org/help/prep#abstractsf our proposed method. Additionally, we study intrinsic dimensions in LLMs and their relations with model layers, autoregressive language modeling, and the training of LLMs, revealing that intrinsic dimensions can be a powerful approach to understanding LLMs.
翻訳日:2024-02-29 16:13:31 公開日:2024-02-28
# Hero Ibashの遺産を保存する - アミノ酸の4つの言語モデルの評価

Saving the legacy of Hero Ibash: Evaluating Four Language Models for Aminoacian ( http://arxiv.org/abs/2402.18121v1 )

ライセンス: Link先を確認
Yunze Xiao and Yiyang Pan(参考訳) 本研究は,未探索のアミノ酸言語における4つの最先端言語モデルを評価する。 評価を通じて、テキスト生成、セマンティックコヒーレンス、文脈理解における適応性、有効性、限界を精査する。 この研究は、低リソース言語におけるこれらのモデルの性能に関する洞察を明らかにし、言語的ギャップを埋める経路を開拓した。 ベンチマークと理解の課題を提供することで、自然言語処理の今後の進歩の基盤を築き、同様の言語環境における言語モデルの適用性を高め、言語技術の傾きと進歩に向けた重要なステップを示す。

This study assesses four cutting-edge language models in the underexplored Aminoacian language. Through evaluation, it scrutinizes their adaptability, effectiveness, and limitations in text generation, semantic coherence, and contextual understanding. Uncovering insights into these models' performance in a low-resourced language, this research pioneers pathways to bridge linguistic gaps. By offering benchmarks and understanding challenges, it lays groundwork for future advancements in natural language processing, aiming to elevate the applicability of language models in similar linguistic landscapes, marking a significant step toward inclusivity and progress in language technology.
翻訳日:2024-02-29 16:08:41 公開日:2024-02-28
# 大規模言語モデルにおける多言語人間の価値概念の探索: 価値アライメントは一貫性があり、伝達可能で、言語間で制御可能であるか?

Exploring Multilingual Human Value Concepts in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? ( http://arxiv.org/abs/2402.18120v1 )

ライセンス: Link先を確認
Shaoyang Xu, Weilong Dong, Zishan Guo, Xinwei Wu, Deyi Xiong(参考訳) 表現工学における以前の研究により、LLMは表現空間の概念を符号化し、主に英語を中心にしていることが明らかになった。 本研究では,この哲学を多言語シナリオに拡張し,llmにおける多言語人的価値概念に展開する。 7種類の人的価値、16の言語、3のLLMシリーズを網羅的に調査し、LLMにおける多言語人的価値の存在を実証的に裏付けた。 これらの概念のさらなる言語間比較分析により、言語資源の相違から生じる3つの特徴:言語間非一貫性、歪んだ言語関係、そして、ハイソース言語とローソース言語間の一方向言語間移動、全て人間の価値概念の観点から明らかにされる。 さらに,llmの値アライメント能力に対する言語間制御の実現可能性を検証するとともに,主要な言語をソース言語として活用する。 本研究は,多言語値アライメントに関する知見から,LLMの事前学習のための多言語データの構成について,過剰な頻度を回避しつつ,言語間アライメント転送のための支配言語を限定的に含むとともに,非支配言語のバランスの取れた分布を維持することを提案する。 私たちは、この発見が多言語AIの安全性と実用性の向上に寄与することを期待しています。

Prior research in representation engineering has revealed that LLMs encode concepts within their representation spaces, predominantly centered around English. In this study, we extend this philosophy to a multilingual scenario, delving into multilingual human value concepts in LLMs. Through our comprehensive exploration covering 7 types of human values, 16 languages and 3 LLM series with distinct multilinguality, we empirically substantiate the existence of multilingual human values in LLMs. Further cross-lingual analysis on these concepts discloses 3 traits arising from language resource disparities: cross-lingual inconsistency, distorted linguistic relationships, and unidirectional cross-lingual transfer between high- and low-resource languages, all in terms of human value concepts. Additionally, we validate the feasibility of cross-lingual control over value alignment capabilities of LLMs, leveraging the dominant language as a source language. Drawing from our findings on multilingual value alignment, we prudently provide suggestions on the composition of multilingual data for LLMs pre-training: including a limited number of dominant languages for cross-lingual alignment transfer while avoiding their excessive prevalence, and keeping a balanced distribution of non-dominant languages. We aspire that our findings would contribute to enhancing the safety and utility of multilingual AI.
翻訳日:2024-02-29 16:08:31 公開日:2024-02-28
# PRCL:半教師付きセマンティックセグメンテーションのための確率的表現コントラスト学習

PRCL: Probabilistic Representation Contrastive Learning for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2402.18117v1 )

ライセンス: Link先を確認
Haoyu Xie, Changqi Wang, Jian Zhao, Yang Liu, Jun Dan, Chong Fu, Baigui Sun(参考訳) セミスーパービジョンセマンティックセマンティックセグメンテーション (S4) において、コントラスト学習を通じて、トレメンダスブレークスルーが開発された。 しかし、アノテーションが限られているため、ラベルなし画像のガイダンスはモデル自体によって生成され、必然的にノイズが存在し、教師なしのトレーニングプロセスが妨害される。 この問題に対処するため,我々は,教師なし学習プロセスのロバスト性を高めるために,確率的表現コントラスト学習(prcl)フレームワークと呼ばれる,ロバストなコントラストベースのs4フレームワークを提案する。 我々は,多変量ガウス分布による確率的表現(pr)として画素分割表現をモデル化し,あいまいな表現の寄与を調整し,対照学習における不正確な指導のリスクを許容する。 さらに,全トレーニングプロセスを通じて全prを収集し,グローバル配布プロトタイプ(gdp)を導入する。 GDPは、同じクラスを持つすべての表現の情報を含むため、表現の瞬時ノイズから頑健であり、表現のクラス内分散を負う。 さらに、GDPに基づく仮想否定(VN)を生成し、対照的な学習プロセスを含む。 2つの公開ベンチマークに関する大規模な実験は、我々のPRCLフレームワークの優位性を示している。

Tremendous breakthroughs have been developed in Semi-Supervised Semantic Segmentation (S4) through contrastive learning. However, due to limited annotations, the guidance on unlabeled images is generated by the model itself, which inevitably exists noise and disturbs the unsupervised training process. To address this issue, we propose a robust contrastive-based S4 framework, termed the Probabilistic Representation Contrastive Learning (PRCL) framework to enhance the robustness of the unsupervised training process. We model the pixel-wise representation as Probabilistic Representations (PR) via multivariate Gaussian distribution and tune the contribution of the ambiguous representations to tolerate the risk of inaccurate guidance in contrastive learning. Furthermore, we introduce Global Distribution Prototypes (GDP) by gathering all PRs throughout the whole training process. Since the GDP contains the information of all representations with the same class, it is robust from the instant noise in representations and bears the intra-class variance of representations. In addition, we generate Virtual Negatives (VNs) based on GDP to involve the contrastive learning process. Extensive experiments on two public benchmarks demonstrate the superiority of our PRCL framework.
翻訳日:2024-02-29 16:08:04 公開日:2024-02-28
# ブロックとディテール:スキャフォールディングスケッチから画像への生成

Block and Detail: Scaffolding Sketch-to-Image Generation ( http://arxiv.org/abs/2402.18116v1 )

ライセンス: Link先を確認
Vishnu Sarukkai, Lu Yuan, Mia Tang, Maneesh Agrawala, Kayvon Fatahalian(参考訳) 本稿では,アーティストの反復的リファインメントプロセスに適合する新しいスケッチ・ツー・イメージツールを提案する。 私たちのツールは、ブロッキングストロークをスケッチしてオブジェクトの配置や形を粗く表現し、ディテールストロークを使って形やシルエットを洗練します。 反復過程において,そのようなスケッチから高忠実度画像を生成する2パスアルゴリズムを開発した。 最初のパスでは、コントロールネットを使用して、すべてのストローク(ブロックと詳細)を厳格に追従するイメージを生成します。 また,コントロールネットアーキテクチャのトレーニングに使用すると,ストロークを含まない領域が空空間ではなく,非指定領域として解釈されるように,データセット生成スキームを提案する。 この部分スケッチ認識制御ネットは,少数のストロークのみを含む部分スケッチからコヒーレントな要素を生成することができる。 提案手法により得られた高忠実度画像は,オブジェクトの形状や比率を調整したり,合成に付加的な要素を加えるのに役立つ足場として機能する。 提案手法の有効性を,様々な実例と評価比較を用いて示す。

We introduce a novel sketch-to-image tool that aligns with the iterative refinement process of artists. Our tool lets users sketch blocking strokes to coarsely represent the placement and form of objects and detail strokes to refine their shape and silhouettes. We develop a two-pass algorithm for generating high-fidelity images from such sketches at any point in the iterative process. In the first pass we use a ControlNet to generate an image that strictly follows all the strokes (blocking and detail) and in the second pass we add variation by renoising regions surrounding blocking strokes. We also present a dataset generation scheme that, when used to train a ControlNet architecture, allows regions that do not contain strokes to be interpreted as not-yet-specified regions rather than empty space. We show that this partial-sketch-aware ControlNet can generate coherent elements from partial sketches that only contain a small number of strokes. The high-fidelity images produced by our approach serve as scaffolds that can help the user adjust the shape and proportions of objects or add additional elements to the composition. We demonstrate the effectiveness of our approach with a variety of examples and evaluative comparisons.
翻訳日:2024-02-29 16:07:44 公開日:2024-02-28
# UniVS: Promptをクエリとして統合されたユニバーサルビデオセグメンテーション

UniVS: Unified and Universal Video Segmentation with Prompts as Queries ( http://arxiv.org/abs/2402.18115v1 )

ライセンス: Link先を確認
Minghan Li and Shuai Li and Xindong Zhang and Lei Zhang(参考訳) 統合画像分割(IS)の最近の進歩にもかかわらず、統合ビデオ分割(VS)モデルの開発は依然として課題である。 これは主に、一般的なカテゴリ指定のVSタスクがすべてのオブジェクトを検出し、連続するフレームをまたいで追跡する必要があるのに対して、プロンプト誘導のVSタスクは、ビデオ全体を通して視覚/テキストプロンプトでターゲットを再識別する必要があるため、異なるタスクを同じアーキテクチャで扱うのが難しくなるためである。 これらの問題に対処し、クエリとしてプロンプトを使用することで、新しい統合VSアーキテクチャ、すなわちUniVSを提案する。 UniVSは、マスクを明示的にデコードするための初期クエリとして、以前のフレームからターゲットのプロンプト機能を平均化し、マスクデコーダにターゲットワイドプロンプトのクロスアテンション層を導入して、メモリプールにプロンプト機能を統合する。 以前のフレームから予測されたエンティティのマスクを視覚的なプロンプトとすることで、UniVSは異なるVSタスクをプロンプト誘導されたターゲットセグメンテーションに変換し、ヒューリスティックなフレーム間マッチングプロセスを排除する。 我々のフレームワークは、異なるVSタスクを統一するだけでなく、自然に普遍的なトレーニングとテストを実現し、異なるシナリオ間で堅牢なパフォーマンスを保証する。 univsは、ビデオインスタンス、semantic、panoptic、object、およびセグメンテーションタスクを参照する10のチャレンジvsベンチマークで、パフォーマンスと普遍性のバランスを示す。 コードは \url{https://github.com/MinghanLi/UniVS} で見ることができる。

Despite the recent advances in unified image segmentation (IS), developing a unified video segmentation (VS) model remains a challenge. This is mainly because generic category-specified VS tasks need to detect all objects and track them across consecutive frames, while prompt-guided VS tasks require re-identifying the target with visual/text prompts throughout the entire video, making it hard to handle the different tasks with the same architecture. We make an attempt to address these issues and present a novel unified VS architecture, namely UniVS, by using prompts as queries. UniVS averages the prompt features of the target from previous frames as its initial query to explicitly decode masks, and introduces a target-wise prompt cross-attention layer in the mask decoder to integrate prompt features in the memory pool. By taking the predicted masks of entities from previous frames as their visual prompts, UniVS converts different VS tasks into prompt-guided target segmentation, eliminating the heuristic inter-frame matching process. Our framework not only unifies the different VS tasks but also naturally achieves universal training and testing, ensuring robust performance across different scenarios. UniVS shows a commendable balance between performance and universality on 10 challenging VS benchmarks, covering video instance, semantic, panoptic, object, and referring segmentation tasks. Code can be found at \url{https://github.com/MinghanLi/UniVS}.
翻訳日:2024-02-29 16:07:21 公開日:2024-02-28
# 小さいが面白い:ユーモア蒸留へのフィードバック駆動アプローチ

Small But Funny: A Feedback-Driven Approach to Humor Distillation ( http://arxiv.org/abs/2402.18113v1 )

ライセンス: Link先を確認
Sahithya Ravi, Patrick Huber, Akshat Shrivastava, Aditya Sagar, Ahmed Aly, Vered Shwartz, Arash Einolghozati(参考訳) 大規模言語モデル(LLM)の出現は、特に複雑な推論や創造的な記述のようなタスクの実行において、明るい将来性のある言語生成能力をもたらした。 その結果,LLMからSmall Language Models(SLM)へ知識を伝達する一般的な手法として,教師の反応の模倣による蒸留が出現した。 これは単純なタスクではうまく機能するが、ユーモア生成のような複雑な言語理解と創造性を必要とするタスクには、実質的なパフォーマンスギャップがある。 このギャップは、創造的なタスクが模倣だけでは学べないかもしれないという事実に起因し、教師の補助的な指導を含むアプローチがより高いパフォーマンスをもたらすかどうかを考察する。 そこで本研究では,LLMに2つの役割を付与する効果を「教師」が生成するデータとして,また,学生のパフォーマンスを評価する「批判的」として検討する。 ユーモア生成実験の結果,フィードバックを組み込むことで,単に模倣に頼ることに比べ,slmとより大きな競合製品のパフォーマンスギャップが著しく狭くなることが明らかとなった。 その結果, 蒸留による複雑な言語能力の伝達において, フィードバックをデータに付加的な次元として用いる可能性を強調した。

The emergence of Large Language Models (LLMs) has brought to light promising language generation capabilities, particularly in performing tasks like complex reasoning and creative writing. Consequently, distillation through imitation of teacher responses has emerged as a popular technique to transfer knowledge from LLMs to more accessible, Small Language Models (SLMs). While this works well for simpler tasks, there is a substantial performance gap on tasks requiring intricate language comprehension and creativity, such as humor generation. We hypothesize that this gap may stem from the fact that creative tasks might be hard to learn by imitation alone and explore whether an approach, involving supplementary guidance from the teacher, could yield higher performance. To address this, we study the effect of assigning a dual role to the LLM - as a "teacher" generating data, as well as a "critic" evaluating the student's performance. Our experiments on humor generation reveal that the incorporation of feedback significantly narrows the performance gap between SLMs and their larger counterparts compared to merely relying on imitation. As a result, our research highlights the potential of using feedback as an additional dimension to data when transferring complex language abilities via distillation.
翻訳日:2024-02-29 16:06:50 公開日:2024-02-28
# 単純だが効果的:fNIRSにおける深層学習による異常入力の排除能力の再考

Simple But Effective: Rethinking the Ability of Deep Learning in fNIRS to Exclude Abnormal Input ( http://arxiv.org/abs/2402.18112v1 )

ライセンス: Link先を確認
Zhihao Cao(参考訳) 機能近赤外分光法(FNIRS)は、脳活動を監視する非侵襲的手法である。 脳をよりよく理解するために、研究者は深層学習を用いてfNIRSデータの分類課題に対処する。 本研究は、fNIRSの現在のネットワークは、トレーニング分布内での予測に極めて正確であるが、分布外である異常データを識別・排除し、信頼性に影響を与えることを示唆している。 本稿では,fNIRS研究にメトリクス学習と教師あり手法を組み込むことにより,アウト・オブ・ディストリビューション・アウトレイラを識別・排除するネットワーク能力を向上させることを提案する。 この方法は単純だが有効である。 実験では,fNIRSにおける各種ネットワークの性能,特にトランスフォーマーベースのネットワークの性能を大幅に向上させ,信頼性の大幅な向上を示す。 実験データをgithubで公開します。

Functional near-infrared spectroscopy (fNIRS) is a non-invasive technique for monitoring brain activity. To better understand the brain, researchers often use deep learning to address the classification challenges of fNIRS data. Our study shows that while current networks in fNIRS are highly accurate for predictions within their training distribution, they falter at identifying and excluding abnormal data which is out-of-distribution, affecting their reliability. We propose integrating metric learning and supervised methods into fNIRS research to improve networks capability in identifying and excluding out-of-distribution outliers. This method is simple yet effective. In our experiments, it significantly enhances the performance of various networks in fNIRS, particularly transformer-based one, which shows the great improvement in reliability. We will make our experiment data available on GitHub.
翻訳日:2024-02-29 16:06:29 公開日:2024-02-28
# ユニバーサル画像マッチングのためのデュアルコンテキストアグリゲーション

Dual-Context Aggregation for Universal Image Matting ( http://arxiv.org/abs/2402.18109v1 )

ライセンス: Link先を確認
Qinglin Liu, Xiaoqian Lv, Wei Yu, Changyong Guo, Shengping Zhang(参考訳) 自然な画像マッチングは、ある画像から前景のアルファマットを推定することを目的としている。 クリックやトリマップなどのガイダンスを用いたインタラクティブなマッティング手法や,特定のオブジェクトに適した自動マッティング手法など,この問題に対処するためのさまざまなアプローチが検討されている。 しかし、既存のマッティングメソッドは特定のオブジェクトやガイダンス用に設計されており、画像マッティングにおいてグローバルおよびローカルコンテキストを集約するという共通の要件を無視している。 その結果、これらの手法は、前景を正確に識別し、正確な境界を生成し、予期せぬシナリオにおける有効性を制限している。 本稿では,dcam (d-context aggregation matting) と呼ばれる,任意の誘導を伴わないロバストなイメージマットリングを実現する,単純で普遍的なマットングフレームワークを提案する。 特に、DCAMは、まずセマンティックバックボーンネットワークを採用し、入力画像とガイダンスから低レベル特徴とコンテキスト特徴を抽出する。 次に,グローバルオブジェクトアグリゲータとローカルアグリゲータを統合し,抽出されたコンテキスト特徴を反復的に洗練するデュアルコンテキストアグリゲータネットワークを提案する。 グローバルな輪郭セグメンテーションと地域境界の洗練を両立させることにより、DCAMは様々な種類のガイダンスやオブジェクトに対して堅牢性を示す。 最後に,アルファマット推定のための低レベル機能と洗練されたコンテキスト機能を融合するために,mattingデコーダネットワークを採用する。 5つのマッティングデータセットの実験結果から,提案したDCAMは,DCAMの強い普遍性と高い性能を示す自動マッティングタスクと対話的マッティングタスクの両方において,最先端のマッティング手法よりも優れていることが示された。 ソースコードは \url{https://github.com/Windaway/DCAM} で入手できる。

Natural image matting aims to estimate the alpha matte of the foreground from a given image. Various approaches have been explored to address this problem, such as interactive matting methods that use guidance such as click or trimap, and automatic matting methods tailored to specific objects. However, existing matting methods are designed for specific objects or guidance, neglecting the common requirement of aggregating global and local contexts in image matting. As a result, these methods often encounter challenges in accurately identifying the foreground and generating precise boundaries, which limits their effectiveness in unforeseen scenarios. In this paper, we propose a simple and universal matting framework, named Dual-Context Aggregation Matting (DCAM), which enables robust image matting with arbitrary guidance or without guidance. Specifically, DCAM first adopts a semantic backbone network to extract low-level features and context features from the input image and guidance. Then, we introduce a dual-context aggregation network that incorporates global object aggregators and local appearance aggregators to iteratively refine the extracted context features. By performing both global contour segmentation and local boundary refinement, DCAM exhibits robustness to diverse types of guidance and objects. Finally, we adopt a matting decoder network to fuse the low-level features and the refined context features for alpha matte estimation. Experimental results on five matting datasets demonstrate that the proposed DCAM outperforms state-of-the-art matting methods in both automatic matting and interactive matting tasks, which highlights the strong universality and high performance of DCAM. The source code is available at \url{https://github.com/Windaway/DCAM}.
翻訳日:2024-02-29 16:06:13 公開日:2024-02-28
# 質問と回答:ディグライズとリコンストラクションによる少数のクエリにおける大規模言語モデルのジェイルブレーク

Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction ( http://arxiv.org/abs/2402.18104v1 )

ライセンス: Link先を確認
Tong Liu, Yingjie Zhang, Zhe Zhao, Yinpeng Dong, Guozhu Meng, Kai Chen(参考訳) 近年,大規模言語モデル (LLM) は様々なタスクにおいて顕著な成功を収めてきたが,LLMの信頼性は依然として未解決の問題である。 特定の脅威の1つは、有害または有害な反応を引き起こす可能性があることである。 攻撃者はLSMから有害な反応を引き起こす敵のプロンプトを作れます。 本研究では,DRA(Disguise and Restruction Attack)と呼ばれるブラックボックスジェイルブレイク法を設計し,偽装による有害な命令を隠蔽し,その完了時にオリジナルの有害な命令を再構築するようモデルに促すことにより,LLMのセキュリティの理論的基盤を開拓する。 我々は、さまざまなオープンソースおよびオープンソースモデルでDRAを評価し、最先端のジェイルブレイク成功率と攻撃効率を示す。 特に、DRAはLLMチャットボットのGPT-4に対する攻撃成功率は90%である。

In recent years, large language models (LLMs) have demonstrated notable success across various tasks, but the trustworthiness of LLMs is still an open problem. One specific threat is the potential to generate toxic or harmful responses. Attackers can craft adversarial prompts that induce harmful responses from LLMs. In this work, we pioneer a theoretical foundation in LLMs security by identifying bias vulnerabilities within the safety fine-tuning and design a black-box jailbreak method named DRA (Disguise and Reconstruction Attack), which conceals harmful instructions through disguise and prompts the model to reconstruct the original harmful instruction within its completion. We evaluate DRA across various open-source and close-source models, showcasing state-of-the-art jailbreak success rates and attack efficiency. Notably, DRA boasts a 90\% attack success rate on LLM chatbots GPT-4.
翻訳日:2024-02-29 16:05:41 公開日:2024-02-28
# パッシブスナップショット符号化アパーチャ2画素rgb-dイメージング

Passive Snapshot Coded Aperture Dual-Pixel RGB-D Imaging ( http://arxiv.org/abs/2402.18102v1 )

ライセンス: Link先を確認
Bhargav Ghanekar, Salman Siddique Khan, Vivek Boominathan, Pranav Sharma, Shreyas Singh, Kaushik Mitra, Ashok Veeraraghavan(参考訳) パッシブでコンパクトな、単発の3dセンシングは、顕微鏡、医用画像、外科的ナビゲーション、そしてフォームファクター、時間、電力制約が存在する自律運転など、多くの応用領域で有用である。 短い撮影距離、超コンパクトなフォームファクター、そして受動的でスナップショットな方法でRGB-Dシーン情報を取得することは困難である。 デュアルピクセル(dp)センサーは、これを実現する潜在的な解決策である。 DPセンサーは、レンズの2つの異なるハーフから2つのインターリーブピクセルアレイに光線を収集し、ステレオカメラシステムのようにシーンをわずかに異なる2つのビューで撮影する。 しかし,DPセンサによる画像化により,デフォーカスのぼかしサイズはビュー間の差に比例することがわかった。 これにより、格差推定とデブロアリングの精度のトレードオフが生じます。 このトレードオフ効果を改善するために、DPセンサとともに撮像レンズに符号化開口を用いるCADS(Coded Aperture Dual-Pixel Sensing)を提案する。 提案手法では,エンドツーエンドの最適化設定で最適な符号化パターンと再構成アルゴリズムを共同で学習する。 以上の結果から,全焦点推定(AIF)における$1.5dB PSNRの改善と,幅広い開口環境に対するDPセンシングによる深さ推定品質の5-6%の改善が示された。 さらに,提案するデジタル一眼レフ撮影用cadsプロトタイプを内視鏡と皮膚形態因子を用いて試作した。 我々の新しいデュアルピクセルセンシング手法は、シミュレーションや実世界の実験において、受動的、スナップショット、コンパクトな方法で正確なRGB-D再構成結果を示す。

Passive, compact, single-shot 3D sensing is useful in many application areas such as microscopy, medical imaging, surgical navigation, and autonomous driving where form factor, time, and power constraints can exist. Obtaining RGB-D scene information over a short imaging distance, in an ultra-compact form factor, and in a passive, snapshot manner is challenging. Dual-pixel (DP) sensors are a potential solution to achieve the same. DP sensors collect light rays from two different halves of the lens in two interleaved pixel arrays, thus capturing two slightly different views of the scene, like a stereo camera system. However, imaging with a DP sensor implies that the defocus blur size is directly proportional to the disparity seen between the views. This creates a trade-off between disparity estimation vs. deblurring accuracy. To improve this trade-off effect, we propose CADS (Coded Aperture Dual-Pixel Sensing), in which we use a coded aperture in the imaging lens along with a DP sensor. In our approach, we jointly learn an optimal coded pattern and the reconstruction algorithm in an end-to-end optimization setting. Our resulting CADS imaging system demonstrates improvement of $>$1.5dB PSNR in all-in-focus (AIF) estimates and 5-6% in depth estimation quality over naive DP sensing for a wide range of aperture settings. Furthermore, we build the proposed CADS prototypes for DSLR photography settings and in an endoscope and a dermoscope form factor. Our novel coded dual-pixel sensing approach demonstrates accurate RGB-D reconstruction results in simulations and real-world experiments in a passive, snapshot, and compact manner.
翻訳日:2024-02-29 16:05:22 公開日:2024-02-28
# 文法誤り訂正の有効性の評価 : 日本語文脈における人的評価アプローチ

Assessing the Efficacy of Grammar Error Correction: A Human Evaluation Approach in the Japanese Context ( http://arxiv.org/abs/2402.18101v1 )

ライセンス: Link先を確認
Qiao Wang and Zheng Yuan(参考訳) 本研究では,日本の大学生の筆記サンプルを用いて,最先端のタギング文法誤り検出・訂正モデル(SeqTagger)の性能評価を行った。 errantという自動アノテーションツールキットを用いて,ヒューマンエキスパートをベンチマークとして,エラー訂正におけるseqtaggerのパフォーマンスを最初に評価した。 次に、人間の注釈付きアプローチを用いて、書き込みデータセットのサブセットを使用して誤り検出におけるSeqtaggerのパフォーマンスを評価する。 その結果、全データセットにおける誤り訂正の精度は63.66%、リコールは20.19%であった。 セマンティクスやメカニカルなエラーのような無関係なエラーを手動で排除した後、モデルは97.98%の精度を調整し、エラー検出のために42.98%のリコールを調整した。 モデルで検出されなかった誤りの理論的解析により、決定者や記事、特に後者が主流であることが判明した。 特に、文脈に依存しないエラーの観点では、モデルは時々基本的なエラーを見落とし、過度に誤った構造や複雑な構造を持つ問題に直面した。 一方、文脈依存の誤り、特に時制や名詞数に関する誤りや、学生の第一言語(l1)に影響される可能性のある誤りは、特に困難であった。

In this study, we evaluated the performance of the state-of-the-art sequence tagging grammar error detection and correction model (SeqTagger) using Japanese university students' writing samples. With an automatic annotation toolkit, ERRANT, we first evaluated SeqTagger's performance on error correction with human expert correction as the benchmark. Then a human-annotated approach was adopted to evaluate Seqtagger's performance in error detection using a subset of the writing dataset. Results indicated a precision of 63.66% and a recall of 20.19% for error correction in the full dataset. For the subset, after manual exclusion of irrelevant errors such as semantic and mechanical ones, the model shows an adjusted precision of 97.98% and an adjusted recall of 42.98% for error detection, indicating the model's high accuracy but also its conservativeness. Thematic analysis on errors undetected by the model revealed that determiners and articles, especially the latter, were predominant. Specifically, in terms of context-independent errors, the model occasionally overlooked basic ones and faced challenges with overly erroneous or complex structures. Meanwhile, context-dependent errors, notably those related to tense and noun number, as well as those possibly influenced by the students' first language (L1), remained particularly challenging.
翻訳日:2024-02-29 16:04:52 公開日:2024-02-28
# 医療用大言語モデルのファクチュアル知識と説明能力の編集

Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models ( http://arxiv.org/abs/2402.18099v1 )

ライセンス: Link先を確認
Derong Xu, Ziheng Zhang, Zhihong Zhu, Zhenxi Lin, Qidong Liu, Xian Wu, Tong Xu, Xiangyu Zhao, Yefeng Zheng, Enhong Chen(参考訳) モデル編集の目的は、関係のない知識を維持しつつ、特定の知識に基づいて大きな言語モデル(LLM)の振る舞いを正確に修正することである。 LLMの幻覚や過去の問題の解決に有効であることが証明されている。 その結果、幻覚が許容できない多くの重要な領域(例えば医療領域)におけるLSMの応用を促進することができる。 本稿では,医療領域における2つのモデル編集研究を提案し,その妥当性を検証する。(1)医療知識を直接編集し,(2)説明を事実に編集する。 一方,現在のモデル編集手法は,医療知識の専門化と複雑化に苦慮している。 そこで我々は,医療モデル編集のための新しい階層型スケーラブルアダプタ戦略である medlasa を提案する。 因果追跡を用いてニューロン内の知識の正確な位置を特定し、LLMの密度の高い層にスケーラブルなアダプタを導入する。 これらのアダプタは、対応する特定の知識に基づいてスケーリング値を割り当てる。 編集の影響を評価するために、2つのベンチマークデータセットを構築し、挑戦的で包括的なメトリクスを紹介します。 医学LLMに関する大規模な実験は、編集されていない無関係な知識に影響を与えることなく、MedLaSAの編集効率を示す。

Model editing aims to precisely modify the behaviours of large language models (LLMs) on specific knowledge while keeping irrelevant knowledge unchanged. It has been proven effective in resolving hallucination and out-of-date issues in LLMs. As a result, it can boost the application of LLMs in many critical domains (e.g., medical domain), where the hallucination is not tolerable. In this paper, we propose two model editing studies and validate them in the medical domain: (1) directly editing the factual medical knowledge and (2) editing the explanations to facts. Meanwhile, we observed that current model editing methods struggle with the specialization and complexity of medical knowledge. Therefore, we propose MedLaSA, a novel Layer-wise Scalable Adapter strategy for medical model editing. It employs causal tracing to identify the precise location of knowledge in neurons and then introduces scalable adapters into the dense layers of LLMs. These adapters are assigned scaling values based on the corresponding specific knowledge. To evaluate the editing impact, we build two benchmark datasets and introduce a series of challenging and comprehensive metrics. Extensive experiments on medical LLMs demonstrate the editing efficiency of MedLaSA, without affecting irrelevant knowledge that is not edited.
翻訳日:2024-02-29 16:04:29 公開日:2024-02-28
# No Tokenが残る - 重要度対応混合精度量子化による信頼性の高いKVキャッシュ圧縮

No Token Left Behind: Reliable KV Cache Compression via Importance-Aware Mixed Precision Quantization ( http://arxiv.org/abs/2402.18096v1 )

ライセンス: Link先を確認
June Yong Yang, Byeongwook Kim, Jeongin Bae, Beomseok Kwon, Gunho Park, Eunho Yang, Se Jung Kwon, Dongsoo Lee(参考訳) キーバリューキャッシング(KV)は,生成型大規模言語モデル~(LLM)の推論速度とスループットを高速化する重要な手法となっている。 しかし、kvキャッシュのメモリフットプリントは、キャッシュサイズがバッチサイズとシーケンス長とともに大きくなるにつれて、llmデプロイメントにおいて重大なボトルネックとなり、しばしばモデル自体の大きさを超える。 近年,メモリ消費を減らすために重要でないkv対をキャッシュから選択・消去する手法が提案されているが,生成過程における退化の潜在的な分岐についてはまだ検討されていない。 本稿では,キャッシュ消去による有害な影響について検討し,KVペアに含まれる情報が徹底的に破棄され,安全性の侵害,幻覚,コンテキスト損失が生じることにより,予期せぬリスクが生じることを観察する。 意外なことに,KVペアに含まれる少量の情報さえも,精度の低下による保存が,劣化を著しく回復させることがわかった。 一方, 重要なkv対は, 生成品質を保護するため, 比較的高い精度で維持されなければならない。 これらの観測により,KVペアを低精度に保持し,重要なKVペアを高精度に保持することで生成品質を確保することにより,コンテキストの詳細を同時に保存する信頼性の高いキャッシュ圧縮手法である‘textit{Mixed-precision KV cache} ~(MiKV) を提案する。 各種ベンチマークとLCMバックボーンを用いた実験により,提案手法は圧縮比と性能のトレードオフを他のベースラインと比較できることを示した。

Key-Value (KV) Caching has become an essential technique for accelerating the inference speed and throughput of generative Large Language Models~(LLMs). However, the memory footprint of the KV cache poses a critical bottleneck in LLM deployment as the cache size grows with batch size and sequence length, often surpassing even the size of the model itself. Although recent methods were proposed to select and evict unimportant KV pairs from the cache to reduce memory consumption, the potential ramifications of eviction on the generative process are yet to be thoroughly examined. In this paper, we examine the detrimental impact of cache eviction and observe that unforeseen risks arise as the information contained in the KV pairs is exhaustively discarded, resulting in safety breaches, hallucinations, and context loss. Surprisingly, we find that preserving even a small amount of information contained in the evicted KV pairs via reduced precision quantization substantially recovers the incurred degradation. On the other hand, we observe that the important KV pairs must be kept at a relatively higher precision to safeguard the generation quality. Motivated by these observations, we propose \textit{Mixed-precision KV cache}~(MiKV), a reliable cache compression method that simultaneously preserves the context details by retaining the evicted KV pairs in low-precision and ensure generation quality by keeping the important KV pairs in high-precision. Experiments on diverse benchmarks and LLM backbones show that our proposed method offers a state-of-the-art trade-off between compression ratio and performance, compared to other baselines.
翻訳日:2024-02-29 16:04:10 公開日:2024-02-28
# コンテキスト認識型顔映像生成

Context-aware Talking Face Video Generation ( http://arxiv.org/abs/2402.18092v1 )

ライセンス: Link先を確認
Meidai Xuanyuan, Yuwang Wang, Honglei Guo, Qionghai Dai(参考訳) 本稿では, 対話型顔映像生成のための新しい, 実践的な事例について考察する。 具体的には,オーディエンスや周囲など,会話のコンテキストが存在するマルチパーソンインタラクションのシナリオに焦点を当てる。 これらの状況において、映像生成は、音声の駆動と自然に一致し、文脈に空間的に一貫性のある映像コンテンツを生成するために、文脈を考慮すべきである。 これを実現するために,我々は2段階のクロスモーダル制御可能なビデオ生成パイプラインを提供し,顔のランドマークを明示的でコンパクトな制御信号として,駆動音声,会話コンテキスト,生成ビデオの橋渡しを行う。 このパイプライン内では,空間的条件(ランドマークとコンテクストビデオ)と時間的コヒーレント生成のための音響条件の両方を効率的にコントルトできる3次元ビデオ拡散モデルが考案されている。 実験結果から,提案手法は他のベースラインよりも,オーディオとビデオの同期性,映像の忠実性,フレーム一貫性の点で有利性が検証された。

In this paper, we consider a novel and practical case for talking face video generation. Specifically, we focus on the scenarios involving multi-people interactions, where the talking context, such as audience or surroundings, is present. In these situations, the video generation should take the context into consideration in order to generate video content naturally aligned with driving audios and spatially coherent to the context. To achieve this, we provide a two-stage and cross-modal controllable video generation pipeline, taking facial landmarks as an explicit and compact control signal to bridge the driving audio, talking context and generated videos. Inside this pipeline, we devise a 3D video diffusion model, allowing for efficient contort of both spatial conditions (landmarks and context video), as well as audio condition for temporally coherent generation. The experimental results verify the advantage of the proposed method over other baselines in terms of audio-video synchronization, video fidelity and frame consistency.
翻訳日:2024-02-29 16:03:31 公開日:2024-02-28
# Polos:イメージキャプションのためのヒューマンフィードバックからのマルチモーダルメトリック学習

Polos: Multimodal Metric Learning from Human Feedback for Image Captioning ( http://arxiv.org/abs/2402.18091v1 )

ライセンス: Link先を確認
Yuiga Wada, Kanta Kaneda, Daichi Saito, Komei Sugiura(参考訳) 画像キャプションモデルの構築には,人間の判断と密接に連携する自動評価指標の確立が不可欠である。 近年のデータ駆動メトリクスは、CIDErのような古典的な指標よりも人間の判断と強い相関性を示しているが、画像キャプション評価とは無関係なタスクから学習した埋め込みを用いてのみスカラー類似性を計算するため、幻覚を処理したり、多様な画像やテキストにまたがって一般化する能力に欠ける。 本研究では,画像キャプションモデルの教師付き自動評価指標であるPoosを提案する。 Polosはマルチモーダル入力からのスコアを計算し、大規模なコントラスト学習を通じてトレーニングされた埋め込みを活用する並列特徴抽出メカニズムを使用する。 Polosをトレーニングするために、人間のフィードバックに基づくメトリクスを開発するためのフレームワークであるM$^2$LHF(Multimodal Metric Learning from Human Feedback)を紹介する。 550のエバリュエータから131kの人的判断を含むpolarisデータセットを構築し,標準データセットの約10倍の大きさとした。 提案手法は,Composite, Flickr8K-Expert, Flickr8K-CF, PASCAL-50S, FOIL, およびPolarisデータセット上での最先端性能を実現し, その有効性と堅牢性を示した。

Establishing an automatic evaluation metric that closely aligns with human judgments is essential for effectively developing image captioning models. Recent data-driven metrics have demonstrated a stronger correlation with human judgments than classic metrics such as CIDEr; however they lack sufficient capabilities to handle hallucinations and generalize across diverse images and texts partially because they compute scalar similarities merely using embeddings learned from tasks unrelated to image captioning evaluation. In this study, we propose Polos, a supervised automatic evaluation metric for image captioning models. Polos computes scores from multimodal inputs, using a parallel feature extraction mechanism that leverages embeddings trained through large-scale contrastive learning. To train Polos, we introduce Multimodal Metric Learning from Human Feedback (M$^2$LHF), a framework for developing metrics based on human feedback. We constructed the Polaris dataset, which comprises 131K human judgments from 550 evaluators, which is approximately ten times larger than standard datasets. Our approach achieved state-of-the-art performance on Composite, Flickr8K-Expert, Flickr8K-CF, PASCAL-50S, FOIL, and the Polaris dataset, thereby demonstrating its effectiveness and robustness.
翻訳日:2024-02-29 16:03:13 公開日:2024-02-28
# チャネル事前補正とガンマ補正による軽量低光画像強調ネットワーク

A Lightweight Low-Light Image Enhancement Network via Channel Prior and Gamma Correction ( http://arxiv.org/abs/2402.18147v1 )

ライセンス: Link先を確認
Shyang-En Weng, Shaou-Gang Miaou, Ricky Christanto(参考訳) 人間の視覚は、物体を知覚するために利用可能な環境光に大きく依存する。 低照度シーンには、照明不足による情報損失と望ましくない明るさシフトという2つの異なる課題がある。 低照度画像強調(LLIE)は、このシナリオに対処するための画像強調技術である。 我々は,暗黒チャネル先行と深層学習によるガンマ補正を組み合わせたLLIEネットワークであるCPGA-Netを導入し,大気散乱モデルとレチネックス理論に触発された特徴を統合する。 このアプローチは、基本的な特徴抽出に焦点を当てた、シンプルだが効率的なアーキテクチャフレームワーク内で設計された、伝統的およびディープラーニングの方法論の使用を組み合わせる。 その結果得られたcpga-netは、わずか0.025万パラメータと0.030秒の推論時間を持つ軽量ネットワークであるが、客観的および主観的評価基準において、既存のllie法よりも優れた性能を達成している。 さらに, 知識蒸留を説明可能な要素で利用し, パラメータ0.018万, 推論時間0.006秒の効率的なバージョンを提案した。 提案手法はllieに新しい解法を注入し、低照度シナリオへの実用的な応用を提供する。

Human vision relies heavily on available ambient light to perceive objects. Low-light scenes pose two distinct challenges: information loss due to insufficient illumination and undesirable brightness shifts. Low-light image enhancement (LLIE) refers to image enhancement technology tailored to handle this scenario. We introduce CPGA-Net, an innovative LLIE network that combines dark/bright channel priors and gamma correction via deep learning and integrates features inspired by the Atmospheric Scattering Model and the Retinex Theory. This approach combines the use of traditional and deep learning methodologies, designed within a simple yet efficient architectural framework that focuses on essential feature extraction. The resulting CPGA-Net is a lightweight network with only 0.025 million parameters and 0.030 seconds for inference time, yet it achieves superior performance over existing LLIE methods on both objective and subjective evaluation criteria. Furthermore, we utilized knowledge distillation with explainable factors and proposed an efficient version that achieves 0.018 million parameters and 0.006 seconds for inference time. The proposed approaches inject new solution ideas into LLIE, providing practical applications in challenging low-light scenarios.
翻訳日:2024-02-29 16:00:14 公開日:2024-02-28
# 3DSFLabelling:擬似オートラベリングによる3次元シーンフロー推定

3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling ( http://arxiv.org/abs/2402.18146v1 )

ライセンス: Link先を確認
Chaokang Jiang, Guangming Wang, Jiuming Liu, Hesheng Wang, Zhuang Ma, Zhenqiang Liu, Zhujin Liang, Yi Shan, Dalong Du(参考訳) LiDARポイントクラウドからの3Dシーンフローの学習は、合成データセットから実際のシーンへの一般化の欠如、現実の3Dラベルの不足、現実のスパースなLiDARポイントクラウドのパフォーマンスの低下など、大きな困難を呈している。 我々は,実世界のLiDAR点雲に対して,多数の3次元シーンフロー擬似ラベルを生成することを目的とした,自動ラベリングの観点から,新しいアプローチを提案する。 具体的には、自律走行シナリオにおける物体レベルの剛体運動をシミュレートするために剛体運動の仮定を用いる。 複数のアンカーボックスの異なる動作属性を更新することで、シーン全体に対して剛性のある動作分解が得られる。 さらに,グローバル・ローカル・モーションのための新しい3次元シーンフローデータ拡張手法を開発した。 拡張運動パラメータに基づいてターゲット点雲を完全合成することにより,実シナリオと高度に整合した点雲内に多数の3次元シーンフローラベルを容易に取得できる。 LiDAR KITTI、nuScenes、Argoverseなどの実世界の複数のデータセットでは、手動ラベリングを必要とせず、従来の教師なしおよび教師なしの手法よりも優れています。 印象的なことに,本手法はLiDAR KITTIデータセット上でのEPE3D測定を10倍に削減し,0.190mから0.008mに削減する。

Learning 3D scene flow from LiDAR point clouds presents significant difficulties, including poor generalization from synthetic datasets to real scenes, scarcity of real-world 3D labels, and poor performance on real sparse LiDAR point clouds. We present a novel approach from the perspective of auto-labelling, aiming to generate a large number of 3D scene flow pseudo labels for real-world LiDAR point clouds. Specifically, we employ the assumption of rigid body motion to simulate potential object-level rigid movements in autonomous driving scenarios. By updating different motion attributes for multiple anchor boxes, the rigid motion decomposition is obtained for the whole scene. Furthermore, we developed a novel 3D scene flow data augmentation method for global and local motion. By perfectly synthesizing target point clouds based on augmented motion parameters, we easily obtain lots of 3D scene flow labels in point clouds highly consistent with real scenarios. On multiple real-world datasets including LiDAR KITTI, nuScenes, and Argoverse, our method outperforms all previous supervised and unsupervised methods without requiring manual labelling. Impressively, our method achieves a tenfold reduction in EPE3D metric on the LiDAR KITTI dataset, reducing it from $0.190m$ to a mere $0.008m$ error.
翻訳日:2024-02-29 15:59:51 公開日:2024-02-28
# 説明可能なアスペクトベース感情分析のための情報ボトルネックによる内在次元学習

Learning Intrinsic Dimension via Information Bottleneck for Explainable Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2402.18145v1 )

ライセンス: Link先を確認
Zhenxiao Cheng, Jie Zhou, Wen Wu, Qin Chen, Liang He(参考訳) 勾配に基づく説明法は、高忠実性のため、自然言語処理(NLP)におけるニューラルネットワークの解釈にますます用いられる。 このような手法は、標準関数を通して次元レベルの勾配値を用いて単語レベルの重要度を決定する。 しかしながら、Aspect-based Sentiment Analysis (ABSA) の文脈では、予備的な研究は特定の次元のみが関連することを示唆している。 そこで本稿では,ABSA のためのインフォメーション・ボトルネックに基づく Gradient (\texttt{IBG}) の説明フレームワークを提案する。 このフレームワークは、情報ボトルネックを利用して、単語埋め込みを簡潔な本質的な次元に洗練し、本質的な特徴を維持し、無関係な情報を省略する。 包括的テストでは,感情認識機能を特定することにより,モデルの性能と解釈性の両方が大幅に向上することが示された。

Gradient-based explanation methods are increasingly used to interpret neural models in natural language processing (NLP) due to their high fidelity. Such methods determine word-level importance using dimension-level gradient values through a norm function, often presuming equal significance for all gradient dimensions. However, in the context of Aspect-based Sentiment Analysis (ABSA), our preliminary research suggests that only specific dimensions are pertinent. To address this, we propose the Information Bottleneck-based Gradient (\texttt{IBG}) explanation framework for ABSA. This framework leverages an information bottleneck to refine word embeddings into a concise intrinsic dimension, maintaining essential features and omitting unrelated information. Comprehensive tests show that our \texttt{IBG} approach considerably improves both the models' performance and interpretability by identifying sentiment-aware features.
翻訳日:2024-02-29 15:59:10 公開日:2024-02-28
# ランダムシリコンサンプリング:グループレベルの人口統計情報に基づく大規模言語モデルを用いた人集団評価のシミュレーション

Random Silicon Sampling: Simulating Human Sub-Population Opinion Using a Large Language Model Based on Group-Level Demographic Information ( http://arxiv.org/abs/2402.18144v1 )

ライセンス: Link先を確認
Seungjong Sun, Eungu Lee, Dongyan Nan, Xiangying Zhao, Wonbyung Lee, Bernard J. Jansen, Jang Hyun Kim(参考訳) 大規模な言語モデルは、人種、性別など、人口統計情報に関連する社会バイアスを示す。 このような言語モデルに人口統計データに基づくパーソナリティーを内在させることで、人間と一致した意見を生成することができる。 この考え方に基づき,人口サブグループの意見をエミュレートする手法である「ランダムシリコンサンプリング」を提案する。 私たちの研究は 1)人口分布のみに基づく人間集団に対応するサーベイ応答を生成する言語モデルと、 2)本手法の適用性は,様々な階層的サブグループとテーマ的質問にまたがる。 ランダムなシリコンサンプリングとグループレベルの人口統計情報のみを用いて、言語モデルが実際のアメリカの世論調査と著しく類似した応答分布を生成できることを発見した。 さらに, 言語モデルの再現性は, 質問の分類群や話題によって異なり, モデル内固有の社会バイアスに起因する可能性があることを見出した。 本研究は, 集団分布のみを用いて集団の意見を反映し, 言語モデルにおける社会的バイアスの影響を明らかにすることを可能にする。

Large language models exhibit societal biases associated with demographic information, including race, gender, and others. Endowing such language models with personalities based on demographic data can enable generating opinions that align with those of humans. Building on this idea, we propose "random silicon sampling," a method to emulate the opinions of the human population sub-group. Our study analyzed 1) a language model that generates the survey responses that correspond with a human group based solely on its demographic distribution and 2) the applicability of our methodology across various demographic subgroups and thematic questions. Through random silicon sampling and using only group-level demographic information, we discovered that language models can generate response distributions that are remarkably similar to the actual U.S. public opinion polls. Moreover, we found that the replicability of language models varies depending on the demographic group and topic of the question, and this can be attributed to inherent societal biases in the models. Our findings demonstrate the feasibility of mirroring a group's opinion using only demographic distribution and elucidate the effect of social biases in language models on such simulations.
翻訳日:2024-02-29 15:58:44 公開日:2024-02-28
# 位相変調光場を用いたマイクロモーション補償

Enhanced micromotion compensation using a phase modulated light field ( http://arxiv.org/abs/2402.18142v1 )

ライセンス: Link先を確認
K. J. Arnold, N. Jayjong, M. L. D. Kang, Qin Qichen, Zhao Zhang, Qi Zhao, and M. D. Barrett(参考訳) トラップ駆動周波数で変調したプローブレーザ位相を用いてトラップイオンのサイドバンド分光を調べる。 従来のサイドバンド分光法よりも感度を高めたことにより、数分間の時間スケールで0.01\,\mathrm{V/m}$の成層場を検出し、5,\mu\mathrm{rad}$の差位相を検出することができる。 また,振動基底状態におけるイオンの固有運動によって課される限界をはるかに下回る過度運動からのドップラーシフトを抑制する能力を示す。 マイクロモーション補償にサイドバンド分光を用いるイオントラップシステムで容易に実装でき、完全に自動化された方法で実験にシームレスに統合することができる。

We investigate sideband spectroscopy of a trapped ion using a probe laser phase modulated at the trap drive frequency. The enhanced sensitivity of our technique over traditional sideband spectroscopy allows us to detect stray fields of $0.01\,\mathrm{V/m}$ on a timescale of a few minutes and detect differential phases of $5\,\mu\mathrm{rad}$ between applied ac potentials. We also demonstrate the ability suppress Doppler shifts from excess motion to well below the limit imposed by the intrinsic motion of the ion in the vibrational ground-state. The technique we introduce can be readily implemented in any ion trap system that utilizes sideband spectroscopy for micromotion compensation and can be seamlessly integrated into experiments in a fully automated way
翻訳日:2024-02-29 15:58:11 公開日:2024-02-28
# OccTransformer:3Dカメラのみの占有予測のためのBEVFormerの改良

OccTransformer: Improving BEVFormer for 3D camera-only occupancy prediction ( http://arxiv.org/abs/2402.18140v1 )

ライセンス: Link先を確認
Jian Liu, Sipeng Zhang, Chuixin Kong, Wenyuan Zhang, Yuhang Wu, Yikang Ding, Borun Xu, Ruibo Ming, Donglai Wei, Xianming Liu(参考訳) 本技術報告では,CVPR 2023における自動運転チャレンジにおける3次元占有予測トラックの「occTransformer」について述べる。 提案手法は強力なベースラインBEVFormer上に構築され, 単純かつ効果的な手法によって性能を向上させる。 まず、トレーニングデータの多様性を高め、モデルの一般化能力を向上させるためにデータ拡張を用いた。 次に,入力データからより詳細な特徴を抽出するために,強い画像バックボーンを用いた。 第3に,シーンの空間情報をよりよく捉えるために3Dアンセットヘッドを組み込んだ。 第4に、モデルを最適化するための損失関数を追加しました。 さらに私たちは,OccモデルであるBevDetとSurroundOccのアンサンブルアプローチを使用して,パフォーマンスをさらに向上しました。 最も重要なことは、3D検出モデルStreamPETRを統合して、シーン内のオブジェクトを検出するモデルの能力を高めました。 これらの手法を用いて,自動運転課題における3次元占有予測トラック上で49.23miouを達成した。

This technical report presents our solution, "occTransformer" for the 3D occupancy prediction track in the autonomous driving challenge at CVPR 2023. Our method builds upon the strong baseline BEVFormer and improves its performance through several simple yet effective techniques. Firstly, we employed data augmentation to increase the diversity of the training data and improve the model's generalization ability. Secondly, we used a strong image backbone to extract more informative features from the input data. Thirdly, we incorporated a 3D unet head to better capture the spatial information of the scene. Fourthly, we added more loss functions to better optimize the model. Additionally, we used an ensemble approach with the occ model BevDet and SurroundOcc to further improve the performance. Most importantly, we integrated 3D detection model StreamPETR to enhance the model's ability to detect objects in the scene. Using these methods, our solution achieved 49.23 miou on the 3D occupancy prediction track in the autonomous driving challenge.
翻訳日:2024-02-29 15:57:47 公開日:2024-02-28
# 原因と効果: 大きな言語モデルは真に因果性を理解できるか?

Cause and Effect: Can Large Language Models Truly Understand Causality? ( http://arxiv.org/abs/2402.18139v1 )

ライセンス: Link先を確認
Swagata Ashwani, Kshiteesh Hegde, Nishith Reddy Mannuru, Mayank Jindal, Dushyant Singh Sengar, Krishna Chaitanya Rao Kathala, Dishant Banga, Vinija Jain and Aman Chadha(参考訳) LLM(Large Language Models)の台頭により、言語が持つ複雑な因果関係のウェブを解読し、説明する際に、その能力と限界を理解することが重要になった。 現在のメソッドでは明示的あるいは暗黙的因果推論が使用されているが、より効果的な因果関係の配列に取り組むために両方を結合した統一的なアプローチが必要である。 本研究は、因果推論と説明可能性を高めるために、CARE CA(Context Aware Reasoning Enhancement with Counterfactual Analysis)フレームワークと呼ばれる新しいアーキテクチャを提案する。 提案フレームワークは,ConceptNetと反ファクトステートメントを備えた明示的な因果検出モジュールと,LLMによる暗黙的な因果検出を備える。 我々の枠組みはさらに一歩前進し、LCMの因果性理解をアクセントする反ファクト的説明の層が生まれている。 conceptnetの知識は、因果発見、因果同定、反事実推論といった複数の因果推論タスクのパフォーマンスを高める。 反事実文はシナリオによって引き起こされる not の明示的な知識を与える。 これらの強力なモジュールを組み合わせることで,因果関係をより深く理解し,解釈可能性を高めることを目的としている。 ベンチマークデータセットの評価では、正確性、精度、リコール、F1スコアなど、すべてのメトリクスのパフォーマンスが改善されている。 また、コードを伴う新しいデータセットであるCausalNetを導入し、この領域におけるさらなる研究を促進する。

With the rise of Large Language Models(LLMs), it has become crucial to understand their capabilities and limitations in deciphering and explaining the complex web of causal relationships that language entails. Current methods use either explicit or implicit causal reasoning, yet there is a strong need for a unified approach combining both to tackle a wide array of causal relationships more effectively. This research proposes a novel architecture called Context Aware Reasoning Enhancement with Counterfactual Analysis(CARE CA) framework to enhance causal reasoning and explainability. The proposed framework incorporates an explicit causal detection module with ConceptNet and counterfactual statements, as well as implicit causal detection through LLMs. Our framework goes one step further with a layer of counterfactual explanations to accentuate LLMs understanding of causality. The knowledge from ConceptNet enhances the performance of multiple causal reasoning tasks such as causal discovery, causal identification and counterfactual reasoning. The counterfactual sentences add explicit knowledge of the not caused by scenarios. By combining these powerful modules, our model aims to provide a deeper understanding of causal relationships, enabling enhanced interpretability. Evaluation of benchmark datasets shows improved performance across all metrics, such as accuracy, precision, recall, and F1 scores. We also introduce CausalNet, a new dataset accompanied by our code, to facilitate further research in this domain.
翻訳日:2024-02-29 15:57:16 公開日:2024-02-28
# DecisionNCE: インプシット推論学習による身体的マルチモーダル表現

DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning ( http://arxiv.org/abs/2402.18137v1 )

ライセンス: Link先を確認
Jianxiong Li, Jinliang Zheng, Yinan Zheng, Liyuan Mao, Xiao Hu, Sijie Cheng, Haoyi Niu, Jihao Liu, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan(参考訳) 自律型ロボットにおける表現学習の目標のトリニティのための効果的な戦略として、マルチモーダル事前訓練が登場している。 1) 局所的及びグローバル的タスク進行情報の抽出 2) 視覚表現の時間的一貫性を強制すること。 3) 軌跡レベル言語接頭辞の取得。 既存のほとんどの手法は、しばしば準最適解に到達する別々の目的によってこれらにアプローチする。 本稿では,イメージシーケンスから意味のあるタスクの進行情報を同時に抽出し,それらを言語命令とシームレスに整合させる統一的な目的を提案する。 暗黙の選好により、視覚的軌跡が不一致ペアよりも本質的に対応する言語命令と整合している場合、人気のBradley-Terryモデルは適切な報酬パラメータ化によって表現学習に変換できる。 結果として得られたフレームワークである decisionnce はインフォアンススタイルの目標を反映しているが、意思決定タスクに特化しており、局所的およびグローバルなタスク進行機能の両方をエレガントに抽出し、暗黙の時間的コントラスト学習を通じて時間的一貫性を強制し、マルチモーダルなジョイントエンコーディングによる軌道レベルの命令基底化を保証する、具体化された表現学習フレームワークを提供する。 シミュレーションロボットと実物ロボットの両方の評価は、DecisionNCEが様々な下流政策学習タスクを効果的に促進し、統一表現と報酬学習のための汎用的なソリューションを提供することを示す。 プロジェクトページ: https://2toinf.github.io/decisionnce/

Multimodal pretraining has emerged as an effective strategy for the trinity of goals of representation learning in autonomous robots: 1) extracting both local and global task progression information; 2) enforcing temporal consistency of visual representation; 3) capturing trajectory-level language grounding. Most existing methods approach these via separate objectives, which often reach sub-optimal solutions. In this paper, we propose a universal unified objective that can simultaneously extract meaningful task progression information from image sequences and seamlessly align them with language instructions. We discover that via implicit preferences, where a visual trajectory inherently aligns better with its corresponding language instruction than mismatched pairs, the popular Bradley-Terry model can transform into representation learning through proper reward reparameterizations. The resulted framework, DecisionNCE, mirrors an InfoNCE-style objective but is distinctively tailored for decision-making tasks, providing an embodied representation learning framework that elegantly extracts both local and global task progression features, with temporal consistency enforced through implicit time contrastive learning, while ensuring trajectory-level instruction grounding via multimodal joint encoding. Evaluation on both simulated and real robots demonstrates that DecisionNCE effectively facilitates diverse downstream policy learning tasks, offering a versatile solution for unified representation and reward learning. Project Page: https://2toinf.github.io/DecisionNCE/
翻訳日:2024-02-29 15:56:33 公開日:2024-02-28
# 偏光画像のゆらぎを学習する

Learning to Deblur Polarized Images ( http://arxiv.org/abs/2402.18134v1 )

ライセンス: Link先を確認
Chu Zhou, Minggui Teng, Xinyu Zhou, Chao Xu, Boxin Sh(参考訳) 偏光カメラは、撮像された偏光画像から直接偏光度(DoP)と偏光角度(AoP)を直接計算できるため、偏光ベースの視覚応用に有用な、偏光角度の異なる4つの偏光画像を単一のショットでキャプチャすることができる。 しかし、オンチップのマイクロ偏光素子は光の一部を遮断し、センサーの露光時間が長くなるため、撮像された偏光像はカメラの揺動による動きのぼやけを起こしやすく、計算されたdopとaopで顕著に劣化する。 従来の画像のデブロアリング法は、偏光制約を考慮せずにデブロアリングのみに着目しているため、偏光画像を扱う際の劣化性能を示すことが多い。 本稿では,偏光対応の偏光分解パイプラインを提案し,偏光と対流の戦略を採用して,問題を2つの低いサブプロブレムに明示的に分解し,これら2つのサブプロブレムを扱う2段階のニューラルネットワークを設計する。 実験の結果,合成画像と実世界画像の両方において最先端の性能を達成でき,画像デハジングや反射除去といった偏光ベースの視覚アプリケーションの性能を向上させることができた。

A polarization camera can capture four polarized images with different polarizer angles in a single shot, which is useful in polarization-based vision applications since the degree of polarization (DoP) and the angle of polarization (AoP) can be directly computed from the captured polarized images. However, since the on-chip micro-polarizers block part of the light so that the sensor often requires a longer exposure time, the captured polarized images are prone to motion blur caused by camera shakes, leading to noticeable degradation in the computed DoP and AoP. Deblurring methods for conventional images often show degenerated performance when handling the polarized images since they only focus on deblurring without considering the polarization constrains. In this paper, we propose a polarized image deblurring pipeline to solve the problem in a polarization-aware manner by adopting a divide-and-conquer strategy to explicitly decompose the problem into two less ill-posed sub-problems, and design a two-stage neural network to handle the two sub-problems respectively. Experimental results show that our method achieves state-of-the-art performance on both synthetic and real-world images, and can improve the performance of polarization-based vision applications such as image dehazing and reflection removal.
翻訳日:2024-02-29 15:56:05 公開日:2024-02-28
# クラスは等しくない:画像認識の公平性に関する実証的研究

Classes Are Not Equal: An Empirical Study on Image Recognition Fairness ( http://arxiv.org/abs/2402.18133v1 )

ライセンス: Link先を確認
Jiequan Cui, Beier Zhu, Xin Wen, Xiaojuan Qi, Bei Yu, Hanwang Zhang(参考訳) 本稿では,画像認識の公平性,すなわち,画像ネットのようなバランスデータに対する極端なクラス精度の差に関する実証研究を行う。 実験により、クラスは等しくなく、様々なデータセット、ネットワークアーキテクチャ、モデル能力にまたがる画像分類モデルに公平性の問題が生じることを示した。 さらに、いくつかの興味深い公平性が特定される。 まず、不公平さは分類器バイアスよりも問題表現にある。 次に,モデル予測バイアスの概念を用いて,最適化時の問題表現の起源について検討する。 その結果,認識が難しいクラスでは,モデルの方が予測バイアスが高くなる傾向がみられた。 これは、他のクラスがより難しいクラスと混同されることを意味する。 次に、False Positives (FPs) が最適化における学習を支配し、その結果、その精度が低下する。 さらに,画像分類の公平性を促進することにより,データ拡張と表現学習のアルゴリズムが全体の性能を向上させると結論づけた。

In this paper, we present an empirical study on image recognition fairness, i.e., extreme class accuracy disparity on balanced data like ImageNet. We experimentally demonstrate that classes are not equal and the fairness issue is prevalent for image classification models across various datasets, network architectures, and model capacities. Moreover, several intriguing properties of fairness are identified. First, the unfairness lies in problematic representation rather than classifier bias. Second, with the proposed concept of Model Prediction Bias, we investigate the origins of problematic representation during optimization. Our findings reveal that models tend to exhibit greater prediction biases for classes that are more challenging to recognize. It means that more other classes will be confused with harder classes. Then the False Positives (FPs) will dominate the learning in optimization, thus leading to their poor accuracy. Further, we conclude that data augmentation and representation learning algorithms improve overall performance by promoting fairness to some degree in image classification.
翻訳日:2024-02-29 15:55:40 公開日:2024-02-28
# 深層ニューラルネットワークにおける経路の役割を理解する

Understanding the Role of Pathways in a Deep Neural Network ( http://arxiv.org/abs/2402.18132v1 )

ライセンス: Link先を確認
Lei Lyu, Chen Pang, Jihua Wang(参考訳) ディープニューラルネットワークは人工知能応用において優れた性能を示しているが、その内部動作機構の不透明さは、その応用における大きな欠点の1つである。 一般的な単位ベース解釈は、刺激応答データの統計的観察であり、ニューラルネットワーク固有のメカニズムの詳細な内部過程を示さない。 本研究では,分類タスクで訓練された畳み込みニューラルネットワーク(cnn)を分析し,個々の画素の拡散経路を抽出し,オブジェクトクラスに関連付けられた入力画像中の画素の位置を同定するアルゴリズムを提案する。 経路は分類に重要な因果成分をテストでき、経路に基づく表現はカテゴリー間で明確に区別できる。 画像から個々のピクセルの最も大きな経路は、分類に重要な各層の特徴地図を横断する傾向があることがわかりました。 そして、同じカテゴリの画像の大きな経路は、異なるカテゴリの画像よりも彼らのトレンドに一貫性がある。 また、敵の攻撃、物体の完成、運動知覚を理解するための経路を適用する。 さらに、全ての層における特徴写像上の経路の総数は、元の、変形した、およびターゲットのサンプルを明確に識別することができる。

Deep neural networks have demonstrated superior performance in artificial intelligence applications, but the opaqueness of their inner working mechanism is one major drawback in their application. The prevailing unit-based interpretation is a statistical observation of stimulus-response data, which fails to show a detailed internal process of inherent mechanisms of neural networks. In this work, we analyze a convolutional neural network (CNN) trained in the classification task and present an algorithm to extract the diffusion pathways of individual pixels to identify the locations of pixels in an input image associated with object classes. The pathways allow us to test the causal components which are important for classification and the pathway-based representations are clearly distinguishable between categories. We find that the few largest pathways of an individual pixel from an image tend to cross the feature maps in each layer that is important for classification. And the large pathways of images of the same category are more consistent in their trends than those of different categories. We also apply the pathways to understanding adversarial attacks, object completion, and movement perception. Further, the total number of pathways on feature maps in all layers can clearly discriminate the original, deformed, and target samples.
翻訳日:2024-02-29 15:55:23 公開日:2024-02-28
# 模擬パリティに基づくフェアラーニングアルゴリズムの誘導バイアスについて

On the Inductive Biases of Demographic Parity-based Fair Learning Algorithms ( http://arxiv.org/abs/2402.18129v1 )

ライセンス: Link先を確認
Haoyu Lei, Amin Gohari, Farzan Farnia(参考訳) センシティブな属性に依存しないラベルを割り当てる公正な教師付き学習アルゴリズムは、機械学習コミュニティで大きな注目を集めている。 統計学的パリティ(DP)の概念は、公正分類器の訓練におけるモデルの公平性を測定するために頻繁に用いられてきたが、文献におけるいくつかの研究は、公正学習アルゴリズムにおけるDPの強制的影響を示唆している。 本研究では, 標準DP法が予測ラベルの条件分布に与える影響を, 感度特性から解析的に検討した。 分析の結果,非均一な属性分布を持つ非バランスなトレーニングデータセットは,トレーニングデータの大部分を保持する機密属性結果に偏りのある分類規則につながる可能性が示唆された。 dpベースのフェアラーニングにおいて,このような帰納的バイアスを制御するために,感度の高い属性に基づく分散的ロバスト最適化(sa-dro)法を提案する。 最後に,DPに基づく学習手法の標準集中型および分散型学習問題への適用に関する数値的な結果を示す。 実験結果は,DPに基づくフェアラーニングアルゴリズムの帰納バイアスと,提案したSA-DRO法の劣化効果に関する理論的結果を支持する。

Fair supervised learning algorithms assigning labels with little dependence on a sensitive attribute have attracted great attention in the machine learning community. While the demographic parity (DP) notion has been frequently used to measure a model's fairness in training fair classifiers, several studies in the literature suggest potential impacts of enforcing DP in fair learning algorithms. In this work, we analytically study the effect of standard DP-based regularization methods on the conditional distribution of the predicted label given the sensitive attribute. Our analysis shows that an imbalanced training dataset with a non-uniform distribution of the sensitive attribute could lead to a classification rule biased toward the sensitive attribute outcome holding the majority of training data. To control such inductive biases in DP-based fair learning, we propose a sensitive attribute-based distributionally robust optimization (SA-DRO) method improving robustness against the marginal distribution of the sensitive attribute. Finally, we present several numerical results on the application of DP-based learning methods to standard centralized and distributed learning problems. The empirical findings support our theoretical results on the inductive biases in DP-based fair learning algorithms and the debiasing effects of the proposed SA-DRO method.
翻訳日:2024-02-29 15:55:07 公開日:2024-02-28
# マルチレベル最適化を用いたマスクオートエンコーダにおけるダウンストリームタスク指導型マスキング学習

Downstream Task Guided Masking Learning in Masked Autoencoders Using Multi-Level Optimization ( http://arxiv.org/abs/2402.18128v1 )

ライセンス: Link先を確認
Han Guo, Ramtin Hosseini, Ruiyi Zhang, Sai Ashish Somayajula, Ranak Roy Chowdhury, Rajesh K. Gupta, Pengtao Xie(参考訳) Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。 画像パッチをランダムにマスキングし、マスキングされていないパッチを使ってこれらのマスキングパッチを再構築する。 maeの鍵となる制限は、異なるパッチのさまざまな情報性を無視し、マスクに対するパッチを均一に選択することにある。 これを解決するために、パッチ情報に基づくマスキングを提案するアプローチもある。 しかし、これらの手法はダウンストリームタスクの特定の要求を考慮せず、潜在的にこれらのタスクに最適でない表現をもたらす。 そこで我々は,下流タスクからのエンドツーエンドフィードバックを利用して,事前学習中に最適なマスキング戦略を学習する,MLO-MAE(Multi-level Optimized Mask Autoencoder)を導入する。 視覚表現学習におけるMLO-MAEの進歩について検討した。 既存の方法と比較して、さまざまなデータセットやタスクにまたがる顕著な改善を示し、適応性と効率性を示している。 私たちのコードは、https://github.com/Alexiland/MLOMAEで利用可能です。

Masked Autoencoder (MAE) is a notable method for self-supervised pretraining in visual representation learning. It operates by randomly masking image patches and reconstructing these masked patches using the unmasked ones. A key limitation of MAE lies in its disregard for the varying informativeness of different patches, as it uniformly selects patches to mask. To overcome this, some approaches propose masking based on patch informativeness. However, these methods often do not consider the specific requirements of downstream tasks, potentially leading to suboptimal representations for these tasks. In response, we introduce the Multi-level Optimized Mask Autoencoder (MLO-MAE), a novel framework that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining. Our experimental findings highlight MLO-MAE's significant advancements in visual representation learning. Compared to existing methods, it demonstrates remarkable improvements across diverse datasets and tasks, showcasing its adaptability and efficiency. Our code is available at: https://github.com/Alexiland/MLOMAE
翻訳日:2024-02-29 15:54:47 公開日:2024-02-28
# 階層型多関係グラフ表現学習による薬物-薬物相互作用の大規模予測

Hierarchical Multi-Relational Graph Representation Learning for Large-Scale Prediction of Drug-Drug Interactions ( http://arxiv.org/abs/2402.18127v1 )

ライセンス: Link先を確認
Mengying Jiang, Guizhong Liu, Yuanchao Su, Weiqiang Jin, and Biao Zhao(参考訳) 薬物-薬物相互作用(ddi)を予測する既存の手法のほとんどは、主に薬物間の明示的な関係を捉えることに集中し、ドラッグペア(dps)間の有意義な暗黙的相関を見下ろし、弱い予測をもたらす。 本稿では,階層型マルチリレーショナルグラフ表現学習(HMGRL)手法を提案する。 hmgrlの枠組み内では、多くの薬物関連異種データソースを活用して異種グラフを構築し、ノードが薬物を表現し、エッジが明確かつ多様な関連を示す。 リレーショナルグラフ畳み込みネットワーク(RGCN)は、これらの異種グラフから薬物間の多様な明示的な関係を捉えるために用いられる。 さらに,多視点微分可能スペクトルクラスタリング (MVDSC) モジュールを開発し,DP間の有意な相関関係を抽出した。 MVDSCでは,ノードがDPを表し,エッジが異なる暗黙的相関を示すグラフを構築するために,複数のDP機能を利用する。 その後、複数のdp表現がグラフ切断によって生成され、それぞれ異なる暗黙的相関を強調する。 グラフカット戦略により、HMGRLはグラフの強く結びついたコミュニティを識別し、無関係な特徴の融合を減らすことができる。 DPのすべての表現ビューを組み合わせることで、DDIを予測するための高レベルDP表現を作成する。 HMGRLの有効性を評価するために、3つの異なるタスクにまたがる2つの真のデータセットが採用された。 実験結果から、HMGRLはパフォーマンスにおいていくつかの先行手法を超えることが明らかとなった。

Most existing methods for predicting drug-drug interactions (DDI) predominantly concentrate on capturing the explicit relationships among drugs, overlooking the valuable implicit correlations present between drug pairs (DPs), which leads to weak predictions. To address this issue, this paper introduces a hierarchical multi-relational graph representation learning (HMGRL) approach. Within the framework of HMGRL, we leverage a wealth of drug-related heterogeneous data sources to construct heterogeneous graphs, where nodes represent drugs and edges denote clear and various associations. The relational graph convolutional network (RGCN) is employed to capture diverse explicit relationships between drugs from these heterogeneous graphs. Additionally, a multi-view differentiable spectral clustering (MVDSC) module is developed to capture multiple valuable implicit correlations between DPs. Within the MVDSC, we utilize multiple DP features to construct graphs, where nodes represent DPs and edges denote different implicit correlations. Subsequently, multiple DP representations are generated through graph cutting, each emphasizing distinct implicit correlations. The graph-cutting strategy enables our HMGRL to identify strongly connected communities of graphs, thereby reducing the fusion of irrelevant features. By combining every representation view of a DP, we create high-level DP representations for predicting DDIs. Two genuine datasets spanning three distinct tasks are adopted to gauge the efficacy of our HMGRL. Experimental outcomes unequivocally indicate that HMGRL surpasses several leading-edge methods in performance.
翻訳日:2024-02-29 15:54:31 公開日:2024-02-28
# G4G:細粒度モード内アライメントを用いた高忠実発話顔生成のためのジェネリックフレームワーク

G4G:A Generic Framework for High Fidelity Talking Face Generation with Fine-grained Intra-modal Alignment ( http://arxiv.org/abs/2402.18122v1 )

ライセンス: Link先を確認
Juan Zhang, Jiahao Chen, Cheng Wang, Zhiwang Yu, Tangquan Qi, Di Wu(参考訳) 多くの研究が完了したにもかかわらず、任意の音声に対応する高度に同期した唇の動きで高忠実な話し顔生成を達成することは、この分野において重要な課題である。 出版研究の欠点は多くの研究者を混乱させ続けている。 本稿では,モーダル内アライメントを微粒化した高忠実度音声顔生成のための汎用フレームワークG4Gを紹介する。 G4Gは、与えられた音声のトーンやボリュームに関わらず、高度に同期された唇の動きを生成しながら、オリジナルビデオの忠実度を再現することができる。 g4gの成功の鍵は、正と負のサンプル間の比較学習を著しく増加させるオーディオ画像内特徴の通常のアライメントを強化するために対角行列を使用することである。 さらに、唇の動きと入力音声の同期を強調しつつ、顔領域全体にわたるオリジナル映像の知覚忠実度を包括的に再現するマルチスケール監視モジュールを導入する。 次に、融合ネットワークを使用して、顔領域と残りをさらに融合させる。 実験結果から,映像品質の再現と高調波発声唇の再現に有意な成果が得られた。 G4Gは、現在の最先端の手法よりも、地上の真理レベルに競争力のあるビデオを生成することができる、優れた汎用フレームワークである。

Despite numerous completed studies, achieving high fidelity talking face generation with highly synchronized lip movements corresponding to arbitrary audio remains a significant challenge in the field. The shortcomings of published studies continue to confuse many researchers. This paper introduces G4G, a generic framework for high fidelity talking face generation with fine-grained intra-modal alignment. G4G can reenact the high fidelity of original video while producing highly synchronized lip movements regardless of given audio tones or volumes. The key to G4G's success is the use of a diagonal matrix to enhance the ordinary alignment of audio-image intra-modal features, which significantly increases the comparative learning between positive and negative samples. Additionally, a multi-scaled supervision module is introduced to comprehensively reenact the perceptional fidelity of original video across the facial region while emphasizing the synchronization of lip movements and the input audio. A fusion network is then used to further fuse the facial region and the rest. Our experimental results demonstrate significant achievements in reenactment of original video quality as well as highly synchronized talking lips. G4G is an outperforming generic framework that can produce talking videos competitively closer to ground truth level than current state-of-the-art methods.
翻訳日:2024-02-29 15:54:07 公開日:2024-02-28
# NiteDR:動的運転シーンのためのクロスビューセンサ協調学習による夜間デライニング

NiteDR: Nighttime Image De-Raining with Cross-View Sensor Cooperative Learning for Dynamic Driving Scenes ( http://arxiv.org/abs/2402.18172v1 )

ライセンス: Link先を確認
Cidan Shi, Lihuang Fang, Han Wu, Xiaoyu Xian, Yukai Shi, Liang Lin(参考訳) 実際の環境では、屋外イメージングシステムは雨の劣化などの障害によってしばしば影響を受ける。 特に夜間の運転シーンでは、照明が不十分で不均一で暗くなり、画質と視認性が低下する。 特に自動運転の分野では、RGBセンサーの視覚知覚能力は、このような厳しいシナリオで著しく低下している。 さらに、運転支援システムは周囲の環境を捕捉・識別する能力の低下に悩まされ、運転安全への脅威が生じる。 単一モードのセンサが捉えた単一ビュー情報は、シーン全体を包括的に描写することはできない。 これらの課題に対処するため,雨天の夜間運転シーンに適した画像デライニングフレームワークを開発した。 雨のアーティファクトを取り除き、シーン表現を豊かにし、有用な情報を復元することを目的としている。 具体的には、異なるセンサが捉えた可視画像と赤外線画像の協調学習を紹介する。 マルチソースデータのクロスビュー融合により、画像内のシーンはテクスチャの詳細とコントラストが強化される。 フレームワークの第一段階としてクリーンネットという情報クリーニングモジュールを構築した。 さらに,2段目としてfusionnetと呼ばれる情報融合モジュールを設計し,可視画像と赤外線画像の融合を行った。 ステージバイステージ学習戦略を用いて,高画質,高視認性を有するデレイテッドフュージョン画像を得る。 低照度降雨環境における有害運転シナリオにおけるクロスビュー協調学習(CVCL)の有効性を実証した。 提案手法は,特定の低照度条件下での降雨除去アルゴリズムの利用のギャップを解消するものである。

In real-world environments, outdoor imaging systems are often affected by disturbances such as rain degradation. Especially, in nighttime driving scenes, insufficient and uneven lighting shrouds the scenes in darkness, resulting degradation of both the image quality and visibility. Particularly, in the field of autonomous driving, the visual perception ability of RGB sensors experiences a sharp decline in such harsh scenarios. Additionally, driving assistance systems suffer from reduced capabilities in capturing and discerning the surrounding environment, posing a threat to driving safety. Single-view information captured by single-modal sensors cannot comprehensively depict the entire scene. To address these challenges, we developed an image de-raining framework tailored for rainy nighttime driving scenes. It aims to remove rain artifacts, enrich scene representation, and restore useful information. Specifically, we introduce cooperative learning between visible and infrared images captured by different sensors. By cross-view fusion of these multi-source data, the scene within the images gains richer texture details and enhanced contrast. We constructed an information cleaning module called CleanNet as the first stage of our framework. Moreover, we designed an information fusion module called FusionNet as the second stage to fuse the clean visible images with infrared images. Using this stage-by-stage learning strategy, we obtain de-rained fusion images with higher quality and better visual perception. Extensive experiments demonstrate the effectiveness of our proposed Cross-View Cooperative Learning (CVCL) in adverse driving scenarios in low-light rainy environments. The proposed approach addresses the gap in the utilization of existing rain removal algorithms in specific low-light conditions.
翻訳日:2024-02-29 15:48:24 公開日:2024-02-28
# 正常な組込みステレオマッチングを掘り下げる

Digging Into Normal Incorporated Stereo Matching ( http://arxiv.org/abs/2402.18171v1 )

ライセンス: Link先を確認
Zihua Liu, Songyan Zhang, Zhicheng Wang and Masatoshi Okutomi(参考訳) 学習に基づくステレオマッチングアルゴリズムによる顕著な進歩にもかかわらず、低テクスト領域、オクルード領域、境界領域における不一致推定は依然として性能を制限するボトルネックである。 これらの課題に取り組むためには、異なる一貫性と親和性の類似性に関する直感的なガイダンスを提供するため、平面情報のような幾何学的ガイダンスが必要である。 本稿では,NDP(Non-local Disparity propagation)とARL(Affinity-aware residual Learning)という2つのモジュールからなる通常の統合型共同学習フレームワークを提案する。 推定された正規写像は、まず非局所親和性行列と非局所オフセットを計算し、不均一度レベルで空間伝播を行う。 低テクスチュア領域における幾何整合性を高めるため、推定された正規写像を利用して局所親和性行列を計算し、補正の参照先に関する情報を残差学習し、残差学習効率を向上させる。 Scene Flow、KITTI 2015、Midbury 2014などの公開データセットに対する大規模な実験により、提案手法の有効性が検証された。 この作業が完了するまでに、我々のアプローチは、KITTI 2015データセットにおける前景ピクセル間のステレオマッチングで1位、Scene Flowデータセットで3位にランクインしました。

Despite the remarkable progress facilitated by learning-based stereo-matching algorithms, disparity estimation in low-texture, occluded, and bordered regions still remains a bottleneck that limits the performance. To tackle these challenges, geometric guidance like plane information is necessary as it provides intuitive guidance about disparity consistency and affinity similarity. In this paper, we propose a normal incorporated joint learning framework consisting of two specific modules named non-local disparity propagation(NDP) and affinity-aware residual learning(ARL). The estimated normal map is first utilized for calculating a non-local affinity matrix and a non-local offset to perform spatial propagation at the disparity level. To enhance geometric consistency, especially in low-texture regions, the estimated normal map is then leveraged to calculate a local affinity matrix, providing the residual learning with information about where the correction should refer and thus improving the residual learning efficiency. Extensive experiments on several public datasets including Scene Flow, KITTI 2015, and Middlebury 2014 validate the effectiveness of our proposed method. By the time we finished this work, our approach ranked 1st for stereo matching across foreground pixels on the KITTI 2015 dataset and 3rd on the Scene Flow dataset among all the published works.
翻訳日:2024-02-29 15:48:01 公開日:2024-02-28
# MIKO:ソーシャルメディアコモンセンス発見のための大規模言語モデルからのマルチモーダルインテンション知識蒸留

MIKO: Multimodal Intention Knowledge Distillation from Large Language Models for Social-Media Commonsense Discovery ( http://arxiv.org/abs/2402.18169v1 )

ライセンス: Link先を確認
Feihong Lu, Weiqi Wang, Yangyifei Luo, Ziqin Zhu, Qingyun Sun, Baixuan Xu, Haochen Shi, Shiqi Gao, Qian Li, Yangqiu Song, Jianxin Li(参考訳) ソーシャルメディアは、他の人とつながり、ニュースをアップデートし、意見を述べ、エンターテイメントを見つけるためのユビキタスなツールになっている。 しかし、ソーシャルメディア投稿における意図の暗黙性、テキストと画像の相互モダリティ理解の必要性、ハッシュタグやスペルミス、複雑な略語といった騒がしい情報の存在などにより、ソーシャルメディア投稿の意図の理解は依然として困難である。 これらの課題に対処するため、ユーザ意図を明らかにするために、LLM(Large Language Model)とMLLM(Multimodal Large Language Model)を協調的に利用するMultimodal Intention Kowledge DistillatiOnフレームワークであるMIKOを提案する。 具体的には、MLLMを用いて画像とLCMを解釈し、テキストからキー情報を抽出し、最後に再度LSMに指示して意図を生成する。 公開ソーシャルメディアデータセットにmikoを適用することで,137,287の投稿に根ざした1,372kのインテントを特徴とするインテンションナレッジベースを構築する。 生成した知識の品質を検証するために,二段階アノテーションを実施し,意図生成のための広く使われているllmの性能をベンチマークする。 さらに,煙道検出データセットにMIKOを適用し,学生モデルを蒸留し,意図的知識を適用した下流の利点を示す。

Social media has become a ubiquitous tool for connecting with others, staying updated with news, expressing opinions, and finding entertainment. However, understanding the intention behind social media posts remains challenging due to the implicitness of intentions in social media posts, the need for cross-modality understanding of both text and images, and the presence of noisy information such as hashtags, misspelled words, and complicated abbreviations. To address these challenges, we present MIKO, a Multimodal Intention Kowledge DistillatiOn framework that collaboratively leverages a Large Language Model (LLM) and a Multimodal Large Language Model (MLLM) to uncover users' intentions. Specifically, we use an MLLM to interpret the image and an LLM to extract key information from the text and finally instruct the LLM again to generate intentions. By applying MIKO to publicly available social media datasets, we construct an intention knowledge base featuring 1,372K intentions rooted in 137,287 posts. We conduct a two-stage annotation to verify the quality of the generated knowledge and benchmark the performance of widely used LLMs for intention generation. We further apply MIKO to a sarcasm detection dataset and distill a student model to demonstrate the downstream benefits of applying intention knowledge.
翻訳日:2024-02-29 15:47:37 公開日:2024-02-28
# ネットワークラッソによる分散型交通事故検出

Decentralised Traffic Incident Detection via Network Lasso ( http://arxiv.org/abs/2402.18167v1 )

ライセンス: Link先を確認
Qiyuan Zhu, A. K. Qin, Prabath Abeysekara, Hussein Dia, Hanna Grzybowska(参考訳) 交通事故検出はインテリジェント交通システムにおいて重要な役割を担い、輸送工学において大きな注目を集めている。 従来の機械学習(ML)に基づく検出手法は,すべてのデータを中央サーバに送信してMLモデルを構築するという,集中型コンピューティングパラダイムの下で優れたパフォーマンスを実現している。 今日では、深層ニューラルネットワークに基づくフェデレーション学習(FL)が主流となり、ローカルデータガバナンスを保証しながら、分散的なモデルトレーニングを可能にする。 しかし、そのようなニューラルネットワーク中心の手法は、確立されたMLベースの検出方法の有用性を隠蔽している。 本研究では,分散データによって特徴付けられる現代の交通シナリオにおいて,従来のMLに基づく強力な検出モデルの可能性を探究する。 我々は,ネットワークlassoという,エレガントな分散最適化フレームワークを活用し,凸問題定式化のためのグローバル収束を保証し,強力な凸mlモデルをそれと統合し,集中学習,局所学習,周知のトラフィックインシデント検出データセット上でのフェデレーション学習手法と比較した。 実験の結果,提案手法は,従来のMLに基づく検出手法の意義を再検討しながら,データ分散トラフィックシナリオにおけるFLベースのアプローチに代わる有望な代替手段を提供することを示す。

Traffic incident detection plays a key role in intelligent transportation systems, which has gained great attention in transport engineering. In the past, traditional machine learning (ML) based detection methods achieved good performance under a centralised computing paradigm, where all data are transmitted to a central server for building ML models therein. Nowadays, deep neural networks based federated learning (FL) has become a mainstream detection approach to enable the model training in a decentralised manner while warranting local data governance. Such neural networks-centred techniques, however, have overshadowed the utility of well-established ML-based detection methods. In this work, we aim to explore the potential of potent conventional ML-based detection models in modern traffic scenarios featured by distributed data. We leverage an elegant but less explored distributed optimisation framework named Network Lasso, with guaranteed global convergence for convex problem formulations, integrate the potent convex ML model with it, and compare it with centralised learning, local learning, and federated learning methods atop a well-known traffic incident detection dataset. Experimental results show that the proposed network lasso-based approach provides a promising alternative to the FL-based approach in data-decentralised traffic scenarios, with a strong convergence guarantee while rekindling the significance of conventional ML-based detection methods.
翻訳日:2024-02-29 15:47:13 公開日:2024-02-28
# 顧客埋め込みのためのオートエンコーダに基づく汎用表現学習

Autoencoder-based General Purpose Representation Learning for Customer Embedding ( http://arxiv.org/abs/2402.18164v1 )

ライセンス: Link先を確認
Jan Henrik Bertrand, Jacopo Pio Gargano, Laurent Mombaerts, Jonathan Taws(参考訳) 近年,ドメイン固有のデータ構造と表現学習のための生成要因を活用することで,様々なユースケースに依存しない応用が成功している。 しかしながら、表データの多様性と複雑さにより、これらの構造を多次元ベクトルを通して潜在空間で表現することが困難になっている。 汎用組込みを構築するためのオートエンコーダベースのフレームワークを設計し,異なるオートエンコーダアーキテクチャの性能を評価し,複雑な表データ組込みにおいて複雑なモデルよりも単純なモデルの方が優れていることを示す。 当社のフレームワークを適用して、任意のモデルで使用するためにAWSユーザを表すプラグイン、リッチ、匿名の埋め込みを生成し、開発時間の最大45%を節約し、ダウンストリームモデルの大幅な改善を観察します。 さらに,多層契約型オートエンコーダ(CAE)の再構成損失の計算において,全エンコーダのジャコビアンを計算し,重畳されたCAEと比較して再現品質が15%向上することを示す。

In recent years, exploiting the domain-specific underlying structure of data and its generative factors for representation learning has shown success in various use-case agnostic applications. However, the diversity and complexity of tabular data have made it challenging to represent these structures in a latent space through multi-dimensional vectors. We design an autoencoder-based framework for building general purpose embeddings, we assess the performance of different autoencoder architectures, and show simpler models outperform complex ones in embedding highly complex tabular data. We apply our framework to produce plug-and-play, rich, and anonymized embeddings representing AWS customers for usage in any model, saving up to 45% of development time, and observe significant improvements in downstream models. Moreover, we propose a significant improvement to the calculation of reconstruction loss for multi-layer contractive autoencoders (CAE) by calculating the Jacobian of the entire encoder leading to a 15% improvement in reconstruction quality when compared to a stacked CAE.
翻訳日:2024-02-29 15:46:50 公開日:2024-02-28
# Ef-QuantFace:小さなデータと低ビット精度の顔認識

Ef-QuantFace: Streamlined Face Recognition with Small Data and Low-Bit Precision ( http://arxiv.org/abs/2402.18163v1 )

ライセンス: Link先を確認
William Gazali, Jocelyn Michelle Kho, Joshua Santoso, Williem(参考訳) 近年,顔認識のためのモデル量子化が注目されている。 伝統的に、圧縮モデルには580万イメージのMS1Mデータセットのような膨大なデータセットと広範なトレーニング時間が含まれており、そのようなデータエノミティが不可欠かどうかという疑問が提起されている。 本稿では,MS1Mの440倍の14,000枚の画像でモデルを微調整する,効率駆動型アプローチを導入することでこの問題に対処する。 有効な量子化は、より小さなデータセットで実現可能であり、新しいパラダイムを示す。 さらに,評価に基づくメトリック損失を取り入れ,ijb-cデータセットにおける96.15%の精度を達成し,顔認識のための新しい最先端圧縮モデルトレーニングを確立した。 その後の分析は潜在的な応用に発展し、このアプローチの変換力を強調した。 本稿では,少ないデータと訓練時間での効率性と最適結果に着目し,モデル量子化手法を提案する。

In recent years, model quantization for face recognition has gained prominence. Traditionally, compressing models involved vast datasets like the 5.8 million-image MS1M dataset as well as extensive training times, raising the question of whether such data enormity is essential. This paper addresses this by introducing an efficiency-driven approach, fine-tuning the model with just up to 14,000 images, 440 times smaller than MS1M. We demonstrate that effective quantization is achievable with a smaller dataset, presenting a new paradigm. Moreover, we incorporate an evaluation-based metric loss and achieve an outstanding 96.15% accuracy on the IJB-C dataset, establishing a new state-of-the-art compressed model training for face recognition. The subsequent analysis delves into potential applications, emphasizing the transformative power of this approach. This paper advances model quantization by highlighting the efficiency and optimal results with small data and training time.
翻訳日:2024-02-29 15:46:33 公開日:2024-02-28
# ニューラルアクティベーションプリミティブを用いたアウトオブディストリビューション検出

Out-of-Distribution Detection using Neural Activation Prior ( http://arxiv.org/abs/2402.18162v1 )

ライセンス: Link先を確認
Weilin Wan, Weizhong Zhang, Cheng Jin(参考訳) 本稿では,未知のシナリオを扱うために,実世界で機械学習モデルをデプロイするための重要な手法であるアウト・オブ・ディストリビューション検出(OOD)について,シンプルだが効果的なニューラルアクティベーション・プライオリティ(NAP)を提案する。 我々の神経活性化は、十分に訓練されたニューラルネットワークのグローバルプール層の前のチャネルにおいて、分布内(ID)サンプルによってより大きな応答で活性化される少数のニューロンの確率がOODサンプルよりも著しく高いというキー観察に基づいています。 直感的な説明では、idデータセットで完全にトレーニングされたモデルの各チャネルは、idデータセット内のサンプル内の特定のパターンを検出する役割を担っており、入力サンプルでパターンが検出された場合、いくつかのニューロンは大きな応答で活性化することができる。 そこで,この前兆に基づく新たなスコアリング関数を提案し,ood検出におけるこれらの強い活性化ニューロンの役割を強調する。 このアプローチはプラグ・アンド・プレイであり、分散データ分類のパフォーマンスを損なうことなく、トレーニングや外部データセットから追加のトレーニングや統計を必要としない。 従来の手法は主にニューラルネットワークのポストグローバルプール機能に依存していたが、私たちが利用するチャネル内分布情報はグローバルプール演算子によって破棄される。 その結果,本手法は既存の手法と直交し,様々な用途で効果的に組み合わせることができる。 実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセット上での最先端性能を実現し, 提案手法の威力を示す。

Out-of-distribution detection is a crucial technique for deploying machine learning models in the real world to handle the unseen scenarios.In this paper, we propose a simple but effective Neural Activation Prior (NAP) for out-of-distribution detection (OOD). Our neural activation prior is based on a key observation that, for a channel before the global pooling layer of a fully trained neural network, the probability of a few of its neurons being activated with a larger response by an in-distribution (ID) sample is significantly higher than that by an OOD sample. An intuitive explanation is each channel in a model fully trained on ID dataset would play a role in detecting a certain pattern in the samples within the ID dataset, and a few neurons can be activated with a large response when the pattern is detected in an input sample. Thus, a new scoring function based on this prior is proposed to highlight the role of these strongly activated neurons in OOD detection. This approach is plug-and-play and does not lead to any performance degradation on in-distribution data classification and requires no extra training or statistics from training or external datasets. Notice that previous methods primarily rely on post-global-pooling features of the neural networks, while the within-channel distribution information we leverage would be discarded by the global pooling operator. Consequently, our method is orthogonal to existing approaches and can be effectively combined with them in various applications. Experimental results show that our method achieves the state-of-the-art performance on CIFAR-10, CIFAR-100 and ImageNet datasets, which demonstrates the power of the proposed prior.
翻訳日:2024-02-29 15:46:16 公開日:2024-02-28
# 一般関数近似を用いた確率的リスク感性分布強化学習

Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2402.18159v1 )

ライセンス: Link先を確認
Yu Chen, Xiangcheng Zhang, Siwei Wang, Longbo Huang(参考訳) 強化学習(rl)の分野では、特に安全性と信頼性が最優先のアプリケーションにおいて、不確実性の下で意思決定を行うにはリスクの計算が不可欠である。 本稿では,リスク感性分布強化学習(RS-DisRL)の一般的な枠組みとして,静的リプシッツリスク対策(LRM)と一般関数近似を導入する。 本フレームワークはリスクに敏感なRLの幅広いクラスを網羅し,RSRL戦略の有効性に対する推定関数の影響の分析と,その複雑さの評価を容易にする。 モデルに基づく関数近似のモデルベース戦略である \textt{RS-DisRL-M} と、一般値関数近似のモデルフリーアプローチである \textt{RS-DisRL-V} である。 拡張マルコフ決定過程 (MDP) を用いた分布RLにおける最小二乗回帰 (LSR) と最大同値推定 (MLE) による新しい推定手法により、この領域における統計的に効率的なアルゴリズムへの先駆的な貢献を象徴し、RSRL に対する後悔上界の静的 LRM による依存性を最初の$\widetilde{\mathcal{O}}(\sqrt{K})$とする。

In the realm of reinforcement learning (RL), accounting for risk is crucial for making decisions under uncertainty, particularly in applications where safety and reliability are paramount. In this paper, we introduce a general framework on Risk-Sensitive Distributional Reinforcement Learning (RS-DisRL), with static Lipschitz Risk Measures (LRM) and general function approximation. Our framework covers a broad class of risk-sensitive RL, and facilitates analysis of the impact of estimation functions on the effectiveness of RSRL strategies and evaluation of their sample complexity. We design two innovative meta-algorithms: \texttt{RS-DisRL-M}, a model-based strategy for model-based function approximation, and \texttt{RS-DisRL-V}, a model-free approach for general value function approximation. With our novel estimation techniques via Least Squares Regression (LSR) and Maximum Likelihood Estimation (MLE) in distributional RL with augmented Markov Decision Process (MDP), we derive the first $\widetilde{\mathcal{O}}(\sqrt{K})$ dependency of the regret upper bound for RSRL with static LRM, marking a pioneering contribution towards statistically efficient algorithms in this domain.
翻訳日:2024-02-29 15:45:47 公開日:2024-02-28
# 量子化大規模言語モデルの評価

Evaluating Quantized Large Language Models ( http://arxiv.org/abs/2402.18158v1 )

ライセンス: Link先を確認
Shiyao Li, Xuefei Ning, Luning Wang, Tengxuan Liu, Xiangsheng Shi, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang(参考訳) 学習後量子化(PTQ)は,大規模言語モデル(LLM)のコスト削減のための有望な手法である。 具体的には、PTQはメモリ消費を効果的に軽減し、LLMの計算オーバーヘッドを低減する。 様々なシナリオにまたがる高い効率性と性能の要件を満たすため,量子化LCMの総合的な評価は,量子化手法の選択を導く上で不可欠である。 本稿では,opt,llama2,falcon,bloomz,mistral,chatglm,vicuna,longchat,stablelm,gema,mambaを含む11モデルファミリの重量,活性化,kvキャッシュに対するptqの影響を125mから180bのパラメータで評価することで,これらの因子の徹底的な評価を行った。 評価には、基本的なNLP、創発的能力、信頼性、対話、長文タスクの5種類のタスクが含まれる。 さらに,その適用性を実証するために,最先端(SOTA)量子化手法の評価を行った。 広範な実験に基づき,量子化の効果を体系的に要約し,量子化手法の適用を推奨し,今後の方向性を指摘する。

Post-training quantization (PTQ) has emerged as a promising technique to reduce the cost of large language models (LLMs). Specifically, PTQ can effectively mitigate memory consumption and reduce computational overhead in LLMs. To meet the requirements of both high efficiency and performance across diverse scenarios, a comprehensive evaluation of quantized LLMs is essential to guide the selection of quantization methods. This paper presents a thorough evaluation of these factors by evaluating the effect of PTQ on Weight, Activation, and KV Cache on 11 model families, including OPT, LLaMA2, Falcon, Bloomz, Mistral, ChatGLM, Vicuna, LongChat, StableLM, Gemma, and Mamba, with parameters ranging from 125M to 180B. The evaluation encompasses five types of tasks: basic NLP, emergent ability, trustworthiness, dialogue, and long-context tasks. Moreover, we also evaluate the state-of-the-art (SOTA) quantization methods to demonstrate their applicability. Based on the extensive experiments, we systematically summarize the effect of quantization, provide recommendations to apply quantization techniques, and point out future directions.
翻訳日:2024-02-29 15:45:17 公開日:2024-02-28
# 概要から行動へ:Open World APIで複雑なタスクのための大規模言語モデルを強化する

From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs ( http://arxiv.org/abs/2402.18157v1 )

ライセンス: Link先を確認
Yulong Liu, Yunlong Yuan, Chunwei Wang, Jianhua Han, Yongqiang Ma, Li Zhang, Nanning Zheng, Hang Xu(参考訳) 人間と動物の区別は、人間のツールの使用と作成の独特な能力にある。 ツールは人間の生理的限界を克服し、壮大な文明の創造を促進する。 同様に、Large Language Models (LLMs)のような基礎的なモデルに外部ツールの使用法を学ぶ能力を持たせることは、人工知能の実現に向けた重要なステップとなるかもしれない。 この分野での先行研究は、LLMのツール実行能力を増強する2つの異なるアプローチを主に追求している。 最初のアプローチでは、モデルの微調整に関連するデータセットの構築を強調している。 対照的に第2のアプローチは、文脈内学習戦略を通じてLLMの本質的推論能力を完全に活用することを目的としている。 本稿では,大規模な実世界のapiを制御するための新しいツール呼び出しパイプラインを提案する。 このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。 各ステップで LLM をガイドして,得られた結果を要約し,次の行動経路を決定する。 このパイプラインを‘from summary to action’、略してsum2actと呼びます。 ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、ReActやDFSDTといった確立したメソッドよりも優れたパフォーマンス向上を示している。 このことは、Sum2Actが複雑な現実世界のタスクに対してLLMを強化する効果を強調している。

The distinction between humans and animals lies in the unique ability of humans to use and create tools. Tools empower humans to overcome physiological limitations, fostering the creation of magnificent civilizations. Similarly, enabling foundational models like Large Language Models (LLMs) with the capacity to learn external tool usage may serve as a pivotal step toward realizing artificial general intelligence. Previous studies in this field have predominantly pursued two distinct approaches to augment the tool invocation capabilities of LLMs. The first approach emphasizes the construction of relevant datasets for model fine-tuning. The second approach, in contrast, aims to fully exploit the inherent reasoning abilities of LLMs through in-context learning strategies. In this work, we introduce a novel tool invocation pipeline designed to control massive real-world APIs. This pipeline mirrors the human task-solving process, addressing complicated real-life user queries. At each step, we guide LLMs to summarize the achieved results and determine the next course of action. We term this pipeline `from Summary to action', Sum2Act for short. Empirical evaluations of our Sum2Act pipeline on the ToolBench benchmark show significant performance improvements, outperforming established methods like ReAct and DFSDT. This highlights Sum2Act's effectiveness in enhancing LLMs for complex real-world tasks.
翻訳日:2024-02-29 15:44:53 公開日:2024-02-28
# 頭を切り離すことは対立を終わらせる:言語モデルにおける知識の衝突を解釈し緩和するメカニズム

Cutting Off the Head Ends the Conflict: A Mechanism for Interpreting and Mitigating Knowledge Conflicts in Language Models ( http://arxiv.org/abs/2402.18154v1 )

ライセンス: Link先を確認
Zhuoran Jin, Pengfei Cao, Hongbang Yuan, Yubo Chen, Jiexin Xu, Huaijun Li, Xiaojian Jiang, Kang Liu, Jun Zhao(参考訳) 近年,言語モデル (LM) の内部メモリ境界を外部コンテキストで拡張する機能として,検索拡張とツール拡張が注目されている。 しかし、内部記憶と外部コンテキストは必然的に衝突し、LM内の知識の衝突につながる。 本稿では,情報フローのレンズを通して知識衝突のメカニズムを解釈し,その中心点における正確な介入によって紛争を緩和することを目的とする。 メモリヘッドは内部メモリから知識を思い出すことができ、コンテキストヘッドは外部コンテキストから知識を取得することができる。 さらに,LMにおいて知識の衝突が発生する重要なポイントは,記憶頭とコンテキストヘッドによる一貫性のない情報フローの統合であることも明らかにした。 この知見に触発されて,モデルパラメータを更新せずに衝突する注意ヘッドをプルーニングすることで,知識の衝突を効果的に軽減できる,パスパッチ(ph3)によるプルーニングヘッド(pruning head)という新しい手法を提案する。 PH3は8つのLMを柔軟に制御し、内部メモリ(44.0%)または外部コンテキスト(38.5%)を使用する。 さらに、PH3はオープンドメインQAタスクにおけるLMの性能を向上させることができる。 また, クロスモデル, クロス相関, クロスフォーマット一般化の実証実験を行った。

Recently, retrieval augmentation and tool augmentation have demonstrated a remarkable capability to expand the internal memory boundaries of language models (LMs) by providing external context. However, internal memory and external context inevitably clash, leading to knowledge conflicts within LMs. In this paper, we aim to interpret the mechanism of knowledge conflicts through the lens of information flow, and then mitigate conflicts by precise interventions at the pivotal point. We find there are some attention heads with opposite effects in the later layers, where memory heads can recall knowledge from internal memory, and context heads can retrieve knowledge from external context. Moreover, we reveal that the pivotal point at which knowledge conflicts emerge in LMs is the integration of inconsistent information flows by memory heads and context heads. Inspired by the insights, we propose a novel method called Pruning Head via PatH PatcHing (PH3), which can efficiently mitigate knowledge conflicts by pruning conflicting attention heads without updating model parameters. PH3 can flexibly control eight LMs to use internal memory ($\uparrow$ 44.0%) or external context ($\uparrow$ 38.5%). Moreover, PH3 can also improve the performance of LMs on open-domain QA tasks. We also conduct extensive experiments to demonstrate the cross-model, cross-relation, and cross-format generalization of our method.
翻訳日:2024-02-29 15:44:33 公開日:2024-02-28
# 拡散型ニューラルネットワーク重み生成

Diffusion-based Neural Network Weights Generation ( http://arxiv.org/abs/2402.18153v1 )

ライセンス: Link先を確認
Bedionita Soro, Bruno Andreis, Hayeon Lee, Song Chong, Frank Hutter, Sung Ju Hwang(参考訳) 転送学習は、新しいタスクでのより高速な収束とパフォーマンス向上を可能にするため、最近のディープラーニング研究において重要な関心事となっている。 転送学習の性能は、ソースデータとターゲットデータとの類似性に依存するが、大量のデータセット上でモデルをトレーニングするのはコストがかかる。 したがって、事前訓練されたモデルは、通常、与えられたタスクに対して優れたパフォーマンスを期待して、盲目的に選択される。 このような事前学習モデルの最適性に取り組むために,データセットによる事前学習重み付けサンプリングによる効率良く適応的な伝達学習手法を提案する。 具体的には,ニューラルネットワーク重みを再構成可能な可変オートエンコーダを備えた潜在拡散モデルを用いて,各データセットに条件付けられた事前学習重みのセットの分布を学習し,未知のデータセット上での転送学習を行う。 ニューラルネットワークの分布を多種多様な事前学習モデル上で学習することにより,非知覚データセットに対する適応的なサンプリング重み付けを可能にし,より高速な収束と競合性能を達成する。

Transfer learning is a topic of significant interest in recent deep learning research because it enables faster convergence and improved performance on new tasks. While the performance of transfer learning depends on the similarity of the source data to the target data, it is costly to train a model on a large number of datasets. Therefore, pretrained models are generally blindly selected with the hope that they will achieve good performance on the given task. To tackle such suboptimality of the pretrained models, we propose an efficient and adaptive transfer learning scheme through dataset-conditioned pretrained weights sampling. Specifically, we use a latent diffusion model with a variational autoencoder that can reconstruct the neural network weights, to learn the distribution of a set of pretrained weights conditioned on each dataset for transfer learning on unseen datasets. By learning the distribution of a neural network on a variety pretrained models, our approach enables adaptive sampling weights for unseen datasets achieving faster convergence and reaching competitive performance.
翻訳日:2024-02-29 15:44:09 公開日:2024-02-28
# 条件付きデコーダによる映像のニューラル表現の強化

Boosting Neural Representations for Videos with a Conditional Decoder ( http://arxiv.org/abs/2402.18152v1 )

ライセンス: Link先を確認
Xinjie Zhang, Ren Yang, Dailan He, Xingtong Ge, Tongda Xu, Yan Wang, Hongwei Qin, Jun Zhang(参考訳) Inlicit Neural representations (INR) は、ビデオストレージと処理において有望なアプローチとして登場し、様々なビデオタスクにおいて顕著な汎用性を示している。 しかし、既存の手法は、主にターゲットフレームの復号中に中間機能の整列が不十分なため、表現能力を十分に活用できないことが多い。 本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。 具体的には,条件付きデコーダと時間対応アフィン変換モジュールを用いて,フレームインデックスを先行条件とし,中間特徴を目標フレームと効果的に整合させる。 さらに, 正弦波型NeRV型ブロックを導入し, 多様な中間特性を生成し, パラメータ分布のバランスを保ち, モデルのキャパシティを向上する。 提案手法は,高頻度情報保存再生損失を伴って,ビデオレグレッションの再生品質と収束速度において複数のベースラインINRを向上し,より優れた塗装および補間結果を示す。 さらに,一貫したエントロピー最小化手法を統合し,これらのインバータに基づくビデオコーデックを開発する。 UVGデータセットの実験では、拡張コーデックはベースラインINRよりも大幅に優れており、従来のコーデックや学習ベースのコーデックに比べて競合速度歪み性能が優れていることが確認された。

Implicit neural representations (INRs) have emerged as a promising approach for video storage and processing, showing remarkable versatility across various video tasks. However, existing methods often fail to fully leverage their representation capabilities, primarily due to inadequate alignment of intermediate features during target frame decoding. This paper introduces a universal boosting framework for current implicit video representation approaches. Specifically, we utilize a conditional decoder with a temporal-aware affine transform module, which uses the frame index as a prior condition to effectively align intermediate features with target frames. Besides, we introduce a sinusoidal NeRV-like block to generate diverse intermediate features and achieve a more balanced parameter distribution, thereby enhancing the model's capacity. With a high-frequency information-preserving reconstruction loss, our approach successfully boosts multiple baseline INRs in the reconstruction quality and convergence speed for video regression, and exhibits superior inpainting and interpolation results. Further, we integrate a consistent entropy minimization technique and develop video codecs based on these boosted INRs. Experiments on the UVG dataset confirm that our enhanced codecs significantly outperform baseline INRs and offer competitive rate-distortion performance compared to traditional and learning-based codecs.
翻訳日:2024-02-29 15:43:51 公開日:2024-02-28
# 大規模言語モデルの検索強化のための教師なし情報リファインメント訓練

Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation ( http://arxiv.org/abs/2402.18150v1 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Mo Yu, Fandong Meng, Huawei Shen, Xueqi Cheng, Jie Zhou(参考訳) Retrieval-augmented Generation (RAG)は、検索から追加情報を取り入れることで、大規模言語モデル(LLM)を強化する。 しかし、研究によれば、llmは検索された情報を効果的に利用することの難しさに直面している。 主な理由は、LLMのトレーニングによって、LLMが入力されたテキストを様々な品質で活用する方法を学ばせるわけではないからである。 本稿では,ragにおけるllmの役割を,検索されたテキストの正確性,完全性,有用性によらず,検索されたテキストの知識とモデルパラメータを一貫して統合し,検索されたテキストよりも簡潔で正確で完全なテキストを生成することができることを示す。 そこで本稿では,RAG のための LLM を教師なしで最適化する InFO-RAG という情報改善訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 質問応答、スロットフィリング、言語モデリング、対話、コード生成など、さまざまなタスクにおける11のデータセットのゼロショット予測に関する広範な実験は、InFO-RAGがLLaMA2のパフォーマンスを平均9.39\%改善していることを示している。 InFO-RAGは、RAGの文脈内学習と堅牢性にも利点がある。

Retrieval-augmented generation (RAG) enhances large language models (LLMs) by incorporating additional information from retrieval. However, studies have shown that LLMs still face challenges in effectively using the retrieved information, even ignoring it or being misled by it. The key reason is that the training of LLMs does not clearly make LLMs learn how to utilize input retrieved texts with varied quality. In this paper, we propose a novel perspective that considers the role of LLMs in RAG as ``Information Refiner'', which means that regardless of correctness, completeness, or usefulness of retrieved texts, LLMs can consistently integrate knowledge within the retrieved texts and model parameters to generate the texts that are more concise, accurate, and complete than the retrieved texts. To this end, we propose an information refinement training method named InFO-RAG that optimizes LLMs for RAG in an unsupervised manner. InFO-RAG is low-cost and general across various tasks. Extensive experiments on zero-shot prediction of 11 datasets in diverse tasks including Question Answering, Slot-Filling, Language Modeling, Dialogue, and Code Generation show that InFO-RAG improves the performance of LLaMA2 by an average of 9.39\% relative points. InFO-RAG also shows advantages in in-context learning and robustness of RAG.
翻訳日:2024-02-29 15:43:26 公開日:2024-02-28
# 後向き観察による高能率部分観測型リスク感性強化学習

Provably Efficient Partially Observable Risk-Sensitive Reinforcement Learning with Hindsight Observation ( http://arxiv.org/abs/2402.18149v1 )

ライセンス: Link先を確認
Tonghe Zhang, Yu Chen, Longbo Huang(参考訳) この研究は、部分的に観測可能な環境でのリスクに敏感な強化学習を、後から観察することで、理論的探索のギャップに対処する。 本稿では,後方観測を部分的に観測可能なマルコフ決定プロセス(POMDP)フレームワークに統合する新しい定式化を導入する。 本研究では,この設定に適したRLアルゴリズムを初めて提案する。 また厳密な解析により、我々のアルゴリズムは多項式後悔を$\tilde{O}\left(\frac{e^{|{\gamma}|H}-1}{|{\gamma}|H}H^2\sqrt{KHS^2OA}\right)$とし、モデルがリスクニュートラルあるいは完全に観測可能な設定に縮退した場合に、既存の上限より優れているか、あるいは一致していることを示す。 そこで本研究では,ベータベクターの新たな解析ツールを開発し,数学的導出を合理化する手法を提案する。 これらの手法は強化学習の理論研究に特に興味を寄せている。

This work pioneers regret analysis of risk-sensitive reinforcement learning in partially observable environments with hindsight observation, addressing a gap in theoretical exploration. We introduce a novel formulation that integrates hindsight observations into a Partially Observable Markov Decision Process (POMDP) framework, where the goal is to optimize accumulated reward under the entropic risk measure. We develop the first provably efficient RL algorithm tailored for this setting. We also prove by rigorous analysis that our algorithm achieves polynomial regret $\tilde{O}\left(\frac{e^{|{\gamma}|H}-1}{|{\gamma}|H}H^2\sqrt{KHS^2OA}\right)$, which outperforms or matches existing upper bounds when the model degenerates to risk-neutral or fully observable settings. We adopt the method of change-of-measure and develop a novel analytical tool of beta vectors to streamline mathematical derivations. These techniques are of particular interest to the theoretical study of reinforcement learning.
翻訳日:2024-02-29 15:43:02 公開日:2024-02-28
# 拡散モデルにおける分布誘導脱バイアス法

Balancing Act: Distribution-Guided Debiasing in Diffusion Models ( http://arxiv.org/abs/2402.18206v1 )

ライセンス: Link先を確認
Rishubh Parihar, Abhijnya Bhat, Saswat Mallick, Abhipsa Basu, Jogendra Nath Kundu, R. Venkatesh Babu(参考訳) 拡散モデル(DM)は、前例のない画像生成能力を持つ強力な生成モデルとして登場した。 これらのモデルは、データ拡張とクリエイティブなアプリケーションに広く利用されている。 しかし、DMはトレーニングデータセットに存在するバイアスを反映する。 これは特に、dmが1つのサブグループと他のグループ(女性と男性)を優先する顔の文脈において問題となる。 本稿では,追加データやモデル再トレーニングに頼らずにdmsをデバイアスする手法を提案する。 具体的には,生成された画像が所定の属性分布に従うように強制する分布ガイダンスを提案する。 これを実現するために, unet をデノベーションする潜在機能は, 人口動態に富むセマンティクスを持ち, 同じようにデバイアス世代を導くことができるという, 重要な知見を生かした。 ADP(Attribute Distribution Predictor) - 潜在する特徴を属性の分布にマッピングする小さなmlp。 ADPは、既存の属性分類器から生成された擬似ラベルで訓練される。 ADPを用いた配電誘導により公平な生成が可能となる。 提案手法は, 単一/複数属性間のバイアスを低減し, 非条件およびテキスト条件拡散モデルにおいて, ベースラインのマージンを著しく上回る。 さらに、生成されたデータとトレーニングセットを再バランスさせることにより、公正属性分類器を訓練する下流タスクを提案する。

Diffusion Models (DMs) have emerged as powerful generative models with unprecedented image generation capability. These models are widely used for data augmentation and creative applications. However, DMs reflect the biases present in the training datasets. This is especially concerning in the context of faces, where the DM prefers one demographic subgroup vs others (eg. female vs male). In this work, we present a method for debiasing DMs without relying on additional data or model retraining. Specifically, we propose Distribution Guidance, which enforces the generated images to follow the prescribed attribute distribution. To realize this, we build on the key insight that the latent features of denoising UNet hold rich demographic semantics, and the same can be leveraged to guide debiased generation. We train Attribute Distribution Predictor (ADP) - a small mlp that maps the latent features to the distribution of attributes. ADP is trained with pseudo labels generated from existing attribute classifiers. The proposed Distribution Guidance with ADP enables us to do fair generation. Our method reduces bias across single/multiple attributes and outperforms the baseline by a significant margin for unconditional and text-conditional diffusion models. Further, we present a downstream task of training a fair attribute classifier by rebalancing the training set with our generated data.
翻訳日:2024-02-29 15:37:05 公開日:2024-02-28
# Lemur: エントロピーサンプリングとチェーン・オブ・サートマージによるログ解析

Lemur: Log Parsing with Entropy Sampling and Chain-of-Thought Merging ( http://arxiv.org/abs/2402.18205v1 )

ライセンス: Link先を確認
Hongcheng Guo, Wei Zhang, Anjie Le, Jian Yang, Jiaheng Liu, Zhoujun Li, Tieqiao Zheng, Shi Xu, Runqiang Zang, Liangfan Zheng, Bo Zhang(参考訳) 広範なソフトウェアシステムによって生成されるログは、システムの振る舞いを監視するのに不可欠である。 高度なログ分析は、システム障害の検出、警告、診断を容易にする。 生ログメッセージを構造化テンプレートに変換するログ解析は、ログ分析の自動化において重要なフェーズを構成する。 既存のログパーサは、ヒューマンメイドのルールに依存するため、正しいテンプレートを識別できない。 さらに,これらの手法はログメッセージ中の意味情報を無視しながら,統計的特徴に重点を置いている。 これらの課題に対処するため,近縁な \textbf{L}og 解析フレームワークに \textbf{E}ntropy sample と Chain-of-Thought \textbf{M}erging (Lemur) を導入した。 具体的には、面倒なマニュアルルールを捨てる。 本稿では,典型的なログを効率的に収集する情報エントロピーに触発された新しいサンプリング手法を提案する。 さらに,ログテンプレートのマージを強化するために,大規模言語モデル(LLM)のチェーン・オブ・シント法を設計する。 LLMは例外的な意味理解を示し、パラメータと不変トークンをはっきりと区別する。 大規模な公開データセットの実験を行った。 広範な評価は、lemurが最先端のパフォーマンスと印象的な効率を実現していることを示している。

Logs produced by extensive software systems are integral to monitoring system behaviors. Advanced log analysis facilitates the detection, alerting, and diagnosis of system faults. Log parsing, which entails transforming raw log messages into structured templates, constitutes a critical phase in the automation of log analytics. Existing log parsers fail to identify the correct templates due to reliance on human-made rules. Besides, These methods focus on statistical features while ignoring semantic information in log messages. To address these challenges, we introduce a cutting-edge \textbf{L}og parsing framework with \textbf{E}ntropy sampling and Chain-of-Thought \textbf{M}erging (Lemur). Specifically, to discard the tedious manual rules. We propose a novel sampling method inspired by information entropy, which efficiently clusters typical logs. Furthermore, to enhance the merging of log templates, we design a chain-of-thought method for large language models (LLMs). LLMs exhibit exceptional semantic comprehension, deftly distinguishing between parameters and invariant tokens. We have conducted experiments on large-scale public datasets. Extensive evaluation demonstrates that Lemur achieves the state-of-the-art performance and impressive efficiency.
翻訳日:2024-02-29 15:36:46 公開日:2024-02-28
# 石油スパイルドローン:港の石油スパイル検出のためのドローンキャプチャー、セグメント化されたRGB画像のデータセット

Oil Spill Drone: A Dataset of Drone-Captured, Segmented RGB Images for Oil Spill Detection in Port Environments ( http://arxiv.org/abs/2402.18202v1 )

ライセンス: Link先を確認
T. De Kerf, S. Sels, S. Samsonova and S. Vanlanduit(参考訳) 港湾地域での石油流出の発生率が高いことは環境に深刻な脅威をもたらし、効率的な検知機構の必要性を招いている。 この目的のために自動化されたドローンを利用することで、油漏れ検出の速度と精度が大幅に向上する。 このような進歩は、浄化作業の迅速化や環境被害の軽減だけでなく、汚染者の説明責任の向上にも寄与し、将来の事故を抑止する可能性がある。 現在、海上での原油流出検出にrgb画像を使用するデータセットが不足している。 本稿では,このギャップに対処するために,デスクトップおよびエッジコンピューティングプラットフォーム上でのニューラルネットワークを利用した,ユニークな注釈付きデータセットを提案する。 ドローンでキャプチャされたデータセットは、石油、水などに分類される1268のイメージと、Unetモデルアーキテクチャを用いてトレーニングされた畳み込みニューラルネットワークで構成され、石油検出のためのF1スコアが0.71である。 これは、実際の応用のためのデータセットの実用性を強調し、港湾環境における環境保全の重要な資源を提供する。

The high incidence of oil spills in port areas poses a serious threat to the environment, prompting the need for efficient detection mechanisms. Utilizing automated drones for this purpose can significantly improve the speed and accuracy of oil spill detection. Such advancements not only expedite cleanup operations, reducing environmental harm but also enhance polluter accountability, potentially deterring future incidents. Currently, there's a scarcity of datasets employing RGB images for oil spill detection in maritime settings. This paper presents a unique, annotated dataset aimed at addressing this gap, leveraging a neural network for analysis on both desktop and edge computing platforms. The dataset, captured via drone, comprises 1268 images categorized into oil, water, and other, with a convolutional neural network trained using an Unet model architecture achieving an F1 score of 0.71 for oil detection. This underscores the dataset's practicality for real-world applications, offering crucial resources for environmental conservation in port environments.
翻訳日:2024-02-29 15:36:27 公開日:2024-02-28
# 超画素生成のための不変画素間相関学習

Learning Invariant Inter-pixel Correlations for Superpixel Generation ( http://arxiv.org/abs/2402.18201v1 )

ライセンス: Link先を確認
Sen Xu, Shikui Wei, Tao Ruan, and Lixin Liao(参考訳) 深部スーパーピクセルアルゴリズムは、手作りの機能を学習可能なものに置き換えることで、顕著な進歩を遂げた。 それにもかかわらず、トレーニングデータセットに埋め込まれた統計特性(色分布、高レベルセマンティクスなど)には、中間レベルの表現操作として機能する既存のディープスーパーピクセル法が引き続き敏感である。 その結果、学習可能な特徴は限定的な識別能力を示し、特に制約のないアプリケーションシナリオにおいて不満足なピクセルグループ化性能をもたらす。 この問題に対処するために,不均一な画素間相関と統計特性,すなわちスタイルノイズを選択的に分離するContentangle Superpixel (CDS)アルゴリズムを提案する。 具体的には、最初に、元のRGB画像と相同であるが、かなり様式的なバリエーションを持つ補助的なモダリティを構築する。 そこで, 相互情報に基づく局所格子相関アライメントを提案し, 適応的に選択された特徴の分布差を低減し, 不変画素間相関を学習する。 その後、不変コンテンツの分離とトレーニングデータスタイルを強制するために、グローバル型相互情報最小化を行う。 4つのベンチマークデータセットに対する実験結果は,既存の最先端手法に対するアプローチの優位性を示すものである。 コードと事前トレーニングされたモデルはhttps://github.com/rookiie/cdspixelで入手できる。

Deep superpixel algorithms have made remarkable strides by substituting hand-crafted features with learnable ones. Nevertheless, we observe that existing deep superpixel methods, serving as mid-level representation operations, remain sensitive to the statistical properties (e.g., color distribution, high-level semantics) embedded within the training dataset. Consequently, learnable features exhibit constrained discriminative capability, resulting in unsatisfactory pixel grouping performance, particularly in untrainable application scenarios. To address this issue, we propose the Content Disentangle Superpixel (CDS) algorithm to selectively separate the invariant inter-pixel correlations and statistical properties, i.e., style noise. Specifically, We first construct auxiliary modalities that are homologous to the original RGB image but have substantial stylistic variations. Then, driven by mutual information, we propose the local-grid correlation alignment across modalities to reduce the distribution discrepancy of adaptively selected features and learn invariant inter-pixel correlations. Afterwards, we perform global-style mutual information minimization to enforce the separation of invariant content and train data styles. The experimental results on four benchmark datasets demonstrate the superiority of our approach to existing state-of-the-art methods, regarding boundary adherence, generalization, and efficiency. Code and pre-trained model are available at https://github.com/rookiie/CDSpixel.
翻訳日:2024-02-29 15:36:09 公開日:2024-02-28
# 六方晶窒化ホウ素ナノフレークの量子エミッタ収率の定量的研究

Quantitative investigation of quantum emitter yield in drop-casted hexagonal boron nitride nanoflakes ( http://arxiv.org/abs/2402.18199v1 )

ライセンス: Link先を確認
Tom Kretzschmar, Sebastian Ritter, Anand Kumar, Tobias Vogl, Falk Eilenberger, Falko Schmidt(参考訳) 単一光子エミッタ(SPE)は、量子技術における純光子源としての利用において重要な要素である。 本研究では, 液滴流窒化ヘキサゴナルホウ素(hBN)ナノフレークからのSPEの生成について検討し, 浸漬液およびhBN源の影響について検討した。 利用したサプライヤとソリューションによって,エミッタの数と品質が変化することを示す。 我々は, 生成したSPEの品質を評価するため, ナノフレークの包括的光学特性評価を行った。 我々は,SPE収率に関する定量的データを示し,溶媒およびhBNの異なる源間で有意な変動を示す。 これは、ドロップキャストされたナノフレークをspe源として量子通信、センシング、イメージングにおいて特に重要である。 本手法は, 様々な面に容易に拡張可能であり, 複雑な製造工程や設備を必要とせず, 産業用量子アプリケーションに必要なスケーラビリティを提供する。

Single photon emitters (SPEs) are a key component for their use as pure photon source in quantum technologies. In this study, we investigate the generation of SPEs from drop-casted hexagonal boron nitride (hBN) nanoflakes, examining the influence of the immersion solution and the source of hBN. We show that, depending on the utilized supplier and solution the number and quality of the emitters changes. We perform a comprehensive optical characterization of the deposited nanoflakes to assess the quality of the generated SPEs. We show quantitative data on SPE yields, highlighting significant variations among solvents and different sources of hBN. This holds particular significance for employing drop-casted nanoflakes as SPE sources in quantum communication, sensing, and imaging. Our method is easily expandable to all kinds of surfaces and can be done without requiring complex fabrication steps and equipment, thus providing the necessary scalability required for industrial quantum applications.
翻訳日:2024-02-29 15:35:45 公開日:2024-02-28
# マルチラベル分類のための自動機械学習

Automated Machine Learning for Multi-Label Classification ( http://arxiv.org/abs/2402.18198v1 )

ライセンス: Link先を確認
Marcel Wever(参考訳) automated machine learning(automl)は、機械学習アルゴリズムを選択および構成し、手元のデータセットに合わせたマシンラーニングパイプラインに組み合わせることを目的とする。 教師付き学習タスク、特に二項・多項分類、いわゆるシングルラベル分類(SLC)については、AutoMLアプローチが有望な結果を示している。 しかし、データポイントが単一のクラスラベルではなく一連のクラスラベルに関連付けられるマルチラベル分類(mlc)のタスクは、これまであまり注目されていない。 マルチラベル分類の文脈において,マルチラベル分類器のデータ固有選択と構成は,マルチレベル階層依存性を持つ高次元最適化問題であるため,分野の専門家にとっても困難である。 SLCでは、機械学習パイプラインの空間はすでに巨大だが、MLCの検索スペースは、数桁の命令でSLCの1つを上回っている。 本論文の前半では,機械学習アルゴリズムのパイプラインを最適化する単一ラベル分類タスクに対して,最大2つのアルゴリズムからなる新しいAutoMLアプローチを考案した。 このアプローチは最初、無限長のパイプラインを最適化するために拡張され、最終的にはマルチラベル分類法の複雑な階層構造を構成する。 さらに,マルチラベル分類におけるAutoMLの問題点を増大させるとともに,単一ラベル分類タスクにおける技術状態を形成するAutoMLアプローチがいかにスケールするかを検討する。 第2部では,SLC と MLC の手法をより柔軟に構成して,より優れた一般化性能を実現し,実行ベース AutoML システムの効率を向上させる方法について検討する。

Automated machine learning (AutoML) aims to select and configure machine learning algorithms and combine them into machine learning pipelines tailored to a dataset at hand. For supervised learning tasks, most notably binary and multinomial classification, aka single-label classification (SLC), such AutoML approaches have shown promising results. However, the task of multi-label classification (MLC), where data points are associated with a set of class labels instead of a single class label, has received much less attention so far. In the context of multi-label classification, the data-specific selection and configuration of multi-label classifiers are challenging even for experts in the field, as it is a high-dimensional optimization problem with multi-level hierarchical dependencies. While for SLC, the space of machine learning pipelines is already huge, the size of the MLC search space outnumbers the one of SLC by several orders. In the first part of this thesis, we devise a novel AutoML approach for single-label classification tasks optimizing pipelines of machine learning algorithms, consisting of two algorithms at most. This approach is then extended first to optimize pipelines of unlimited length and eventually configure the complex hierarchical structures of multi-label classification methods. Furthermore, we investigate how well AutoML approaches that form the state of the art for single-label classification tasks scale with the increased problem complexity of AutoML for multi-label classification. In the second part, we explore how methods for SLC and MLC could be configured more flexibly to achieve better generalization performance and how to increase the efficiency of execution-based AutoML systems.
翻訳日:2024-02-29 15:35:26 公開日:2024-02-28
# ntop:トップビュー魚眼画像における2次元および3次元人物ポーズ推定のためのnerfによる大規模データセット生成

NToP: NeRF-Powered Large-scale Dataset Generation for 2D and 3D Human Pose Estimation in Top-View Fisheye Images ( http://arxiv.org/abs/2402.18196v1 )

ライセンス: Link先を確認
Jingrui Yu, Dipankar Nandi, Roman Seidel, Gangolf Hirtz(参考訳) 魚眼カメラを用いたトップビューでのヒューマンポーズ推定(HPE)は、有望で革新的なアプリケーションドメインを示す。 しかし、この視点を捉えたデータセットの可用性は非常に限られており、特に高品質な2Dおよび3Dキーポイントアノテーションがある。 このギャップに対処するため、我々はNeural Radiance Fields(NeRF)技術を活用し、既存の2Dおよび3Dデータセットから人間のポーズデータセットを生成する包括的なパイプラインを構築します。 このパイプラインを通じて,魚眼カメラ用の新しいデータセットNToP570K(NeRFを利用した570万枚以上の画像付きトップビューヒューマンポースデータセット)を作成し,そのニューラルネットワークを2次元および3次元のトップビュー人間のポーズ推定のために拡張する効果を広範囲に評価する。 事前トレーニングした ViTPose-B モデルでは,トレーニングセットの微調整後の2次元HPEの検証セットにおいて,AP が33.3%向上した。 同様に微調整されたhybrik-transformerモデルは検証セット上でpa-mpjpeを53.7mm削減する。

Human pose estimation (HPE) in the top-view using fisheye cameras presents a promising and innovative application domain. However, the availability of datasets capturing this viewpoint is extremely limited, especially those with high-quality 2D and 3D keypoint annotations. Addressing this gap, we leverage the capabilities of Neural Radiance Fields (NeRF) technique to establish a comprehensive pipeline for generating human pose datasets from existing 2D and 3D datasets, specifically tailored for the top-view fisheye perspective. Through this pipeline, we create a novel dataset NToP570K (NeRF-powered Top-view human Pose dataset for fisheye cameras with over 570 thousand images), and conduct an extensive evaluation of its efficacy in enhancing neural networks for 2D and 3D top-view human pose estimation. A pretrained ViTPose-B model achieves an improvement in AP of 33.3 % on our validation set for 2D HPE after finetuning on our training set. A similarly finetuned HybrIK-Transformer model gains 53.7 mm reduction in PA-MPJPE for 3D HPE on the validation set.
翻訳日:2024-02-29 15:34:59 公開日:2024-02-28
# 安全関連障害シナリオにおける鍵要因の形式化同定

Formalized Identification Of Key Factors In Safety-Relevant Failure Scenarios ( http://arxiv.org/abs/2402.18194v1 )

ライセンス: Link先を確認
Tim Maurice Julitz, Nadine Schl\"uter, Manuel L\"ower(参考訳) 本稿では,産業4.0時代の複雑な製品環境システムに焦点をあて,安全関連障害シナリオの重要な要因を体系的に同定する方法論的データベースアプローチを提案する。 この研究は、現代の製品の複雑さの増加から生じる不確実性を取り上げている。 この方法はシナリオ分析を使用し、技術製品開発における障害分析に焦点を当てる。 このアプローチでは、障害データベースの情報に基づいて影響要因を導出する。 ここで説明する失敗は、個別に障害シーケンス図に記録され、その後、関係行列で互いに関連付けられる。 これにより、製品開発で使用できる個々の障害ケースから、可能な障害シナリオのネットワークが生成される。 本手法の適用を解説するために, ヘアドライヤー用41個のRapex安全警報の事例研究を行った。 障害シーケンス図と影響因子関係行列は、安全関連障害につながる46の要因を示している。 主な害は燃焼と電気ショックであり、これはアクティブな和図とパッシブな和図によって強調される。 本研究は,障害データベースの情報を用いて,安全関連障害シナリオにおける重要な要因を特定するロバストな手法を示す。 この方法論は製品開発に関する貴重な洞察を与え、影響要因の頻度と相互接続性を強調する。

This research article presents a methodical data-based approach to systematically identify key factors in safety-related failure scenarios, with a focus on complex product-environmental systems in the era of Industry 4.0. The study addresses the uncertainty arising from the growing complexity of modern products. The method uses scenario analysis and focuses on failure analysis within technical product development. The approach involves a derivation of influencing factors based on information from failure databases. The failures described here are documented individually in failure sequence diagrams and then related to each other in a relationship matrix. This creates a network of possible failure scenarios from individual failure cases that can be used in product development. To illustrate the application of the methodology, a case study of 41 Rapex safety alerts for a hair dryer is presented. The failure sequence diagrams and influencing factor relationship matrices show 46 influencing factors that lead to safety-related failures. The predominant harm is burns and electric shocks, which are highlighted by the active and passive sum diagrams. The research demonstrates a robust method for identifying key factors in safety-related failure scenarios using information from failure databases. The methodology provides valuable insights into product development and emphasizes the frequency of influencing factors and their interconnectedness.
翻訳日:2024-02-29 15:34:37 公開日:2024-02-28
# 画像変換におけるミスアリゲーション・ロバスト周波数分布損失

Misalignment-Robust Frequency Distribution Loss for Image Transformation ( http://arxiv.org/abs/2402.18192v1 )

ライセンス: Link先を確認
Zhangkai Ni, Juncheng Wu, Zian Wang, Wenhan Yang, Hanli Wang, Lin Ma(参考訳) 本稿では,画像強調や高解像度化などの深層学習に基づく画像変換手法における共通の課題を解決することを目的としている。 しかし、正確に調整されたペア画像を作成することは大きな課題であり、そのようなデータに基づいて訓練された方法の進歩を妨げる。 本稿では,この課題を克服するために,周波数領域内の分布距離を計算するための新しい簡易周波数分布損失(fdl)を提案する。 具体的には、離散フーリエ変換(dft)を用いて画像特徴を周波数領域に変換する。 その後、周波数成分(振幅と位相)を別々に処理してFDL損失関数を形成する。 本手法は,周波数領域におけるグローバル情報の思考的利用による訓練制約として実証的に有効である。 画像強調と超分解能タスクに焦点をあてた大規模な実験的評価は、FDLが既存の誤配・損壊機能より優れていることを示した。 さらに、完全に不一致なデータのみに依存する画像スタイル転送のためのFDLの可能性についても検討する。 私たちのコードは、https://github.com/eezkni/FDLで利用可能です。

This paper aims to address a common challenge in deep learning-based image transformation methods, such as image enhancement and super-resolution, which heavily rely on precisely aligned paired datasets with pixel-level alignments. However, creating precisely aligned paired images presents significant challenges and hinders the advancement of methods trained on such data. To overcome this challenge, this paper introduces a novel and simple Frequency Distribution Loss (FDL) for computing distribution distance within the frequency domain. Specifically, we transform image features into the frequency domain using Discrete Fourier Transformation (DFT). Subsequently, frequency components (amplitude and phase) are processed separately to form the FDL loss function. Our method is empirically proven effective as a training constraint due to the thoughtful utilization of global information in the frequency domain. Extensive experimental evaluations, focusing on image enhancement and super-resolution tasks, demonstrate that FDL outperforms existing misalignment-robust loss functions. Furthermore, we explore the potential of our FDL for image style transfer that relies solely on completely misaligned data. Our code is available at: https://github.com/eezkni/FDL
翻訳日:2024-02-29 15:34:20 公開日:2024-02-28
# クラスタリングとランキング:エキスパートアライメント品質推定による多様性保存命令選択

Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation ( http://arxiv.org/abs/2402.18191v1 )

ライセンス: Link先を確認
Yuan Ge, Yilun Liu, Chi Hu, Weibin Meng, Shimin Tao, Xiaofeng Zhao, Hongxia Ma, Li Zhang, Hao Yang, Tong Xiao(参考訳) オープンソースコミュニティからのコントリビューションによって、大量の命令チューニング(it)データが登場した。 モデルのトレーニングと評価に必要な重要なリソース割り当てを考えると、高品質なITデータを選択する効率的な方法を持つことが有利である。 しかしながら、既存の命令データ選択手法には、脆弱な外部apiに依存すること、gptモデルのバイアスの影響、選択された命令データセットの多様性の低減など、制限がある。 本稿では,産業に優しく,専門家に順応し,多様性を保ったデータ選択手法であるクラスタリングとランキング(CaR)を提案する。 CaRは2つのステップからなる。 最初のステップは、専門家の好みに合致したスコア付けモデルを使って命令ペアをランク付けする(84.25%の精度を持つ)。 実験では、AlpacaのITデータのわずか1.96%しか含まれていないサブセットを選択したが、このサブセットでトレーニングされたAlpaCaRモデルは、GPT-4評価において平均32.1%Alpacaを上回っている。 さらに,本手法は小型モデル(355Mパラメータ)を用い,既存手法に比べて11.2%のコストしか必要とせず,産業シナリオでの展開が容易である。

With contributions from the open-source community, a vast amount of instruction tuning (IT) data has emerged. Given the significant resource allocation required by training and evaluating models, it is advantageous to have an efficient method for selecting high-quality IT data. However, existing methods for instruction data selection have limitations such as relying on fragile external APIs, being affected by biases in GPT models, or reducing the diversity of the selected instruction dataset. In this paper, we propose an industrial-friendly, expert-aligned and diversity-preserved instruction data selection method: Clustering and Ranking (CaR). CaR consists of two steps. The first step involves ranking instruction pairs using a scoring model that is well aligned with expert preferences (achieving an accuracy of 84.25%). The second step involves preserving dataset diversity through a clustering process.In our experiment, CaR selected a subset containing only 1.96% of Alpaca's IT data, yet the underlying AlpaCaR model trained on this subset outperforms Alpaca by an average of 32.1% in GPT-4 evaluations. Furthermore, our method utilizes small models (355M parameters) and requires only 11.2% of the monetary cost compared to existing methods, making it easily deployable in industrial scenarios.
翻訳日:2024-02-29 15:34:04 公開日:2024-02-28
# CFDNet: コントラスト特徴蒸留を用いた汎用的なFggy Stereo Matching Network

CFDNet: A Generalizable Foggy Stereo Matching Network with Contrastive Feature Distillation ( http://arxiv.org/abs/2402.18181v1 )

ライセンス: Link先を確認
Zihua Liu, Yizhou Li and Masatoshi Okutomi(参考訳) 散乱効果は可視性を低下させ、密度の高い対応マッチングには特徴の少ない特徴をもたらすため、霧の場面下でのステレオマッチングは難しい課題である。 従来の学習に基づく手法では、物理散乱関数を統合してステレオマッチングとデハージングを行ったが、霧を除去するだけでは、霧自体が重要な深さの手がかりとなるため、深度推定には役立たない。 本稿では,cfd(con contrastive feature distillation)に基づくフレームワークについて紹介する。 この戦略は、統合されたクリーンフォグ機能からのフィーチャー蒸留と対照的な学習を組み合わせることで、霧の深さヒントとクリーンマッチング機能に対するバランスのとれた依存を確保する。 このフレームワークはクリーン環境と霧環境の両方でモデルの一般化を促進するのに役立つ。 合成および実世界のデータセットに関する総合実験により,本手法の優れた強度と適応性が確認された。

Stereo matching under foggy scenes remains a challenging task since the scattering effect degrades the visibility and results in less distinctive features for dense correspondence matching. While some previous learning-based methods integrated a physical scattering function for simultaneous stereo-matching and dehazing, simply removing fog might not aid depth estimation because the fog itself can provide crucial depth cues. In this work, we introduce a framework based on contrastive feature distillation (CFD). This strategy combines feature distillation from merged clean-fog features with contrastive learning, ensuring balanced dependence on fog depth hints and clean matching features. This framework helps to enhance model generalization across both clean and foggy environments. Comprehensive experiments on synthetic and real-world datasets affirm the superior strength and adaptability of our method.
翻訳日:2024-02-29 15:33:41 公開日:2024-02-28
# 人間のシミュラクラ:大規模言語モデルのパーソナライズに向けて

Human Simulacra: A Step toward the Personification of Large Language Models ( http://arxiv.org/abs/2402.18180v1 )

ライセンス: Link先を確認
Qiuejie Xie, Qiming Feng, Tianqi Zhang, Qingqiu Li, Yuejie Zhang, Rui Feng, Shang Gao(参考訳) 大規模言語モデル(LLM)は人間の知性の側面を忠実に模倣するシステムとして認識されている。 この能力は社会科学界から注目を集めており、LLMを活用して人間の実験参加者を置き換え、研究コストと複雑さを低減させる可能性があると考えている。 本稿では,人間の認知過程をシミュレートするマルチエージェント認知機構と,自己と観察の両方の観点から人間のシミュレーションを評価する心理誘導評価手法を含む,大規模言語モデルの擬人化のためのフレームワークを紹介する。 実験の結果,構築したシミュラクラは,対象キャラクタに合わせた人格化応答を生成できることが判明した。 我々の研究は予備的な探索であり、実践的な応用に大きな可能性を秘めている。 すべてのコードとデータセットがリリースされ、さらなる調査を促進することを期待している。

Large language models (LLMs) are recognized as systems that closely mimic aspects of human intelligence. This capability has attracted attention from the social science community, who see the potential in leveraging LLMs to replace human participants in experiments, thereby reducing research costs and complexity. In this paper, we introduce a framework for large language models personification, including a strategy for constructing virtual characters' life stories from the ground up, a Multi-Agent Cognitive Mechanism capable of simulating human cognitive processes, and a psychology-guided evaluation method to assess human simulations from both self and observational perspectives. Experimental results demonstrate that our constructed simulacra can produce personified responses that align with their target characters. Our work is a preliminary exploration which offers great potential in practical applications. All the code and datasets will be released, with the hope of inspiring further investigations.
翻訳日:2024-02-29 15:33:26 公開日:2024-02-28
# 文脈に基づくフェイクニュース検出のための事前学習型グラフニューラルネットワークの課題:電流戦略と資源制限の評価

Challenges in Pre-Training Graph Neural Networks for Context-Based Fake News Detection: An Evaluation of Current Strategies and Resource Limitations ( http://arxiv.org/abs/2402.18179v1 )

ライセンス: Link先を確認
Gregor Donabauer and Udo Kruschwitz(参考訳) ニューラルネットワークの事前トレーニングは、最近自然言語処理(NLP)の分野に革命をもたらし、コンピュータビジョンにおいてその効果を実証した。 同時に、フェイクニュースの検出に関する進歩は主に、異なる種類のシグナル(ソーシャルメディアなど)が、ニュース記事とは別にコンテキスト情報を保持するグラフのような構造を形成して分類する、コンテキストベースのパラダイムによってもたらされた。 本稿では,グラフニューラルネットワーク(gnns)の事前学習を文脈に基づく偽ニュース検出の領域に適用することにより,これら2つの展開を統合することを提案する。 提案実験は,グラフに基づく誤情報検出のための事前学習戦略の評価を行い,転送学習がドメインのスクラッチからモデルをトレーニングする際の大幅な改善につながっていないことを示す。 現在の大きな問題は、事前トレーニングに使用できる適切な大規模リソースの欠如である、と私たちは主張する。

Pre-training of neural networks has recently revolutionized the field of Natural Language Processing (NLP) and has before demonstrated its effectiveness in computer vision. At the same time, advances around the detection of fake news were mainly driven by the context-based paradigm, where different types of signals (e.g. from social media) form graph-like structures that hold contextual information apart from the news article to classify. We propose to merge these two developments by applying pre-training of Graph Neural Networks (GNNs) in the domain of context-based fake news detection. Our experiments provide an evaluation of different pre-training strategies for graph-based misinformation detection and demonstrate that transfer learning does currently not lead to significant improvements over training a model from scratch in the domain. We argue that a major current issue is the lack of suitable large-scale resources that can be used for pre-training.
翻訳日:2024-02-29 15:33:11 公開日:2024-02-28
# リカレントポーラライゼーションネットワークを用いた反射除去

Reflection Removal Using Recurrent Polarization-to-Polarization Network ( http://arxiv.org/abs/2402.18178v1 )

ライセンス: Link先を確認
Wenjiao Bian, Yusuke Monno, Masatoshi Okutomi(参考訳) 本稿では, 撮像画像から反射成分を分離し, 透過成分のみで画像を導出する作業である反射除去に対処する。 反射の存在がシーンの偏光状態を変えることを考慮し、いくつかの既存手法は反射除去のために偏光画像を利用する。 これらの方法は入力として偏光画像を適用するが、反射と透過を直接非偏光強度画像として予測する。 対照的に,2つのシーケンシャルネットワークを用いた「偏光」反射・透過画像の入力として偏光画像を適用し,その相互関連偏光情報を利用して分離作業を容易にする偏光-偏光アプローチを提案する。 さらに、予測反射と透過画像を用いて互いに反復的に洗練する再帰的フレームワークを採用する。 公開データセットにおける実験結果から,本手法は他の最先端手法よりも優れていることが示された。

This paper addresses reflection removal, which is the task of separating reflection components from a captured image and deriving the image with only transmission components. Considering that the existence of the reflection changes the polarization state of a scene, some existing methods have exploited polarized images for reflection removal. While these methods apply polarized images as the inputs, they predict the reflection and the transmission directly as non-polarized intensity images. In contrast, we propose a polarization-to-polarization approach that applies polarized images as the inputs and predicts "polarized" reflection and transmission images using two sequential networks to facilitate the separation task by utilizing the interrelated polarization information between the reflection and the transmission. We further adopt a recurrent framework, where the predicted reflection and transmission images are used to iteratively refine each other. Experimental results on a public dataset demonstrate that our method outperforms other state-of-the-art methods.
翻訳日:2024-02-29 15:32:56 公開日:2024-02-28
# デフォーカスからの収差を考慮した自己監督型空間変動型PSF推定

Self-Supervised Spatially Variant PSF Estimation for Aberration-Aware Depth-from-Defocus ( http://arxiv.org/abs/2402.18175v1 )

ライセンス: Link先を確認
Zhuofeng Wu, Yusuke Monno, and Masatoshi Okutomi(参考訳) 本稿では,実カメラの空間変化点拡散関数(PSF)を考慮した収差認識深度デフォーカス(DfD)の課題に対処する。 地上psfを必要とせず、実カメラの空間的変種psfを効果的に得るため、カメラの開口設定を変更して簡単に撮影できる実シャープ画像とぼやけた画像の対を利用した、新しい自己教師付き学習法を提案する。 PSF推定では、回転対称PSFを仮定し、PSF推定ネットワークをより正確に学習するための極座標系を導入する。 また,現実のdfd状況で発生するフォーカス呼吸現象についても扱う。 合成データと実データを用いた実験結果から,PSF推定と深度推定の両方に関して,本手法の有効性が示された。

In this paper, we address the task of aberration-aware depth-from-defocus (DfD), which takes account of spatially variant point spread functions (PSFs) of a real camera. To effectively obtain the spatially variant PSFs of a real camera without requiring any ground-truth PSFs, we propose a novel self-supervised learning method that leverages the pair of real sharp and blurred images, which can be easily captured by changing the aperture setting of the camera. In our PSF estimation, we assume rotationally symmetric PSFs and introduce the polar coordinate system to more accurately learn the PSF estimation network. We also handle the focus breathing phenomenon that occurs in real DfD situations. Experimental results on synthetic and real data demonstrate the effectiveness of our method regarding both the PSF estimation and the depth estimation.
翻訳日:2024-02-29 15:32:31 公開日:2024-02-28
# 大規模言語モデルに基づくエージェントプラットフォームにおけるパーソナライズドレコメンデーション

Prospect Personalized Recommendation on Large Language Model-based Agent Platform ( http://arxiv.org/abs/2402.18240v1 )

ライセンス: Link先を確認
Jizhi Zhang, Keqin Bao, Wenjie Wang, Yang Zhang, Wentao Shi, Wanhong Xu, Fuli Feng, Tat-Seng Chua(参考訳) GPTによって実証されたエージェント指向情報システムでは,エージェントレベルの情報処理をサポートするための情報システム基盤の検査や,対話性などのLarge Language Model(LLM)ベースのエージェントの特性に適応するよう促される。 本研究では, LLMをベースとしたエージェントプラットフォームにおけるレコメンダシステムの展望と, エージェントアイテムとエージェントレコメンダで構成されるRec4Agentverseと呼ばれる新しいレコメンデーションパラダイムを導入する。 Rec4Agentverseは、エージェントアイテムとエージェントリコメンダの協調を強調し、パーソナライズされた情報サービスを促進し、従来のユーザ-リコメンダフィードバックループを超えて情報の交換を強化する。 さらに,rec4agentverseの進化を展望し,エージェントアイテム,エージェントレコメンデータ,ユーザ間のインタラクションと情報交換の強化に基づいて3段階に概念化する。 Rec4Agentverseのいくつかの症例に関する予備研究は、その応用の可能性を検証する。 最後に,今後の課題と今後の方向性について考察する。

The new kind of Agent-oriented information system, exemplified by GPTs, urges us to inspect the information system infrastructure to support Agent-level information processing and to adapt to the characteristics of Large Language Model (LLM)-based Agents, such as interactivity. In this work, we envisage the prospect of the recommender system on LLM-based Agent platforms and introduce a novel recommendation paradigm called Rec4Agentverse, comprised of Agent Items and Agent Recommender. Rec4Agentverse emphasizes the collaboration between Agent Items and Agent Recommender, thereby promoting personalized information services and enhancing the exchange of information beyond the traditional user-recommender feedback loop. Additionally, we prospect the evolution of Rec4Agentverse and conceptualize it into three stages based on the enhancement of the interaction and information exchange among Agent Items, Agent Recommender, and the user. A preliminary study involving several cases of Rec4Agentverse validates its significant potential for application. Lastly, we discuss potential issues and promising directions for future research.
翻訳日:2024-02-29 15:27:37 公開日:2024-02-28
# 光広視野核磁気共鳴顕微鏡

Optical Widefield Nuclear Magnetic Resonance Microscopy ( http://arxiv.org/abs/2402.18239v1 )

ライセンス: Link先を確認
Karl D. Briegel, Nick R. von Grafenstein, Julia C. Draeger, Peter Bl\"umler, Robin D. Allert, Dominik B. Bucher(参考訳) 顕微鏡は微細構造やプロセスの詳細な可視化と理解を可能にする。 カメラは光学、赤外線、電子顕微鏡を著しく進歩させたが、カメラの核磁気共鳴(nmr)信号の撮影はいまだに不可能である。 ここでは、ダイヤモンド中の窒素空孔(NV)中心を量子センサーとして使用し、NMR信号を光信号に変換し、その後高速カメラで捕捉する。 従来の磁気共鳴イメージング (mri) とは異なり, 本手法ではnmr信号を広い視野で実空間に記録する。 我々は、光学ワイドフィールドNMR顕微鏡(OMRM)により、$\sim 10\,\mu m$解像度を$\sim 235 \times 150\,\mu m^2$領域にわたって、マイクロ流体構造でNMR信号を撮像できることを実証した。 各カメラ画素は、信号の振幅、位相、局所磁場強度、勾配に関する多成分情報を提供するNMRスペクトルを記録する。 光顕微鏡とNMR技術の融合により、物理・生命科学における多面イメージングの応用が可能になる。

Microscopy enables detailed visualization and understanding of minute structures or processes. While cameras have significantly advanced optical, infrared, and electron microscopy, imaging nuclear magnetic resonance (NMR) signals on a camera has remained elusive. Here, we employ nitrogen-vacancy (NV) centers in diamond as a quantum sensor, which converts NMR signals into optical signals that are subsequently captured by a high-speed camera. Unlike traditional magnetic resonance imaging (MRI), our method records the NMR signal over a wide field of view in real space. We demonstrate that our optical widefield NMR microscopy (OMRM) can image NMR signals in microfluidic structures with a $\sim 10\,\mu m$ resolution across a $\sim 235 \times 150\,\mu m^2$ area. Crucially, each camera pixel records an NMR spectrum providing multicomponent information about the signal's amplitude, phase, local magnetic field strengths, and gradients. The fusion of optical microscopy and NMR techniques enables multifaceted imaging applications in the physical and life sciences.
翻訳日:2024-02-29 15:27:20 公開日:2024-02-28
# 時間結晶と相空間非可換量子力学

Time Crystals and Phase-Space Noncommutative Quantum Mechanics ( http://arxiv.org/abs/2402.18238v1 )

ライセンス: Link先を確認
Orfeu Bertolami, A.E. Bernardini(参考訳) 時間結晶の性質は自然に位相空間非可換量子力学から生じると主張する。 この点を例示するために, 2次元非可換量子調和振動子を考察し, 周期振動を時間結晶と同定できることを示す。

We argue that time crystal properties naturally arise from phase-space noncommutative quantum mechanics. In order to exemplify our point we consider the 2-dimensional noncommutative quantum harmonic oscillator and show that it exibihits periodic oscillations that can be identified as time crystals.
翻訳日:2024-02-29 15:27:04 公開日:2024-02-28
# $SU(\infty)$Quantum Gravity(SU(\infty)$-QGR)におけるYang-Mills場の量子状態

Quantum state of Yang-Mills fields in $SU(\infty)$ Quantum Gravity ($SU(\infty)$-QGR) ( http://arxiv.org/abs/2402.18237v1 )

ライセンス: Link先を確認
Houri Ziaeepour(参考訳) 我々の宇宙は量子力学によって支配され、量子系として扱われるべきである。 $SU(\infty)$-QGR は、最近提案された宇宙の量子モデルであり、重力はそのヒルベルト空間の$SU(\infty)$対称性と関連付けられている。 ランダムな量子揺らぎによる無限次元状態のクラスタリングは、宇宙をおよそ孤立したサブシステムに分割する。 内部有限ランク対称性のパラメータに加えて、サブシステムの状態とダイナミクスは4つの連続的なパラメータによって特徴づけられ、知覚される古典時空はサブシステムの量子状態とそれらの関係進化を反映した効果的な表現である。 最低次数において、$su(\infty)$-qgrの有効ラグランジアンは、上述の4次元パラメータ空間上で定義される$su(\infty)$-重力と内部対称性の両方のyang-millsゲージ理論の形を持つ。 本研究では、より徹底的に$SU(\infty)$-QGRの基本的な側面について研究する。 具体的には、$\mathcal{su}(\infty)$の縮退の影響、サブシステムの混合状態とその浄化、宇宙の他の部分との絡み合いの測度の計算、局所ゲージ対称性の出現におけるそれらの役割について論じる。 また、$SU(\infty)$ Yang-Mills の内部空間と 4D パラメータ空間の関係を記述し、物理観測可能量に対する幾何パラメータ空間の無関係性を解析的に示す。 これらの話題とともに、量子システムの合成性に関する2つの基準の等価性を示し、$SU(\infty)$に導く様々な代数の極限の特異性を示す。

Our Universe is ruled by quantum mechanics and should be treated as a quantum system. $SU(\infty)$-QGR is a recently proposed quantum model for the Universe, in which gravity is associated to $SU(\infty)$ symmetry of its Hilbert space. Clustering of its infinite dimensional state due to random quantum fluctuations divides the Universe to approximately isolated subsystems. In addition to parameters of their internal finite rank symmetries, states and dynamics of subsystems are characterized by 4 continuous parameters, and the perceived classical spacetime is their effective representation, reflecting quantum states of subsystems and theirrelative evolution. At lowest order the effective Lagrangian of $SU(\infty)$-QGR has the form of Yang-Mills gauge theories for both $SU(\infty)$ - gravity - and internal symmetries defined on the aforementioned 4D parameter space. In the present work we study more thoroughly some of the fundamental aspects of $SU(\infty)$-QGR. Specifically, we clarify impact of the degeneracy of $\mathcal{SU}(\infty)$; describe mixed states of subsystems and their purification; calculate measures of their entanglement to the rest of the Universe; and discuss their role in the emergence of local gauge symmetries. We also describe the relationship between what is called internal space of $SU(\infty)$ Yang-Mills with the 4D parameter space, and analytically demonstrate irrelevance of the geometry parameter space for physical observables. Along with these topics, we demonstrate the equivalence of two sets of criteria for compositeness of a quantum system, and show uniqueness of the limit of various algebras leading to $SU(\infty)$.
翻訳日:2024-02-29 15:26:58 公開日:2024-02-28
# 画像2Flow:3次元心臓MRIデータを用いた高速肺動脈分画とCFD血流場計算のためのハイブリッド画像とグラフ畳み込みニューラルネットワーク

Image2Flow: A hybrid image and graph convolutional neural network for rapid patient-specific pulmonary artery segmentation and CFD flow field calculation from 3D cardiac MRI data ( http://arxiv.org/abs/2402.18236v1 )

ライセンス: Link先を確認
Tina Yao, Endrit Pajaziti, Michael Quail, Silvia Schievano, Jennifer A Steeden, Vivek Muthurangu(参考訳) 計算流体力学(CFD)は血行動態の評価に用いられる。 しかし、日常的な使用は、労働集約的な手動セグメンテーション、cfdメッシュの作成、時間消費シミュレーションによって制限される。 本研究の目的は, 深層学習モデルを用いて, 3次元心臓MRIデータから患者固有の肺動脈容積データを生成し, CFD血流場を直接推定することである。 この研究は、パブリックデータセットとプライベートデータセットの両方から135個の3d心臓mriを使用した。 mriの肺動脈は手作業で分節化され,音量計に変換された。 基礎真理メッシュ上でCFDシミュレーションを行い、点点対応メッシュに補間して基底真理データセットを作成する。 データセットはトレーニング、検証、テストのために85/10/15に分割された。 Image2Flowは、ハイブリッド画像とグラフ畳み込みニューラルネットワークで、肺動脈テンプレートを患者固有の解剖学とCFD値に変換するために訓練された。 予測したcfdのセグメンテーションと精度をノード間比較により評価した。 機械学習セグメンテーションを用いた画像2FlowとCFDシミュレーションのセンターライン比較も行った。 image2flowのセグメンテーション精度は0.9%(iqr: 0.86-0.92)と高い。 圧力と速度の絶対誤差の平均値は11.98%(IQR: 9.44-17.90%)と8.06%(IQR: 7.54-10.41)であった。 中心線解析では,画像2Flowと従来のCFDとの有意な差は認められなかった。 この概念実証研究により,患者固有のボリューム・メッシュに基づくセグメンテーションと圧力・流れ場推定を同時に行うことが可能となった。 Image2Flowは205msでセグメンテーションとCFDを完了し、手作業よりも7000倍速く、臨床環境ではより実現可能である。

Computational fluid dynamics (CFD) can be used for evaluation of hemodynamics. However, its routine use is limited by labor-intensive manual segmentation, CFD mesh creation, and time-consuming simulation. This study aims to train a deep learning model to both generate patient-specific volume-meshes of the pulmonary artery from 3D cardiac MRI data and directly estimate CFD flow fields. This study used 135 3D cardiac MRIs from both a public and private dataset. The pulmonary arteries in the MRIs were manually segmented and converted into volume-meshes. CFD simulations were performed on ground truth meshes and interpolated onto point-point correspondent meshes to create the ground truth dataset. The dataset was split 85/10/15 for training, validation and testing. Image2Flow, a hybrid image and graph convolutional neural network, was trained to transform a pulmonary artery template to patient-specific anatomy and CFD values. Image2Flow was evaluated in terms of segmentation and accuracy of CFD predicted was assessed using node-wise comparisons. Centerline comparisons of Image2Flow and CFD simulations performed using machine learning segmentation were also performed. Image2Flow achieved excellent segmentation accuracy with a median Dice score of 0.9 (IQR: 0.86-0.92). The median node-wise normalized absolute error for pressure and velocity magnitude was 11.98% (IQR: 9.44-17.90%) and 8.06% (IQR: 7.54-10.41), respectively. Centerline analysis showed no significant difference between the Image2Flow and conventional CFD simulated on machine learning-generated volume-meshes. This proof-of-concept study has shown it is possible to simultaneously perform patient specific volume-mesh based segmentation and pressure and flow field estimation. Image2Flow completes segmentation and CFD in ~205ms, which ~7000 times faster than manual methods, making it more feasible in a clinical environment.
翻訳日:2024-02-29 15:26:26 公開日:2024-02-28
# 視覚記述規則化によるゼロショット空中物体検出

Zero-Shot Aerial Object Detection with Visual Description Regularization ( http://arxiv.org/abs/2402.18233v1 )

ライセンス: Link先を確認
Zhengqing Zang, Chenyu Lin, Chenwei Tang, Tao Wang, Jiancheng Lv(参考訳) 既存のオブジェクト検出モデルは、主に大規模なラベル付きデータセットでトレーニングされる。 しかし,新しい空域オブジェクトのアノテーションは時間を要するため,専門家の知識を必要とする可能性がある。 したがって, 航空画像上でのラベル効率の高い物体検出手法を検討することが望ましい。 本研究では,視覚的記述規則化(DescReg)と呼ばれる空中物体検出のためのゼロショット手法を提案する。 具体的には、航空物体の弱い意味的・視覚的相関を識別し、その視覚的外観の事前記述による課題に対処することを目的とする。 表現ギャップ問題に苦しむクラス埋め込み空間に記述を直接エンコードするのではなく,記述に伝達されるクラス間の視覚的類似性を埋め込み学習に注入することを提案する。 注入プロセスは、表現空間上の構造化正規化を含む、新たに設計された類似性を考慮した三重項損失によって達成される。 我々は、dior、xview、dotaを含む3つの挑戦的な空中物体検出データセットを用いて広範囲な実験を行う。 その結果、DescRegは複雑なプロジェクション設計や生成フレームワークで最先端のZSDメソッドよりも優れており、例えば、DescRegはDIOR上で4.5mAP、HMでは8.1のZSDメソッドよりも優れていた。 さらに,descregを生成型zsd法に統合し,検出アーキテクチャを変化させることで,その一般化可能性を示す。

Existing object detection models are mainly trained on large-scale labeled datasets. However, annotating data for novel aerial object classes is expensive since it is time-consuming and may require expert knowledge. Thus, it is desirable to study label-efficient object detection methods on aerial images. In this work, we propose a zero-shot method for aerial object detection named visual Description Regularization, or DescReg. Concretely, we identify the weak semantic-visual correlation of the aerial objects and aim to address the challenge with prior descriptions of their visual appearance. Instead of directly encoding the descriptions into class embedding space which suffers from the representation gap problem, we propose to infuse the prior inter-class visual similarity conveyed in the descriptions into the embedding learning. The infusion process is accomplished with a newly designed similarity-aware triplet loss which incorporates structured regularization on the representation space. We conduct extensive experiments with three challenging aerial object detection datasets, including DIOR, xView, and DOTA. The results demonstrate that DescReg significantly outperforms the state-of-the-art ZSD methods with complex projection designs and generative frameworks, e.g., DescReg outperforms best reported ZSD method on DIOR by 4.5 mAP on unseen classes and 8.1 in HM. We further show the generalizability of DescReg by integrating it into generative ZSD methods as well as varying the detection architecture.
翻訳日:2024-02-29 15:25:53 公開日:2024-02-28
# グリーンコーディングの可能性 --産業、教育、科学の知見と推奨 ----拡張論文

Potentials of Green Coding -- Findings and Recommendations for Industry, Education and Science -- Extended Paper ( http://arxiv.org/abs/2402.18227v1 )

ライセンス: Link先を確認
Dennis Junger (HTW Berlin), Max Westing (Umwelt-Campus Birkenfeld), Christopher P. Freitag (HTW Berlin), Achim Guldner (Umwelt-Campus Birkenfeld), Konstantin Mittelbach (HTW Berlin), Kira Oberg\"oker (Umwelt-Campus Birkenfeld), Sebastian Weber (Umwelt-Campus Birkenfeld), Stefan Naumann (Umwelt-Campus Birkenfeld), Volker Wohlgemuth (HTW Berlin)(参考訳) デジタル化の進展とソフトウェア需要の増加と利用は、情報通信技術(ICT)からのエネルギー消費と資源消費を増大させる。 これはictにおける持続可能性の問題を引き起こし、ソフトウェア製品自体の持続可能性と持続可能なソフトウェアを作成する技術がますます含まれている。 そこで我々は,環境保全型ソフトウェア(Green Coding)の生産に関する3つの研究課題について,既存の文献を収集・提示し,課題にアプローチする利害関係者に方向性を提供するための分析を行った。 2010年から公開されたGreen Coding and Green Software Engineering (GSE)へのアプローチをコンパイルする。 さらに,既存の産業プロセスと高等教育カリキュラムに統合して,環境に配慮した将来の発展に影響を及ぼす方法を検討した。

Progressing digitalization and increasing demand and use of software cause rises in energy- and resource consumption from information and communication technologies (ICT). This raises the issue of sustainability in ICT, which increasingly includes the sustainability of the software products themselves and the art of creating sustainable software. To this end, we conducted an analysis to gather and present existing literature on three research questions relating to the production of ecologically sustainable software ("Green Coding") and to provide orientation for stakeholders approaching the subject. We compile the approaches to Green Coding and Green Software Engineering (GSE) that have been published since 2010. Furthermore, we considered ways to integrate the findings into existing industrial processes and higher education curricula to influence future development in an environmentally friendly way.
翻訳日:2024-02-29 15:25:29 公開日:2024-02-28
# CogBench: 大きな言語モデルが心理学実験室に入る

CogBench: a large language model walks into a psychology lab ( http://arxiv.org/abs/2402.18225v1 )

ライセンス: Link先を確認
Julian Coda-Forno, Marcel Binz, Jane X. Wang and Eric Schulz(参考訳) 大規模言語モデル(LLM)は人工知能の分野を大きく進歩させた。 しかし、それらを総合的に評価することは難しい。 その理由の一部は、ほとんどのベンチマークのパフォーマンス指標に重点を置いているからです。 本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。 この手法はLLMの振舞いを表現するためのツールキットを提供する。 我々はCagBenchを35 LLMに適用し、リッチで多様なデータセットを生成する。 我々は,このデータを統計的多レベルモデリング手法を用いて解析し,特定のLLMの微調整バージョン間のネスト依存性を考慮した。 本研究は,人的フィードバック(RLHF)によるモデルサイズと強化学習が,人的行動に適応する上で重要であることを明らかにする。 興味深いことに、オープンソースモデルはプロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振る舞いを促進しない。 最後に,プロンプトエンジニアリング技術の効果について検討する。 チェーン・オブ・シントは確率論的推論を改善する一方、テイク・ア・ステップ・バックはモデルに基づく行動を促進する。

Large language models (LLMs) have significantly advanced the field of artificial intelligence. Yet, evaluating them comprehensively remains challenging. We argue that this is partly due to the predominant focus on performance metrics in most benchmarks. This paper introduces CogBench, a benchmark that includes ten behavioral metrics derived from seven cognitive psychology experiments. This novel approach offers a toolkit for phenotyping LLMs' behavior. We apply CogBench to 35 LLMs, yielding a rich and diverse dataset. We analyze this data using statistical multilevel modeling techniques, accounting for the nested dependencies among fine-tuned versions of specific LLMs. Our study highlights the crucial role of model size and reinforcement learning from human feedback (RLHF) in improving performance and aligning with human behavior. Interestingly, we find that open-source models are less risk-prone than proprietary models and that fine-tuning on code does not necessarily enhance LLMs' behavior. Finally, we explore the effects of prompt-engineering techniques. We discover that chain-of-thought prompting improves probabilistic reasoning, while take-a-step-back prompting fosters model-based behaviors.
翻訳日:2024-02-29 15:25:15 公開日:2024-02-28
# アダプティブデコードによるオープンエンドテキスト生成の改善

Improving Open-Ended Text Generation via Adaptive Decoding ( http://arxiv.org/abs/2402.18223v1 )

ライセンス: Link先を確認
Wenhong Zhu, Hongkun Hao, Zhiwei He, Yiming Ai and Rui Wang(参考訳) 現在の言語モデルは、確率分布に従ってテキストトークンをトークンでデコードし、次のトークンの適切な候補を決定することは、生成品質を確保するために不可欠である。 そこで本研究では,言語モデルに適応型デコードを導入することで,生成過程中に有意義な候補集合を動的に確認する機構を提案する。 具体的には、信頼度と呼ばれるエントロピーに基づく計量を導入し、最適候補集合を信頼増加過程として決定する。 信頼の増大を利用して、候補集合にトークンを含む合理性を評価し、モデルが最適な候補集合を適応的に決定できるようにする。 実験結果から,本手法はストーリー生成タスクにおいて高いMAUVEと多様性を達成し,一貫性を保ち,既存のアルゴリズムよりも優れていることを示す。 コードはhttps://github.com/zwhong714/adaptive_decodingで入手できる。

Current language models decode text token by token according to probabilistic distribution, and determining the appropriate candidates for the next token is crucial to ensure generation quality. This study introduces adaptive decoding, a mechanism that empowers the language models to ascertain a sensible candidate set during the generation process dynamically. Specifically, we introduce an entropy-based metric called confidence and conceptualize determining the optimal candidate set as a confidence-increasing process. The rationality of including a token in the candidate set is assessed by leveraging the increment of confidence, enabling the model to determine the most suitable candidate set adaptively. The experimental results reveal that our method achieves higher MAUVE and diversity in story generation tasks and maintains certain coherence, underscoring its superiority over existing algorithms. The code is available at https://github.com/zwhong714/adaptive_decoding.
翻訳日:2024-02-29 15:25:01 公開日:2024-02-28
# HearHere:AIベースのWebシステムによるニュース消費におけるEchoチャンバーの緩和

HearHere: Mitigating Echo Chambers in News Consumption through an AI-based Web System ( http://arxiv.org/abs/2402.18222v1 )

ライセンス: Link先を確認
Youngseung Jeon, Jaehoon Kim, Sohyun Park, Yunyong Ko, Seongeun Ryu, Sang-Wook Kim, Kyungsik Han(参考訳) 現在、偽ニュースへの感受性の高まりや科学的証拠の受け入れに対する抵抗など、エコーチャンバーのネガティブな影響を軽減するための検討が進められている。 先行研究は、様々な政治的観点からニュース情報の消費を支援するコンピュータシステムの開発を示し、エコーチェンバー効果を緩和した。 しかし,既存の研究では,ニュース情報消費の重要過程を効果的に支援し,情報に対する政治的スタンスを定量的に識別する能力が不足している。 本稿では,多様な視点から情報や意見の収集を支援するAIベースのWebシステムであるHearHereを紹介する。 hearhereは2つの視覚化を通じてニュース情報消費の重要なプロセスを促進する。 視覚化1は、私たちのグラフベースの政治分類モデルから派生した、政治ニュースに定量的な政治的スタンス情報を提供します。 ビジュアライゼーション2では、ユーザーは特定の政治的問題に対する意見をコメント形式で表現し、地図インターフェースで提示された自由主義的および保守的コメントに対する自身の意見の位置を観察することができる(ここで)。 94名の参加者によるユーザ調査により,様々な視点からの情報消費を支援する「聞き取り」の実現可能性を示す。 本研究は、政治的偏極を軽減する手段として、政治的スタンス情報の提供とユーザの政治的地位の定量化の重要性を強調した。 さらに, 政治関心などの人口動態を考慮したシステム開発や, ユーザへのイニシアチブ提供など, システム開発への設計的示唆を提案する。

Considerable efforts are currently underway to mitigate the negative impacts of echo chambers, such as increased susceptibility to fake news and resistance towards accepting scientific evidence. Prior research has presented the development of computer systems that support the consumption of news information from diverse political perspectives to mitigate the echo chamber effect. However, existing studies still lack the ability to effectively support the key processes of news information consumption and quantitatively identify a political stance towards the information. In this paper, we present HearHere, an AI-based web system designed to help users accommodate information and opinions from diverse perspectives. HearHere facilitates the key processes of news information consumption through two visualizations. Visualization 1 provides political news with quantitative political stance information, derived from our graph-based political classification model, and users can experience diverse perspectives (Hear). Visualization 2 allows users to express their opinions on specific political issues in a comment form and observe the position of their own opinions relative to pro-liberal and pro-conservative comments presented on a map interface (Here). Through a user study with 94 participants, we demonstrate the feasibility of HearHere in supporting the consumption of information from various perspectives. Our findings highlight the importance of providing political stance information and quantifying users' political status as a means to mitigate political polarization. In addition, we propose design implications for system development, including the consideration of demographics such as political interest and providing users with initiatives.
翻訳日:2024-02-29 15:24:46 公開日:2024-02-28
# 混合露光補正のための地域対応露光整合ネットワーク

Region-Aware Exposure Consistency Network for Mixed Exposure Correction ( http://arxiv.org/abs/2402.18217v1 )

ライセンス: Link先を確認
Jin Liu, Huiyuan Fu, Chuanming Wang, Huadong Ma(参考訳) 露光補正は、不適切な露光に苦しむ画像を強化し、良好な視覚効果を達成することを目的としている。 最近の進歩にもかかわらず、既存の手法は一般的に入力画像の露出過多や露出過多を軽減し、混合露光で画像を扱うのに苦慮している。 混合露光分布は非一様であり、様々な表現をもたらすため、統一されたプロセスで対処することは困難である。 本稿では,地域別露光表現を適応的に学習し,ブリッジすることで,混合露光を処理できる効果的な地域対応露光補正ネットワーク(RECNet)を提案する。 具体的には,混合露光による課題に対処するために,混合露光シナリオの地域的特徴を効果的に露光不変特徴空間に変換する領域認識露光モジュールを開発した。 同時に、露光除去操作が識別情報を必然的に減少させるため、露光不変特徴と未処理特徴を統合して局所情報を復元する混合スケール復元ユニットを導入する。 さらに,グローバル画像における一様露光分布を実現するために,地域内露光一貫性と地域間露光連続性の制約下での露光コントラスト正規化戦略を提案する。 様々なデータセットについて広範な実験を行い,提案手法の優越性と一般化を実証した。 コードはhttps://github.com/kravrolens/recnet。

Exposure correction aims to enhance images suffering from improper exposure to achieve satisfactory visual effects. Despite recent progress, existing methods generally mitigate either overexposure or underexposure in input images, and they still struggle to handle images with mixed exposure, i.e., one image incorporates both overexposed and underexposed regions. The mixed exposure distribution is non-uniform and leads to varying representation, which makes it challenging to address in a unified process. In this paper, we introduce an effective Region-aware Exposure Correction Network (RECNet) that can handle mixed exposure by adaptively learning and bridging different regional exposure representations. Specifically, to address the challenge posed by mixed exposure disparities, we develop a region-aware de-exposure module that effectively translates regional features of mixed exposure scenarios into an exposure-invariant feature space. Simultaneously, as de-exposure operation inevitably reduces discriminative information, we introduce a mixed-scale restoration unit that integrates exposure-invariant features and unprocessed features to recover local information. To further achieve a uniform exposure distribution in the global image, we propose an exposure contrastive regularization strategy under the constraints of intra-regional exposure consistency and inter-regional exposure continuity. Extensive experiments are conducted on various datasets, and the experimental results demonstrate the superiority and generalization of our proposed method. The code is released at: https://github.com/kravrolens/RECNet.
翻訳日:2024-02-29 15:24:20 公開日:2024-02-28
# LLMタスク干渉:会話史におけるタスクスイッチの影響に関する最初の研究

LLM Task Interference: An Initial Study on the Impact of Task-Switch in Conversational History ( http://arxiv.org/abs/2402.18216v1 )

ライセンス: Link先を確認
Akash Gupta, Ivaxi Sheth, Vyas Raina, Mark Gales, Mario Fritz(参考訳) 近年、強力な命令調整型大規模言語モデル(LLM)が出現し、様々な有用な対話型人工知能(AI)システムが多くのアプリケーションに展開されている。 ユーザーから刺激を受けると、これらのAIシステムは会話の一部として幅広いタスクを遂行する。 ある種の記憶とコンテキストを提供するため、そのようなアプローチは通常、会話の歴史全体に対して出力を条件付ける。 会話履歴に対するこの感度は、後続のタスクのパフォーマンス改善につながることが多いが、タスクスイッチがある場合、実際にはパフォーマンスにも悪影響を及ぼす可能性がある。 我々の知識を最大限に活用するために、我々の研究は、会話の歴史におけるタスクスイッチによって引き起こされる会話LLMにおけるそのような脆弱性とタスクの干渉の研究を形式化する最初の試みである。 15のタスクスイッチを持つ5つのデータセットを対象とした実験により,タスクスイッチの多くは,大幅なパフォーマンス低下につながることが判明した。

With the recent emergence of powerful instruction-tuned large language models (LLMs), various helpful conversational Artificial Intelligence (AI) systems have been deployed across many applications. When prompted by users, these AI systems successfully perform a wide range of tasks as part of a conversation. To provide some sort of memory and context, such approaches typically condition their output on the entire conversational history. Although this sensitivity to the conversational history can often lead to improved performance on subsequent tasks, we find that performance can in fact also be negatively impacted, if there is a task-switch. To the best of our knowledge, our work makes the first attempt to formalize the study of such vulnerabilities and interference of tasks in conversational LLMs caused by task-switches in the conversational history. Our experiments across 5 datasets with 15 task switches using popular LLMs reveal that many of the task-switches can lead to significant performance degradation.
翻訳日:2024-02-29 15:23:54 公開日:2024-02-28
# 多目的微分可能なニューラルアーキテクチャ探索

Multi-objective Differentiable Neural Architecture Search ( http://arxiv.org/abs/2402.18213v1 )

ライセンス: Link先を確認
Rhea Sanjay Sukthanker, Arber Zela, Benedikt Staffler, Samuel Dooley, Josif Grabocka, Frank Hutter(参考訳) 多目的最適化(MOO)におけるパレートフロントプロファイリング、すなわち多様なパレート最適解を見つけることは、特にニューラルネットワークトレーニングのような高価な目的において困難である。 通常、moo neural architecture search(nas)では、デバイス間でのパフォーマンスとハードウェアメトリクスのバランスを取ることを目的としています。 以前のnasアプローチでは、ハードウェアの制約を目的関数に組み込むことでこの作業を単純化したが、paretoフロントのプロファイリングには各制約の探索が必要である。 本稿では,パフォーマンスとハードウェア指標のトレードオフに対するユーザの好みをエンコードし,単一の検索実行で複数のデバイスにまたがる代表的かつ多様なアーキテクチャを実現する新しいnasアルゴリズムを提案する。 この目的のために,ハードウェア機能や選好ベクトルを条件としたハイパーネットワークにより,デバイス間および複数の目的間の共同アーキテクチャ分布のパラメータ化を行い,新たなデバイスへのゼロショット転送を可能とした。 最大19個のハードウェアデバイスと3つの目標を用いた大規模な実験により,本手法の有効性とスケーラビリティが示された。 最後に,画像Net-1k上のMobileNetV3や機械翻訳におけるTransformer空間など,定性的に異なる検索空間やデータセットをまたいだ既存のMOO NAS手法よりも優れていることを示す。

Pareto front profiling in multi-objective optimization (MOO), i.e. finding a diverse set of Pareto optimal solutions, is challenging, especially with expensive objectives like neural network training. Typically, in MOO neural architecture search (NAS), we aim to balance performance and hardware metrics across devices. Prior NAS approaches simplify this task by incorporating hardware constraints into the objective function, but profiling the Pareto front necessitates a search for each constraint. In this work, we propose a novel NAS algorithm that encodes user preferences for the trade-off between performance and hardware metrics, and yields representative and diverse architectures across multiple devices in just one search run. To this end, we parameterize the joint architectural distribution across devices and multiple objectives via a hypernetwork that can be conditioned on hardware features and preference vectors, enabling zero-shot transferability to new devices. Extensive experiments with up to 19 hardware devices and 3 objectives showcase the effectiveness and scalability of our method. Finally, we show that, without additional costs, our method outperforms existing MOO NAS methods across qualitatively different search spaces and datasets, including MobileNetV3 on ImageNet-1k and a Transformer space on machine translation.
翻訳日:2024-02-29 15:23:40 公開日:2024-02-28
# 破滅的な過剰フィッティング:偽装による潜在的祝福

Catastrophic Overfitting: A Potential Blessing in Disguise ( http://arxiv.org/abs/2402.18211v1 )

ライセンス: Link先を確認
Mengnan Zhao, Lihe Zhang, Yuqiu Kong, Baocai Yin(参考訳) FAT(Fast Adversarial Training)は、敵の堅牢性向上に効果があるとして、研究コミュニティ内で注目を集めている。 特に注目すべきは、この分野における破滅的なオーバーフィッティング(CO)による課題である。 既存のFATアプローチではCOの緩和が進んでいるが, クリーンサンプルの分類精度が低下するにつれて, 対向ロバスト性の上昇が生じる。 この問題に対処するため,我々はまず,coの根底にある原因を分析するために,クリーン例と敵例のアクティベーションの差異を用いる。 興味深いことに、COはいくつかの特定の経路によって引き起こされる特徴カバレッジに起因することが判明した。 これらの経路の活性化差を適切に設計された正規化項で意図的に操作することにより、COを効果的に緩和し誘導し、この観察のさらなる証拠を与えることができる。 特に、これらの用語で安定的に訓練されたモデルは、以前のFATよりも優れた性能を示す。 そこで本研究では,coをモデル性能の向上を目的とした「攻撃難読化」に活用する。 これにより、評価中に入力にランダムノイズを加える際に、クリーンデータと逆データの両方に対して最適な分類精度が得られる。 また, 移動した敵の例に対する頑健性と, 強靭性を改善するためにCOを誘導する必要性についても検証した。 したがって、COは解決すべき問題ではないかもしれない。

Fast Adversarial Training (FAT) has gained increasing attention within the research community owing to its efficacy in improving adversarial robustness. Particularly noteworthy is the challenge posed by catastrophic overfitting (CO) in this field. Although existing FAT approaches have made strides in mitigating CO, the ascent of adversarial robustness occurs with a non-negligible decline in classification accuracy on clean samples. To tackle this issue, we initially employ the feature activation differences between clean and adversarial examples to analyze the underlying causes of CO. Intriguingly, our findings reveal that CO can be attributed to the feature coverage induced by a few specific pathways. By intentionally manipulating feature activation differences in these pathways with well-designed regularization terms, we can effectively mitigate and induce CO, providing further evidence for this observation. Notably, models trained stably with these terms exhibit superior performance compared to prior FAT work. On this basis, we harness CO to achieve `attack obfuscation', aiming to bolster model performance. Consequently, the models suffering from CO can attain optimal classification accuracy on both clean and adversarial data when adding random noise to inputs during evaluation. We also validate their robustness against transferred adversarial examples and the necessity of inducing CO to improve robustness. Hence, CO may not be a problem that has to be solved.
翻訳日:2024-02-29 15:23:17 公開日:2024-02-28
# DANSK and DaCy 2.6.0: Domain Generalization of Danish Named Entity Recognition

DANSK and DaCy 2.6.0: Domain Generalization of Danish Named Entity Recognition ( http://arxiv.org/abs/2402.18209v1 )

ライセンス: Link先を確認
Kenneth Enevoldsen, Emil Trenckner Jessen, Rebekah Baglini(参考訳) 名前付き実体認識はデンマークのNLPの基盤の1つであり、産業と研究の両方において言語技術の応用に不可欠である。 しかし、デンマークのNERは利用可能なデータセットの不足によって阻害されている。 その結果、現在のモデルでは命名されたエンティティの認識を微粒化することはできないし、データセットやドメイン間での一般化可能性の問題にも評価されていない。 これらの制限を緩和するために、本論文では以下を紹介する。 1) dansk: 名前付きエンティティデータセットは、多種多様なドメインにわたるモデルのドメイン内評価と同様に、高粒度タグ付けを提供する。 2) 微粒なアノテーションを持つ3つの一般化可能なモデルを含むDaCy 2.6.0 3) ドメインをまたいで一般化する現在の技術モデルの能力の評価。 既存のモデルと新しいモデルの評価により、フィールド内で対処すべきドメイン間の顕著なパフォーマンスの相違が明らかになった。 また、データセットのアノテーション品質の欠点とモデルトレーニングと評価への影響についても論じる。 これらの制限にもかかわらず、デンマークのNERにおける一般化可能性に関するさらなる研究とともに、新たなデータセットDANSKの使用を提唱する。

Named entity recognition is one of the cornerstones of Danish NLP, essential for language technology applications within both industry and research. However, Danish NER is inhibited by a lack of available datasets. As a consequence, no current models are capable of fine-grained named entity recognition, nor have they been evaluated for potential generalizability issues across datasets and domains. To alleviate these limitations, this paper introduces: 1) DANSK: a named entity dataset providing for high-granularity tagging as well as within-domain evaluation of models across a diverse set of domains; 2) DaCy 2.6.0 that includes three generalizable models with fine-grained annotation; and 3) an evaluation of current state-of-the-art models' ability to generalize across domains. The evaluation of existing and new models revealed notable performance discrepancies across domains, which should be addressed within the field. Shortcomings of the annotation quality of the dataset and its impact on model training and evaluation are also discussed. Despite these limitations, we advocate for the use of the new dataset DANSK alongside further work on the generalizability within Danish NER.
翻訳日:2024-02-29 15:22:56 公開日:2024-02-28
# 雑音ロバスト自動音声認識用アダプタの検討

Exploration of Adapter for Noise Robust Automatic Speech Recognition ( http://arxiv.org/abs/2402.18275v1 )

ライセンス: Link先を確認
Hao Shi, Tatsuya Kawahara(参考訳) 強固な自動音声認識(asr)システムを未認識雑音に適応させることが不可欠である。 ニューラルネットワークへのアダプタの統合は、転送学習の強力なテクニックとして現れています。 本稿では,アダプタによるノイズロバスト型asr適応について徹底的に検討する。 我々はCHiME--4データセットを用いて実験を行った。 その結果, 浅い層にアダプタを挿入すると優れた効果が得られ, 浅い層のみへの適応とすべての層への適応との間に有意な差は認められなかった。 さらに、シミュレーションデータにより、実雑音下での性能を向上させることができる。 それでも、データの量が同じである場合、実データはシミュレーションデータよりも効果的である。 マルチコンディショントレーニングはアダプタトレーニングに有効である。 さらに、音声強調ベースのasrシステムにアダプタを統合することで、大幅に改善される。

Adapting a robust automatic speech recognition (ASR) system to tackle unseen noise scenarios is crucial. Integrating adapters into neural networks has emerged as a potent technique for transfer learning. This paper thoroughly investigates adapter-based noise-robust ASR adaptation. We conducted the experiments using the CHiME--4 dataset. The results show that inserting the adapter in the shallow layer yields superior effectiveness, and there is no significant difference between adapting solely within the shallow layer and adapting across all layers. Besides, the simulated data helps the system to improve its performance under real noise conditions. Nonetheless, when the amount of data is the same, the real data is more effective than the simulated data. Multi-condition training remains valid for adapter training. Furthermore, integrating adapters into speech enhancement-based ASR systems yields substantial improvements.
翻訳日:2024-02-29 15:17:10 公開日:2024-02-28
# LLM推論の境界を再考する: マルチエージェントの議論は鍵か?

Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key? ( http://arxiv.org/abs/2402.18272v1 )

ライセンス: Link先を確認
Qineng Wang, Zihao Wang, Ying Su, Hanghang Tong, Yangqiu Song(参考訳) LLMの議論の最近の進歩は、マルチエージェントの議論がLLMの推論能力を改善することを示唆している。 本研究では,この主張を体系的な実験を通じて再評価し,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。 興味深いことに,強いプロンプトを持つ単一エージェント LLM は,幅広い推論タスクやバックボーン LLM において,既存の議論手法とほぼ同等の性能を達成できることがわかった。 マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていた。 さらに,議論中にllmの共通相互作用機構を明らかにする。

Recent progress in LLMs discussion suggests that multi-agent discussion improves the reasoning abilities of LLMs. In this work, we reevaluate this claim through systematic experiments, where we propose a novel group discussion framework to enrich the set of discussion mechanisms. Interestingly, our results show that a single-agent LLM with strong prompts can achieve almost the same performance as the best existing discussion approach on a wide range of reasoning tasks and backbone LLMs. We observe that the multi-agent discussion performs better than a single agent only when there is no demonstration in the prompt. Further study reveals the common interaction mechanisms of LLMs during the discussion.
翻訳日:2024-02-29 15:16:58 公開日:2024-02-28
# 時間依存性誘電体構造の高度検出:レイリー限界と量子真空

Enhanced detection of time-dependent dielectric structure: Rayleigh's limit and quantum vacuum ( http://arxiv.org/abs/2402.18268v1 )

ライセンス: Link先を確認
Vanik E. Mkrtchian, Hakob Avetisyan, Armen E. Allahverdyan(参考訳) 散乱光の検出は誘電体の感受性を決定することができる。 通常はレイリーの限界によって制限され、入射光の波長よりも細かい詳細は遠方界領域から決定できない。 誘電体を運動させることは,その感受性を決定するのに有用であることを示す。 この逆量子光学問題は2つの異なるバージョンで研究されている。 一 誘電体透過性が移動誘電体と類似した空間的かつ時間的に変化したメタマテリアル。 (II) 定速誘電体移動は相対論的光学において検討した問題である。 光検出信号への真空寄与は負の周波数のためゼロではないため、誘電体に入射電界を照射することなく、感受性の特定の特徴を決定することができる。 入射光が輝くと誘電率の判定が強化され、古典的なレイリー限界を超え、エバネッセント波に関係している。 (ii)但し遠方領域に到達。 (i)。

Detection of scattered light can determine the susceptibility of dielectrics. It is normally limited by Rayleigh's limit: details finer than the wavelength of the incident light cannot be determined from the far-field domain. We show that putting the dielectric in motion can be useful for determining its susceptibility. This inverse quantum optics problem is studied in two different versions: (i) A spatially and temporally modulated metamaterial, whose dielectric permeability is similar to that of moving dielectrics. (ii) A dielectric moving with a constant velocity, a problem we studied within relativistic optics. Certain features of the susceptibility can be determined without shining any incident field on the dielectric because the vacuum contribution to the photodetection signal is non-zero due to the negative frequencies. When the incident light is shined, the determination of dielectric susceptibility is enhanced and and goes beyond the classical Rayleigh limit; it pertains to evanescent waves for (ii), but reaches the far-field domain for (i).
翻訳日:2024-02-29 15:16:48 公開日:2024-02-28
# ニューラル質問生成に関する調査研究:方法,応用,展望

A Survey on Neural Question Generation: Methods, Applications, and Prospects ( http://arxiv.org/abs/2402.18267v1 )

ライセンス: Link先を確認
Shasha Guo, Lizi Liao, Cuiping Li, Tat-Seng Chua(参考訳) 本稿では,ニューラルネットワーク技術を活用した知識ベース,テキスト,画像などの多様な入力から関連する質問を生成する分野であるニューラル質問生成(NQG)の進歩について,詳細な検討を行う。 調査は、タスクの問題定式化、一般的なベンチマークデータセット、確立された評価指標、注目すべきアプリケーションなど、NQGの背景の概要から始まった。 次に、NQGアプローチを3つの主要なカテゴリに分類する。構造化されたデータソースを利用する構造化NQG、テキストやビジュアルコンテンツのようなよりゆるく構造化された入力に焦点を当てる非構造化NQG、多様な入力モダリティに基づくハイブリッドNQGである。 この分類に続いて、各カテゴリに合わせて調整された異なるニューラルネットワークモデルの詳細な分析が行われ、その固有の強度と潜在的な制限が議論される。 この調査は、NQGの軌跡を前方視し、創発的な研究動向と今後の発展経路を特定した。 この調査は、Githubで体系的に組織化された関連研究論文、データセット、コードのキュレートされたコレクションであり、NQGに精通する人々に対する広範な参照を提供する。

In this survey, we present a detailed examination of the advancements in Neural Question Generation (NQG), a field leveraging neural network techniques to generate relevant questions from diverse inputs like knowledge bases, texts, and images. The survey begins with an overview of NQG's background, encompassing the task's problem formulation, prevalent benchmark datasets, established evaluation metrics, and notable applications. It then methodically classifies NQG approaches into three predominant categories: structured NQG, which utilizes organized data sources, unstructured NQG, focusing on more loosely structured inputs like texts or visual content, and hybrid NQG, drawing on diverse input modalities. This classification is followed by an in-depth analysis of the distinct neural network models tailored for each category, discussing their inherent strengths and potential limitations. The survey culminates with a forward-looking perspective on the trajectory of NQG, identifying emergent research trends and prospective developmental paths. Accompanying this survey is a curated collection of related research papers, datasets and codes, systematically organized on Github, providing an extensive reference for those delving into NQG.
翻訳日:2024-02-29 15:16:33 公開日:2024-02-28
# 創発イベントの検索に基づく完全長wikipedia生成

Retrieval-based Full-length Wikipedia Generation for Emergent Events ( http://arxiv.org/abs/2402.18264v1 )

ライセンス: Link先を確認
Jiebin Zhang and Eugene J. Yu and Qinyu Chen and Chenhao Xiong and Dawei Zhu and Han Qian and Mingbo Song and Xiaoguang Li and Qun Liu and Sujian Li(参考訳) 今日の急成長の世界では、新興イベントのための包括的な正確なウィキペディア文書を迅速に作成する需要が高まっています。 しかし、ウィキペディア生成における以前の取り組みは、しばしば現実世界の要求を満たすには至らなかった。 一部のアプローチは、完全なウィキペディア文書のセグメントを生成することだけに重点を置いているが、他のアプローチは、生成における忠実さの重要性を見落としている。 本稿では, web ソースから取得した入力を用いて,創発イベントに対して構造化された wikipedia ドキュメントが生成される実世界のシナリオをシミュレートする。 大規模言語モデル(llm)が最近発生したイベントに関連するコーパスで訓練されていないことを保証するため、最近発生したイベントを選択し、検索されたwebページと組み合わせた309のイベントからなる新しいベンチマークwiki-genbenを導入する。 さらに,本研究では,体系的な評価指標とベースライン手法を総合的に設計し,実際の全長ウィキペディア文書作成におけるLLMの能力を評価する。 データとコードはWikiGenBenchでオープンソース化されている。

In today's fast-paced world, the growing demand to quickly generate comprehensive and accurate Wikipedia documents for emerging events is both crucial and challenging. However, previous efforts in Wikipedia generation have often fallen short of meeting real-world requirements. Some approaches focus solely on generating segments of a complete Wikipedia document, while others overlook the importance of faithfulness in generation or fail to consider the influence of the pre-training corpus. In this paper, we simulate a real-world scenario where structured full-length Wikipedia documents are generated for emergent events using input retrieved from web sources. To ensure that Large Language Models (LLMs) are not trained on corpora related to recently occurred events, we select events that have taken place recently and introduce a new benchmark Wiki-GenBen, which consists of 309 events paired with their corresponding retrieved web pages for generating evidence. Additionally, we design a comprehensive set of systematic evaluation metrics and baseline methods, to evaluate the capability of LLMs in generating factual full-length Wikipedia documents. The data and code are open-sourced at WikiGenBench.
翻訳日:2024-02-29 15:16:10 公開日:2024-02-28
# ビジュアルリッチWebページ理解のための階層型マルチモーダル事前学習

Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding ( http://arxiv.org/abs/2402.18262v1 )

ライセンス: Link先を確認
Hongshen Xu, Lu Chen, Zihan Zhao, Da Ma, Ruisheng Cao, Zichen Zhu and Kai Yu(参考訳) ウェブページやスキャン/デジタル生まれの文書(画像、PDFなど)などの視覚的にリッチなドキュメントの普及は、学術や産業における自動文書理解や情報抽出への関心を高めている。 画像やテキスト,レイアウト,構造など,さまざまなドキュメントモダリティが人間の情報検索を促進する一方で,これらのモダリティの相互接続性は,ニューラルネットワークの課題となっている。 本稿では,WebページにおけるテキストのモデリングとHTMLの構造モダリティの制約に対処するために設計されたマルチモーダル事前学習ネットワークであるWebLMを紹介する。 文書画像を統一自然画像として処理する代わりに、weblmは文書画像の階層構造を統合し、マークアップ言語に基づく文書の理解を深める。 さらに,テキスト,構造,画像間の相互作用を効果的にモデル化するための事前学習タスクを提案する。 実験の結果、事前学習されたweblmは、いくつかのwebページ理解タスクにおいて、以前の最先端の事前学習モデルを大幅に上回っている。 事前訓練されたモデルとコードはhttps://github.com/X-LANCE/weblm.comで入手できる。

The growing prevalence of visually rich documents, such as webpages and scanned/digital-born documents (images, PDFs, etc.), has led to increased interest in automatic document understanding and information extraction across academia and industry. Although various document modalities, including image, text, layout, and structure, facilitate human information retrieval, the interconnected nature of these modalities presents challenges for neural networks. In this paper, we introduce WebLM, a multimodal pre-training network designed to address the limitations of solely modeling text and structure modalities of HTML in webpages. Instead of processing document images as unified natural images, WebLM integrates the hierarchical structure of document images to enhance the understanding of markup-language-based documents. Additionally, we propose several pre-training tasks to model the interaction among text, structure, and image modalities effectively. Empirical results demonstrate that the pre-trained WebLM significantly surpasses previous state-of-the-art pre-trained models across several webpage understanding tasks. The pre-trained models and code are available at https://github.com/X-LANCE/weblm.
翻訳日:2024-02-29 15:15:50 公開日:2024-02-28
# 能動学習におけるガウス過程の効率よく計算可能な安全性境界

Efficiently Computable Safety Bounds for Gaussian Processes in Active Learning ( http://arxiv.org/abs/2402.18260v1 )

ライセンス: Link先を確認
J\"orn Tebbe, Christoph Zimmer, Ansgar Steland, Markus Lange-Hegermann, Fabian Mies(参考訳) 物理的システムのアクティブラーニングは、設計空間の探索を制限する実用的な安全制約を一般的に尊重しなければならない。 ガウス過程(GP)とその校正不確実性推定はこの目的のために広く利用されている。 多くの技術応用において、設計空間は連続的な軌跡を通して探索され、その上で安全性を評価する必要がある。 これはgp法における厳密な安全性要件において特に困難であり、計算コストの高い高質のモンテカルロサンプリングを用いる。 そこで本研究では,後方gp基幹の適応的にサンプリングされた正中値に基づく安全限界を提供することにより,これらの課題に対処した。 提案手法は, 高安全性確率推定に必要な試料数を著しく削減し, 精度と探索速度を犠牲にすることなく, 高速な評価を実現する。 安全な能動学習手法の有効性をシミュレーションにより実証し,実世界の実例を用いて検証した。

Active learning of physical systems must commonly respect practical safety constraints, which restricts the exploration of the design space. Gaussian Processes (GPs) and their calibrated uncertainty estimations are widely used for this purpose. In many technical applications the design space is explored via continuous trajectories, along which the safety needs to be assessed. This is particularly challenging for strict safety requirements in GP methods, as it employs computationally expensive Monte-Carlo sampling of high quantiles. We address these challenges by providing provable safety bounds based on the adaptively sampled median of the supremum of the posterior GP. Our method significantly reduces the number of samples required for estimating high safety probabilities, resulting in faster evaluation without sacrificing accuracy and exploration speed. The effectiveness of our safe active learning approach is demonstrated through extensive simulations and validated using a real-world engine example.
翻訳日:2024-02-29 15:15:33 公開日:2024-02-28
# 超流動薄膜ヘリウム中のフォノン結晶

Phononic Crystals in Superfluid Thin-Film Helium ( http://arxiv.org/abs/2402.18259v1 )

ライセンス: Link先を確認
Alexander Rolf Korsch, Niccol\`o Fiaschi, Simon Gr\"oblacher(参考訳) 近年、超流動ヘリウム薄膜中のナノメカニカル発振器は、非常に低い機械的散逸と光学散乱により、光学工学の分野で注目を集めている。 超流動薄膜(いわゆる第3音波)の機械的励起は、光学マイクロ共振器の光学モードと相互作用し、その有効屈折率を変調することで光学的カップリングを可能にする。 第3の音響モードの強い閉じ込めは、量子光学における強いフォノン-フォノン相互作用への道を開く固有の機械的非線形性を強化する。 本研究では、超流動ヘリウム膜中の第3音モードを第3音波長に近い長さに閉じ込めたフォノニック結晶空洞を実現する。 厚さ数ナノメートルの超流動膜はシリコンナノビーム光共振器の上に自己組織化される。 シリコン材料の周期的なパターン化は、超流動膜の周期的な変調を生成し、音速帯域ギャップの形成につながる。 シリコンナノビームの形状を工学的に設計することで、フォノニックバンドギャップは局所的なフォノニックモードの閉じ込めを可能にする。

In recent years, nanomechanical oscillators in thin films of superfluid helium have attracted attention in the field of optomechanics due to their exceptionally low mechanical dissipation and optical scattering. Mechanical excitations in superfluid thin films - so-called third sound waves - can interact with the optical mode of an optical microresonator by modulation of its effective refractive index enabling optomechanical coupling. Strong confinement of third sound modes enhances their intrinsic mechanical non-linearity paving the way for strong phonon-phonon interactions with applications in quantum optomechanics. Here, we realize a phononic crystal cavity confining third sound modes in a superfluid helium film to length scales close to the third sound wavelength. A few nanometer thick superfluid film is self-assembled on top of a silicon nanobeam optical resonator. The periodic patterning of the silicon material creates a periodic modulation of the superfluid film leading to the formation of a phononic band gap. By engineering the geometry of the silicon nanobeam, the phononic band gap allows the confinement of a localized phononic mode.
翻訳日:2024-02-29 15:15:18 公開日:2024-02-28
# 階層的意味フレームを用いた多言語理解のためのbirgatモデル

A BiRGAT Model for Multi-intent Spoken Language Understanding with Hierarchical Semantic Frames ( http://arxiv.org/abs/2402.18258v1 )

ライセンス: Link先を確認
Hongshen Xu, Ruisheng Cao, Su Zhu, Sheng Jiang, Hanchong Zhang, Lu Chen and Kai Yu(参考訳) 音声言語理解(slu)に関する以前の研究は主に、各入力発話が単に1つのユーザの意図を含むシングルインテント設定に焦点を当てている。 この構成は、ユーザ発話の表面形態と出力意味論の能力を大幅に制限する。 そこで本研究では,MIVSと呼ばれる現実的な車載対話システムから収集したマルチインテントデータセットを提案する。 対象のセマンティクスフレームは、3層階層構造で構成され、マルチインテントケースにおけるアライメント問題と割り当て問題に取り組む。 そこで我々は,双対関係グラフアテンションネットワークである,オントロジー項目の階層構造を符号化するBiRGATモデルを考案した。 3ウェイポインタジェネレータデコーダと組み合わせて、従来のシーケンスラベリングや分類に基づくスキームを大きなマージンで上回ります。

Previous work on spoken language understanding (SLU) mainly focuses on single-intent settings, where each input utterance merely contains one user intent. This configuration significantly limits the surface form of user utterances and the capacity of output semantics. In this work, we first propose a Multi-Intent dataset which is collected from a realistic in-Vehicle dialogue System, called MIVS. The target semantic frame is organized in a 3-layer hierarchical structure to tackle the alignment and assignment problems in multi-intent cases. Accordingly, we devise a BiRGAT model to encode the hierarchy of ontology items, the backbone of which is a dual relational graph attention network. Coupled with the 3-way pointer-generator decoder, our method outperforms traditional sequence labeling and classification-based schemes by a large margin.
翻訳日:2024-02-29 15:15:03 公開日:2024-02-28
# メンタルモデルによる大規模言語モデルのための汎用的プロンプトに向けて

Towards Generalist Prompting for Large Language Models by Mental Models ( http://arxiv.org/abs/2402.18252v1 )

ライセンス: Link先を確認
Haoxiang Guan, Jiyan He, Shuxin Zheng, En-Hong Chen, Weiming Zhang, Nenghai Yu(参考訳) 大規模言語モデル(llm)は多くのタスクで印象的なパフォーマンスを示している。 しかし、最適性能を達成するためには、特別に設計されたプロンプト手法が必要である。 これらのメソッドは、特定のレベルのドメイン知識を必要とするタスク固有の少数ショットの例に依存するか、単純だが数種類のタスクでのみうまく機能するように設計されている。 本研究では,多岐にわたるタスクにおいて最適あるいは準最適性能を達成し,特定の問題に適したプロンプトを手動で選択・カスタマイズする必要をなくすという設計原理を基礎として,ジェネラリストプロンプトの概念の導入を試みる。 さらに,よりシンプルに設計されながら,ジェネラリストのプロンプトの基準を効果的に満たす革新的プロンプト手法であるMeMo(Mental Models)を提案する。 MeMoは、様々なプロンプト手法のコアを個別のメンタルモデルに蒸留し、LSMは、ゼロショット設定におけるSTEM、論理的推論、コモンセンス推論といった様々なタスクにおいて、最先端の成果を達成または近い方法で、問題の最も適切なメンタルモデルを選択することができる。 ここで提示した知見は, LLM の一般化的促進手法のさらなる探求を後押しするものと期待する。

Large language models (LLMs) have demonstrated impressive performance on many tasks. However, to achieve optimal performance, specially designed prompting methods are still needed. These methods either rely on task-specific few-shot examples that require a certain level of domain knowledge, or are designed to be simple but only perform well on a few types of tasks. In this work, we attempt to introduce the concept of generalist prompting, which operates on the design principle of achieving optimal or near-optimal performance on a wide range of tasks while eliminating the need for manual selection and customization of prompts tailored to specific problems. Furthermore, we propose MeMo (Mental Models), an innovative prompting method that is simple-designed yet effectively fulfills the criteria of generalist prompting. MeMo distills the cores of various prompting methods into individual mental models and allows LLMs to autonomously select the most suitable mental models for the problem, achieving or being near to the state-of-the-art results on diverse tasks such as STEM, logical reasoning, and commonsense reasoning in zero-shot settings. We hope that the insights presented herein will stimulate further exploration of generalist prompting methods for LLMs.
翻訳日:2024-02-29 15:14:49 公開日:2024-02-28
# ナンバープレート抽出におけるエッジ検出器の精度について

On the Accuracy of Edge Detectors in Number Plate Extraction ( http://arxiv.org/abs/2402.18251v1 )

ライセンス: Link先を確認
Bashir Olaniyi Sadiq(参考訳) 前処理段階としてのエッジ検出は、ナンバープレート抽出システムの基本かつ重要な側面である。 これは、各ナンバープレートが車両特有のものであるため、特定の車両の識別がナンバープレートを使用して達成可能であるためである。 これにより、エッジ検出の原理を用いて、線や形状の異なるナンバープレートシステムの文字を抽出することができる。 本稿では,エッジ検出技術を用いたナンバープレート抽出手法を提案する。 ナンバープレートのエッジは、ピクセル値の強度の変化によって識別される。 したがって、これらのエッジは単一のベースのピクセルまたはピクセルベースのアプローチの集合を用いて識別される。 騒音とクリーン環境の両方におけるナンバープレート抽出におけるエッジ検出アルゴリズムの有効性を実験した。 PFOM(Prat Figure of Merit)を性能指標としてMATLAB 2017bで実験結果が得られた。

Edge detection as a pre-processing stage is a fundamental and important aspect of the number plate extraction system. This is due to the fact that the identification of a particular vehicle is achievable using the number plate because each number plate is unique to a vehicle. As such, the characters of a number plate system that differ in lines and shapes can be extracted using the principle of edge detection. This paper presents a method of number plate extraction using edge detection technique. Edges in number plates are identified with changes in the intensity of pixel values. Therefore, these edges are identified using a single based pixel or collection of pixel-based approach. The efficiency of these approaches of edge detection algorithms in number plate extraction in both noisy and clean environment are experimented. Experimental results are achieved in MATLAB 2017b using the Pratt Figure of Merit (PFOM) as a performance metric
翻訳日:2024-02-29 15:14:28 公開日:2024-02-28
# 非エルミート系における類似性の本質的含意

Essential implications of similarities in non-Hermitian systems ( http://arxiv.org/abs/2402.18249v1 )

ライセンス: Link先を確認
Anton Montag, Flore K. Kunst(参考訳) 本稿では、3つの異なる一般化された類似性が、低次元非エルミート系において例外点を誘導するユニタリおよび反ユニタリ対称性を包含することを示す。 一般化された類似性条件は、ユニタリあるいは反ユニタリ対称性によって定義されるどのクラスよりも大きな種類の系をもたらすことが証明される。 さらに、類似性はハミルトニアンのスペクトル対称性を強制し、例外点の余次元を減少させる。 その結果、類似性はより制限的なユニタリ対称性や反ユニタリ対称性を必要とせず、より低次元の例外的な点の出現を促す。

In this paper, we show that three different generalized similarities enclose all unitary and anti-unitary symmetries that induce exceptional points in lower-dimensional non-Hermitian systems. We prove that the generalized similarity conditions result in a larger class of systems than any class defined by a unitary or anti-unitary symmetry. Further we highlight that the similarities enforce spectral symmetry on the Hamiltonian resulting in a reduction of the codimension of exceptional points. As a consequence we show that the similarities drive the emergence of exceptional points in lower dimensions without the more restrictive need for a unitary and/or anti-unitary symmetry.
翻訳日:2024-02-29 15:14:17 公開日:2024-02-28
# 学習か自尊心か? インストラクションファインチューニングの再考

Learning or Self-aligning? Rethinking Instruction Fine-tuning ( http://arxiv.org/abs/2402.18243v1 )

ライセンス: Link先を確認
Mengjie Ren, Boxi Cao, Hongyu Lin, Liu Cao, Xianpei Han, Ke Zeng, Guanglu Wan, Xunliang Cai, Le Sun(参考訳) インストラクションファインチューニング~(IFT)は、大きな言語モデル~(LLM)を構築する上で重要なフェーズである。 以前の著作は主に行動規範の伝達と追加の世界知識の学習におけるiftの役割に焦点を当てている。 しかし、IFTの基盤となるメカニズムの理解は依然として著しく制限されている。 本稿では,IFTの潜在的な要因を分離し,異なる要因の個別分析を可能にする知識介入フレームワークを設計する。 驚くべきことに、我々の実験では、IFTを通じてさらなる世界の知識を学ぼうとすると、ポジティブな影響を生み出すのに苦労し、重大なネガティブな影響をもたらすことさえある。 さらに、IFTの前後における内部知識の整合性を維持することが、IFTの成功の鍵となる。 本研究は,IFTの基盤となるメカニズムを明らかにするとともに,最近の将来的な研究に対する堅牢な支援を提供するものである。

Instruction Fine-tuning~(IFT) is a critical phase in building large language models~(LLMs). Previous works mainly focus on the IFT's role in the transfer of behavioral norms and the learning of additional world knowledge. However, the understanding of the underlying mechanisms of IFT remains significantly limited. In this paper, we design a knowledge intervention framework to decouple the potential underlying factors of IFT, thereby enabling individual analysis of different factors. Surprisingly, our experiments reveal that attempting to learn additional world knowledge through IFT often struggles to yield positive impacts and can even lead to markedly negative effects. Further, we discover that maintaining internal knowledge consistency before and after IFT is a critical factor for achieving successful IFT. Our findings reveal the underlying mechanisms of IFT and provide robust support for some very recent and potential future works.
翻訳日:2024-02-29 15:14:07 公開日:2024-02-28
# バイオマーカー発見のためのネットワーク制約Weibull AFTモデル

A network-constrain Weibull AFT model for biomarkers discovery ( http://arxiv.org/abs/2402.18242v1 )

ライセンス: Link先を確認
Claudia Angelini, Daniela De Canditiis, Italia De Feis, Antonella Iuliano(参考訳) 本稿では,weibull accelerated failure time (aft) モデルに基づく新しいネットワークコンストラクション生存時間解析法である aftnet を提案する。 対数線形表現を用いると、推論問題は構造的スパース回帰問題となり、空間性とグループ効果の両方を促進する二重ペナルティを用いて予測者間の相関パターンを明示的に組み込む。 さらに, aftnet推定器の理論的一貫性を確立し, 近位勾配降下法に基づく効率的な反復計算アルゴリズムを提案する。 最後に、合成データと実データの両方を用いてAFTNetの性能を評価する。

We propose AFTNet, a novel network-constraint survival analysis method based on the Weibull accelerated failure time (AFT) model solved by a penalized likelihood approach for variable selection and estimation. When using the log-linear representation, the inference problem becomes a structured sparse regression problem for which we explicitly incorporate the correlation patterns among predictors using a double penalty that promotes both sparsity and grouping effect. Moreover, we establish the theoretical consistency for the AFTNet estimator and present an efficient iterative computational algorithm based on the proximal gradient descent method. Finally, we evaluate AFTNet performance both on synthetic and real data examples.
翻訳日:2024-02-29 15:13:49 公開日:2024-02-28
# fNIRと機械学習による影響状態検出

Affective State Detection using fNIRs and Machine Learning ( http://arxiv.org/abs/2402.18241v1 )

ライセンス: Link先を確認
Ritam Ghosh(参考訳) 影響のある状態は、私たちの日々の働きを規制し、精神と身体の健康に大きな影響を与えます。 感情状態の検出は、メンタルヘルスモニタリング、スマートエンタテインメントの選択、動的ワークロード管理において最も重要である。 本稿では,生理学データを用いた情動状態検出に関する文献,生理学データ収集に用いるセンサの利点と限界,機能近赤外分光法を選択するための理論的根拠について論じる。 本研究では,9つの被験者を対象とする実験を設計し,想い,娯楽,認知負荷の情緒的状態と機械学習を用いた分類の試みを行った。 個人モデルによる3つの分類では平均83.04%の精度が達成され、グループモデルでは84.39%の精度が達成され、被験者独立モデルでは60.57%の精度がleaf one out cross validationを用いて達成された。 その結果、認知負荷の予測精度は、他の2つのクラス(コンピュータベースタスク)よりも高い(ペンと紙タスク)。 ペン・紙作業に関わる運動能力に起因したものではないことを確認するため,第2の実験を4名の被験者を用いて実施し,実験結果も発表している。

Affective states regulate our day to day to function and has a tremendous effect on mental and physical health. Detection of affective states is of utmost importance for mental health monitoring, smart entertainment selection and dynamic workload management. In this paper, we discussed relevant literature on affective state detection using physiology data, the benefits and limitations of different sensors and methods used for collecting physiology data, and our rationale for selecting functional near-infrared spectroscopy. We present the design of an experiment involving nine subjects to evoke the affective states of meditation, amusement and cognitive load and the results of the attempt to classify using machine learning. A mean accuracy of 83.04% was achieved in three class classification with an individual model; 84.39% accuracy was achieved for a group model and 60.57% accuracy was achieved for subject independent model using leave one out cross validation. It was found that prediction accuracy for cognitive load was higher (evoked using a pen and paper task) than the other two classes (evoked using computer bases tasks). To verify that this discrepancy was not due to motor skills involved in the pen and paper task, a second experiment was conducted using four participants and the results of that experiment has also been presented in the paper.
翻訳日:2024-02-29 15:13:39 公開日:2024-02-28
# NERV++: インシシトなニューラルビデオ表現の強化

NERV++: An Enhanced Implicit Neural Video Representation ( http://arxiv.org/abs/2402.18305v1 )

ライセンス: Link先を確認
Ahmed Ghorbel, Wassim Hamidouche, Luce Morin(参考訳) 暗黙的神経表現(INRs)としても知られるニューラルフィールドは、さまざまなデータタイプを表現、生成、操作する驚くべき能力を示し、メモリフットプリントの低い連続的なデータ再構成を可能にしている。 ビデオ圧縮に適用されるINRは、大きなマージンでレート歪み性能を向上する必要があり、高周波の詳細をキャプチャするためには、大量のパラメータと長いトレーニングイテレーションが必要である。 この問題を解決するのは非常に難しい作業であり、inrsは圧縮タスクでよりアクセスしやすくなります。 我々は、ビデオのニューラル表現を導入して、これらの欠点を解決するための一歩を踏み出した。NeRV++は、元のNeRVデコーダアーキテクチャよりも単純で効果的な拡張であり、アップサンプリングブロック(UB)をサンドイッチする分離可能なconv2d残ブロック(SCRB)と、特徴表現を改善するための双線形補間スキップ層を備えている。 NeRV++により、ビデオはニューラルネットワークによって近似された関数として直接表現され、現在のINRベースのビデオコーデックを超えて、表現能力が大幅に向上する。 提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。 この成果により、オートエンコーダベースのビデオコーディングへのギャップが狭まり、inrベースのビデオ圧縮研究において大きな進歩を遂げた。

Neural fields, also known as implicit neural representations (INRs), have shown a remarkable capability of representing, generating, and manipulating various data types, allowing for continuous data reconstruction at a low memory footprint. Though promising, INRs applied to video compression still need to improve their rate-distortion performance by a large margin, and require a huge number of parameters and long training iterations to capture high-frequency details, limiting their wider applicability. Resolving this problem remains a quite challenging task, which would make INRs more accessible in compression tasks. We take a step towards resolving these shortcomings by introducing neural representations for videos NeRV++, an enhanced implicit neural video representation, as more straightforward yet effective enhancement over the original NeRV decoder architecture, featuring separable conv2d residual blocks (SCRBs) that sandwiches the upsampling block (UB), and a bilinear interpolation skip layer for improved feature representation. NeRV++ allows videos to be directly represented as a function approximated by a neural network, and significantly enhance the representation capacity beyond current INR-based video codecs. We evaluate our method on UVG, MCL JVC, and Bunny datasets, achieving competitive results for video compression with INRs. This achievement narrows the gap to autoencoder-based video coding, marking a significant stride in INR-based video compression research.
翻訳日:2024-02-29 15:09:46 公開日:2024-02-28
# echotrack: 自律走行のための聴覚参照マルチオブジェクトトラッキング

EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving ( http://arxiv.org/abs/2402.18302v1 )

ライセンス: Link先を確認
Jiacheng Lin, Jiajun Chen, Kunyu Peng, Xuan He, Zhiyong Li, Rainer Stiefelhagen, Kailun Yang(参考訳) 本稿では,音声表現に基づく映像列内の特定の物体を動的に追跡し,自律走行における課題として現れる音声参照多物体追跡(ar-mot)の課題について述べる。 音声やビデオのセマンティックモデリング能力の欠如により、既存の研究は主にテキストベースの多目的追跡に焦点を合わせており、品質、相互作用効率、さらには補助システムの安全性をトラッキングするコストがかかる。 本稿では,音声・ビデオ融合と音声・ビデオ追跡の観点から,AR-MOTの問題点を掘り下げる。 私たちは、デュアルストリームビジョントランスフォーマーを備えたエンドツーエンドar-motフレームワークであるechotrackを提案しました。 双方向の周波数領域クロスアテンション融合モジュール(bi-fcfm)は、周波数領域と時空間領域の両方からオーディオとビデオの機能を双方向に融合します。 さらに,音声と映像オブジェクト間の同質な特徴を効果的に学習することにより,表現と視覚オブジェクト間の同質な意味的特徴を抽出するACTL方式を提案する。 アーキテクチャ設計とは別に、Echo-KITTI、Echo-KITTI+、Echo-BDDなど、大規模なAR-MOTベンチマークの最初のセットを確立します。 確立されたベンチマークに関する大規模な実験は、提案されたEchoTrackモデルとそのコンポーネントの有効性を示している。 ソースコードとデータセットはhttps://github.com/lab206/EchoTrack.comで公開されている。

This paper introduces the task of Auditory Referring Multi-Object Tracking (AR-MOT), which dynamically tracks specific objects in a video sequence based on audio expressions and appears as a challenging problem in autonomous driving. Due to the lack of semantic modeling capacity in audio and video, existing works have mainly focused on text-based multi-object tracking, which often comes at the cost of tracking quality, interaction efficiency, and even the safety of assistance systems, limiting the application of such methods in autonomous driving. In this paper, we delve into the problem of AR-MOT from the perspective of audio-video fusion and audio-video tracking. We put forward EchoTrack, an end-to-end AR-MOT framework with dual-stream vision transformers. The dual streams are intertwined with our Bidirectional Frequency-domain Cross-attention Fusion Module (Bi-FCFM), which bidirectionally fuses audio and video features from both frequency- and spatiotemporal domains. Moreover, we propose the Audio-visual Contrastive Tracking Learning (ACTL) regime to extract homogeneous semantic features between expressions and visual objects by learning homogeneous features between different audio and video objects effectively. Aside from the architectural design, we establish the first set of large-scale AR-MOT benchmarks, including Echo-KITTI, Echo-KITTI+, and Echo-BDD. Extensive experiments on the established benchmarks demonstrate the effectiveness of the proposed EchoTrack model and its components. The source code and datasets will be made publicly available at https://github.com/lab206/EchoTrack.
翻訳日:2024-02-29 15:09:17 公開日:2024-02-28
# ヒト活動認識のためのXGBoostとMinirocket Algortihmsの比較解析

Comparative Analysis of XGBoost and Minirocket Algortihms for Human Activity Recognition ( http://arxiv.org/abs/2402.18296v1 )

ライセンス: Link先を確認
Celal Alagoz(参考訳) HAR(Human Activity Recognition)は、機械学習(ML)アルゴリズムと深層学習(DL)アルゴリズムを正確に分類するための実装に重点を置いている。 本研究では,スマートフォンセンサから収集したデータを用いて,HAR領域における2つのMLアルゴリズム,eXtreme Gradient Boosting(XGBoost)とMiniRocketの有効性を検討した。 加速度計とジャイロスコープ信号からなるuciリポジトリから得られたデータセットを用いて,スマートフォンを用いて各種活動を行う30名の被験者を対象に実験を行った。 データセットは、ノイズフィルタリングや特徴抽出を含む事前処理を経て、分類器のトレーニングとテストに使用される。 モンテカルロクロスバリデーションはモデルの堅牢性を評価するために使用される。 その結果,XGBoostとMiniRocketはともに,活動分類で0.99の精度,F1スコア,AUC値を得た。 XGBoostはMiniRocketに比べて若干優れたパフォーマンスを示している。 特に、HARタスクの文献で報告されている他のMLおよびDLアルゴリズムの性能を上回っている。 さらに、この研究は2つのアルゴリズムの計算効率を比較し、トレーニング時間の観点からXGBoostの利点を明らかにした。 さらに、精度とF1値が0.94、AUC値が0.96で、センサから1つのチャネルしか利用できないMiniRocketの性能は、未処理の信号を直接活用する可能性を強調している。 また、センサー融合やチャネル融合技術を利用することで得られる潜在的な利点も示唆している。 本研究は、HARタスクにおけるXGBoostとMiniRocketの有効性と計算特性に注目し、スマートフォンセンサデータを用いた活動認識における今後の研究の知見を提供する。

Human Activity Recognition (HAR) has been extensively studied, with recent emphasis on the implementation of advanced Machine Learning (ML) and Deep Learning (DL) algorithms for accurate classification. This study investigates the efficacy of two ML algorithms, eXtreme Gradient Boosting (XGBoost) and MiniRocket, in the realm of HAR using data collected from smartphone sensors. The experiments are conducted on a dataset obtained from the UCI repository, comprising accelerometer and gyroscope signals captured from 30 volunteers performing various activities while wearing a smartphone. The dataset undergoes preprocessing, including noise filtering and feature extraction, before being utilized for training and testing the classifiers. Monte Carlo cross-validation is employed to evaluate the models' robustness. The findings reveal that both XGBoost and MiniRocket attain accuracy, F1 score, and AUC values as high as 0.99 in activity classification. XGBoost exhibits a slightly superior performance compared to MiniRocket. Notably, both algorithms surpass the performance of other ML and DL algorithms reported in the literature for HAR tasks. Additionally, the study compares the computational efficiency of the two algorithms, revealing XGBoost's advantage in terms of training time. Furthermore, the performance of MiniRocket, which achieves accuracy and F1 values of 0.94, and an AUC value of 0.96 using raw data and utilizing only one channel from the sensors, highlights the potential of directly leveraging unprocessed signals. It also suggests potential advantages that could be gained by utilizing sensor fusion or channel fusion techniques. Overall, this research sheds light on the effectiveness and computational characteristics of XGBoost and MiniRocket in HAR tasks, providing insights for future studies in activity recognition using smartphone sensor data.
翻訳日:2024-02-29 15:08:50 公開日:2024-02-28
# 格子型連続正規表現による異常検出

Grid-Based Continuous Normal Representation for Anomaly Detection ( http://arxiv.org/abs/2402.18293v1 )

ライセンス: Link先を確認
Joo Chan Lee, Taejune Kim, Eunbyung Park, Simon S. Woo, Jong Hwan Ko(参考訳) 正常な画像のみがトレーニングに利用できる、教師なしの方法で異常検出が大幅に進歩している。 いくつかの最近の手法は、入力と直接記憶される通常の特徴(または訓練された特徴と通常の画像)を比較し、メモリに基づいて異常を検出することを目的としている。 しかし、このようなメモリベースのアプローチは、最寄りの近傍またはアテンション機構によって実装された離散的な特徴空間上で動作し、それぞれ入力として出力される非一般化やidショートカットの問題に苦しむ。 さらに,既存手法の大部分は単一クラスの異常を検出するように設計されており,複数のオブジェクトのクラスを提示しても不満足な性能が得られる。 これらの課題に対処するために,空間的特徴を座標に変換し,連続格子にマッピングすることで,「連続的」特徴空間内の通常の特徴を表現する新しい異常検出手法であるGRADを提案する。 さらに,異常検出に適したグリッドを設計し,局所的特徴と大域的特徴の両方を表現し,効果的に融合させる。 我々の広範な実験により、GRADは正常な特徴を一般化し、アイデンティティショートカットを緩和し、さらに高粒度グローバル表現により、単一モデルの多様なクラスを効果的に扱えることを示した。 MVTec ADデータセットを用いた評価では、GRADは、マルチクラス統一異常検出におけるエラーの65.0\%を減らし、従来の最先端手法を著しく上回っている。 プロジェクトページはhttps://tae-mo.github.io/grad/で入手できる。

There have been significant advancements in anomaly detection in an unsupervised manner, where only normal images are available for training. Several recent methods aim to detect anomalies based on a memory, comparing the input and the directly stored normal features (or trained features with normal images). However, such memory-based approaches operate on a discrete feature space implemented by the nearest neighbor or attention mechanism, suffering from poor generalization or an identity shortcut issue outputting the same as input, respectively. Furthermore, the majority of existing methods are designed to detect single-class anomalies, resulting in unsatisfactory performance when presented with multiple classes of objects. To tackle all of the above challenges, we propose GRAD, a novel anomaly detection method for representing normal features within a "continuous" feature space, enabled by transforming spatial features into coordinates and mapping them to continuous grids. Furthermore, we carefully design the grids tailored for anomaly detection, representing both local and global normal features and fusing them effectively. Our extensive experiments demonstrate that GRAD successfully generalizes the normal features and mitigates the identity shortcut, furthermore, GRAD effectively handles diverse classes in a single model thanks to the high-granularity global representation. In an evaluation using the MVTec AD dataset, GRAD significantly outperforms the previous state-of-the-art method by reducing 65.0\% of the error for multi-class unified anomaly detection. The project page is available at https://tae-mo.github.io/grad/.
翻訳日:2024-02-29 15:08:19 公開日:2024-02-28
# FSLモデルはそれと同じくらい高くスコアアップできる

FSL Model can Score Higher as It Is ( http://arxiv.org/abs/2402.18292v1 )

ライセンス: Link先を確認
Yunwei Bai, Ying Kiat Tan, Tsuhan Chen(参考訳) 日常生活において、私たちは、正しく認識される可能性を高めるために、顔を横向きではなく、顔認識マシンを真正面から見つめることで、顔の前面を現示する傾向があります。 FSL(Few-shot-learning)分類は、トレーニング中に未確認のクラスに属する画像を特定する必要があるため、それ自体が困難である。 したがって、テスト中の歪んだ非典型的なクエリやサポートイメージは、モデルを正しく予測することがさらに困難になる可能性がある。 本研究は,テスト中に正しい予測を行う可能性を高めるため,画像から画像への変換によってテストクラスの新しいサンプルを生成することにより,トレーニング済みFSLモデルのテスト入力を修正することを目的とする。 fslモデルは通常、十分なサンプルを持つクラスで訓練され、少数サンプルを持つクラスでテストされる。 提案手法は,まずテスト画像のスタイルや形状をキャプチャし,次に適切な訓練を受けたクラスサンプルを同定する。 その後、テスト画像のスタイルや形を、より多くのテストクラスサンプルを生成するためのトレインクラスイメージに転送し、生成したサンプルのセットに基づいて分類を行う。 本手法は,テストフェーズにおいて,余分なトレーニングやデータセットを伴わずに,トレーニング済みのFSLモデルにより高いスコアを付与する可能性を秘めている。 実験によると、追加の1つのサンプルでサポートセットを増強することで、動物顔または交通標識からなるデータセット上で、トレーニング済みのFSLモデルに対して約2%の改善が達成できる。 サポートセットとクエリの両方を拡張することで、さらにパフォーマンスの改善が達成できます。 Githubリポジトリは公開されています。

In daily life, we tend to present the front of our faces by staring squarely at a facial recognition machine, instead of facing it sideways, in order to increase the chance of being correctly recognised. Few-shot-learning (FSL) classification is challenging in itself because a model has to identify images that belong to classes previously unseen during training. Therefore, a warped and non-typical query or support image during testing can make it even more challenging for a model to predict correctly. In our work, to increase the chance of correct prediction during testing, we aim to rectify the test input of a trained FSL model by generating new samples of the tested classes through image-to-image translation. An FSL model is usually trained on classes with sufficient samples, and then tested on classes with few-shot samples. Our proposed method first captures the style or shape of the test image, and then identifies a suitable trained class sample. It then transfers the style or shape of the test image to the train-class images for generation of more test-class samples, before performing classification based on a set of generated samples instead of just one sample. Our method has potential in empowering a trained FSL model to score higher during the testing phase without any extra training nor dataset. According to our experiments, by augmenting the support set with just 1 additional generated sample, we can achieve around 2% improvement for trained FSL models on datasets consisting of either animal faces or traffic signs. By augmenting both the support set and the queries, we can achieve even more performance improvement. Our Github Repository is publicly available.
翻訳日:2024-02-29 15:07:52 公開日:2024-02-28
# 変動輝度の背景における前景物体の一定輝度知覚のための文脈知覚式の開発

Development of Context-Sensitive Formulas to Obtain Constant Luminance Perception for a Foreground Object in Front of Backgrounds of Varying Luminance ( http://arxiv.org/abs/2402.18288v1 )

ライセンス: Link先を確認
Ergun Akleman and Bekir Tevfik Akgun and Adil Alpkocak(参考訳) 本稿では,前景物体に対して一定の輝度知覚を生じるような,文脈に敏感な輝度補正式を開発するための枠組みを提案する。 我々の公式は、前景の物体をわずかに半透明にし、背景のぼやけたバージョンと混ぜる。 この混合は、背景の輝度に基づいて、フォアグラウンドオブジェクトに望まれる輝度の錯覚を素早く得る。 透過性公式は1つのパラメータしか持たず、前景オブジェクトの相対サイズはゼロと1の間の数である。 我々は,前景物体の相対的大きさのパワー関数として,透過性公式の一般構造を同定した。 我々はShadertoyでWebベースのインタラクティブプログラムを実装した。 このプログラムを用いて、パワー関数の多項式指数の係数を決定した。 多項式関数の係数を直感的に制御するために、b\'{e}zier形式を用いた。 最後の半透明式は二次多項式を使い、3つの係数しか必要としない。 また,2つの係数しか必要としない単純なアフィン式も同定した。 私たちはプログラムをShadertoyで公開し、誰でもアクセスできるようにしました。 本稿では,公式の多項式部を直感的に変化させる方法についても述べる。 この説明を用いて、ユーザは式の多項式部分を変更し、知覚的に一定の輝度を得る。 これは、公式をさらに改善するためのクラウドソーシング実験として使用できる。

In this article, we present a framework for developing context-sensitive luminance correction formulas that can produce constant luminance perception for foreground objects. Our formulas make the foreground object slightly translucent to mix with the blurred version of the background. This mix can quickly produce any desired illusion of luminance in foreground objects based on the luminance of the background. The translucency formula has only one parameter; the relative size of the foreground object, which is a number between zero and one. We have identified the general structure of the translucency formulas as a power function of the relative size of the foreground object. We have implemented a web-based interactive program in Shadertoy. Using this program, we determined the coefficients of the polynomial exponents of the power function. To intuitively control the coefficients of the polynomial functions, we have used a B\'{e}zier form. Our final translucency formula uses a quadratic polynomial and requires only three coefficients. We also identified a simpler affine formula, which requires only two coefficients. We made our program publicly available in Shadertoy so that anyone can access and improve it. In this article, we also explain how to intuitively change the polynomial part of the formula. Using our explanation, users change the polynomial part of the formula to obtain their own perceptively constant luminance. This can be used as a crowd-sourcing experiment for further improvement of the formula.
翻訳日:2024-02-29 15:07:23 公開日:2024-02-28
# Windowed-FourierMixer:フーリエ変換によるクラッタフリールームモデリングの強化

Windowed-FourierMixer: Enhancing Clutter-Free Room Modeling with Fourier Transform ( http://arxiv.org/abs/2402.18287v1 )

ライセンス: Link先を確認
Bruno Henriques, Benjamin Allaert, Jean-Philippe Vandeborre(参考訳) 没入型デジタルアプリケーションへの需要が高まり、3dシーンの理解と再構築の必要性が大幅に高まっている。 この文脈では、内部空間の内部構造をモデル化する上で、1枚の画像から室内環境を塗布することが重要な役割を担っている。 近年の手法は部屋のモデリングにおいて顕著な進歩を見せているものの,再構築プロセスの指導にはレイアウト推定器の制約に頼っている。 これらの手法は、構造推定器の性能と、密集した環境におけるその生成能力に大きく依存する。 そこで,本稿では,u-formerアーキテクチャと新しいwindowed-fouriermixerブロックを用いた革新的なアプローチを提案する。 この新たなアーキテクチャは、対称性が普及している屋内シーンに関わるタスクに有利であることが証明され、水平線やシーリングの高さ線やキュービド型の部屋といった特徴を効果的に捉えることができる。 提案手法は, 定量的指標と質的結果の両方において, 優れた性能を示す構造化3dデータセットにおいて, 最先端の手法よりも優れていることを示す。 コードとモデルは公開される予定だ。

With the growing demand for immersive digital applications, the need to understand and reconstruct 3D scenes has significantly increased. In this context, inpainting indoor environments from a single image plays a crucial role in modeling the internal structure of interior spaces as it enables the creation of textured and clutter-free reconstructions. While recent methods have shown significant progress in room modeling, they rely on constraining layout estimators to guide the reconstruction process. These methods are highly dependent on the performance of the structure estimator and its generative ability in heavily occluded environments. In response to these issues, we propose an innovative approach based on a U-Former architecture and a new Windowed-FourierMixer block, resulting in a unified, single-phase network capable of effectively handle human-made periodic structures such as indoor spaces. This new architecture proves advantageous for tasks involving indoor scenes where symmetry is prevalent, allowing the model to effectively capture features such as horizon/ceiling height lines and cuboid-shaped rooms. Experiments show the proposed approach outperforms current state-of-the-art methods on the Structured3D dataset demonstrating superior performance in both quantitative metrics and qualitative results. Code and models will be made publicly available.
翻訳日:2024-02-29 15:07:05 公開日:2024-02-28
# 電子顕微鏡における自己監督学習 : 高度な画像解析の基礎モデルを目指して

Self-Supervised Learning in Electron Microscopy: Towards a Foundation Model for Advanced Image Analysis ( http://arxiv.org/abs/2402.18286v1 )

ライセンス: Link先を確認
Bashir Kazimi and Karina Ruzaeva and Stefan Sandfeld(参考訳) 本研究では,未ラベル電子顕微鏡データからの自己教師型学習の可能性を探究し,基礎モデルの構築に向けて一歩踏み出した。 セマンティックセグメンテーション,デノナイジング,ノイズと背景の除去,超解像など,下流タスクのスペクトルを効果的に微調整する方法について述べる。 様々なモデル複雑さと受容場の大きさの実験は、より低い複雑さの微調整されたモデルが、ランダムな重量初期化を伴うより複雑なモデルより一貫して優れているという驚くべき現象を示す。 我々は, 電子顕微鏡のコンテキストにおいて, 様々な下流課題における自己教師付き事前訓練の汎用性を示し, より高速に収束し, より良い性能を実現する。 我々は, 自己教師付き事前学習が強力な触媒となり, 特に制限された注釈付きデータが利用可能であり, 計算コストの効率的なスケーリングが重要であると結論づける。

In this work, we explore the potential of self-supervised learning from unlabeled electron microscopy datasets, taking a step toward building a foundation model in this field. We show how self-supervised pretraining facilitates efficient fine-tuning for a spectrum of downstream tasks, including semantic segmentation, denoising, noise & background removal, and super-resolution. Experimentation with varying model complexities and receptive field sizes reveals the remarkable phenomenon that fine-tuned models of lower complexity consistently outperform more complex models with random weight initialization. We demonstrate the versatility of self-supervised pretraining across various downstream tasks in the context of electron microscopy, allowing faster convergence and better performance. We conclude that self-supervised pretraining serves as a powerful catalyst, being especially advantageous when limited annotated data are available and efficient scaling of computational cost are important.
翻訳日:2024-02-29 15:06:43 公開日:2024-02-28
# PiShield: 要求による学習のためのNeSyフレームワーク

PiShield: A NeSy Framework for Learning with Requirements ( http://arxiv.org/abs/2402.18285v1 )

ライセンス: Link先を確認
Mihaela C\u{a}t\u{a}lina Stoian, Alex Tatomir, Thomas Lukasiewicz, Eleonora Giunchiglia(参考訳) ディープラーニングモデルは様々なアプリケーション領域でその強みを示しているが、アウトプットの安全性要件を満たすのに苦労することが多い。 本稿では,ニューラルネットワークのトポロジへの要求の統合を可能にする最初のフレームワークであるPiShieldを紹介する。 PiShieldは、入力に関係なく、これらの要件に準拠することを保証します。 さらに、実践者のニーズに応じて、推論とトレーニング時間の両方で要求を統合することができる。 ディープラーニングの広範な適用を考えると、さまざまなドメインにまたがる要件の統合を可能にするフレームワークの必要性が高まっている。 ここでは,機能ゲノミクス,自律運転,表データ生成という3つのアプリケーションシナリオについて検討する。

Deep learning models have shown their strengths in various application domains, however, they often struggle to meet safety requirements for their outputs. In this paper, we introduce PiShield, the first framework ever allowing for the integration of the requirements into the neural networks' topology. PiShield guarantees compliance with these requirements, regardless of input. Additionally, it allows for integrating requirements both at inference and/or training time, depending on the practitioners' needs. Given the widespread application of deep learning, there is a growing need for frameworks allowing for the integration of the requirements across various domains. Here, we explore three application scenarios: functional genomics, autonomous driving, and tabular data generation.
翻訳日:2024-02-29 15:06:25 公開日:2024-02-28
# クラウドソーシングは銀行を破るのか? 韻律最適化を用いた事前学習言語モデルのコスト効果微調整

Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of Pre-trained Language Models with Proximal Policy Optimization ( http://arxiv.org/abs/2402.18284v1 )

ライセンス: Link先を確認
Shuo Yang and Gjergji Kasneci(参考訳) ChatGPTの幅広い使用は、人間のフィードバックから強化学習の可能性を強調している。 しかし、トレーニングパイプラインは、リソース集約的なプロセスである手動のランキングに依存している。 作業コストを削減するため,人間アノテータの必要性を排除しつつ,微調整言語モデルに適用するための自己教師付きテキストランキング手法を提案する。 提案手法は,言語モデルが各入力に対して多様な応答を生成するよう促す確率的サンプリングから始める。 次に、TextRankとISODATAアルゴリズムを使用して、これらの応答をセマンティクスに基づいてランク付け、クラスタ化する。 その後、報酬モデルを構築し、ランクを学習し、生成ポリシーを最適化する。 3つのタスクで2つの言語モデルを用いて実験を行った結果,BLEU,GLEU,METEORのスコアに関して,本手法で訓練したモデルは,ベースラインよりもかなり優れていた。 さらに,手作業による評価の結果から,人間との相関性は極めて高いことが示された。 本研究は, 近位政策誘導モデルの学習コストを大幅に削減し, 言語モデルの自己補正の可能性を示す。

Wide usage of ChatGPT has highlighted the potential of reinforcement learning from human feedback. However, its training pipeline relies on manual ranking, a resource-intensive process. To reduce labor costs, we propose a self-supervised text ranking approach for applying Proximal-Policy-Optimization to fine-tune language models while eliminating the need for human annotators. Our method begins with probabilistic sampling to encourage a language model to generate diverse responses for each input. We then employ TextRank and ISODATA algorithms to rank and cluster these responses based on their semantics. Subsequently, we construct a reward model to learn the rank and optimize our generative policy. Our experimental results, conducted using two language models on three tasks, demonstrate that the models trained by our method considerably outperform baselines regarding BLEU, GLEU, and METEOR scores. Furthermore, our manual evaluation shows that our ranking results exhibit a remarkably high consistency with that of humans. This research significantly reduces training costs of proximal policy-guided models and demonstrates the potential for self-correction of language models.
翻訳日:2024-02-29 15:06:16 公開日:2024-02-28
# 非平衡スピントロニクス接合の幾何統計における共トンネル効果

Cotunneling effects in the geometric statistics of a nonequilibrium spintronic junction ( http://arxiv.org/abs/2402.18283v1 )

ライセンス: Link先を確認
Mriganka Sandilya, Javed Akhtar, Manash Jyoti Sarmah and Himangshu Prabal Goswami(参考訳) スピン分解量子接合を横切る電子輸送の非平衡定常状態において, 貯水池の化学ポテンシャルの位相差による断熱変調下での創発統計における共トンネルの役割について検討した。 シーケンシャルおよび非弾性共トンネル速度を明示的に同定することにより,スピン交換フラックスに対する幾何あるいはパンカラトナムベリーの寄与度を数値的に評価する。 逐次および共トンネル過程が競合し、全幾何フラックスアップショットに選択的に影響を及ぼす関連する条件を同定する。 フォック空間のコヒーレンスは、系貯留層カップリングが同等である場合のコネネリング効果を抑制することができる。 全体の幾何フラックスに対するコトネリングの寄与は、系-保存結合強度の左右非対称性を作ることで、シーケンシャルな寄与に匹敵する。 最近提案された幾何学的熱力学的不確実性関係を用いて、最小エントロピー生成の総速度を数値的に推定する。 幾何学的フラックスと最小エントロピーは、接合子のスピン軌道の相互作用エネルギーの関数として非線形であることが分かる。

In the nonequilibrium steadystate of electronic transport across a spin-resolved quantronic junction, we investigate the role of cotunneling on the emergent statistics under phase-different adiabatic modulation of the reservoirs' chemical potentials. By explicitly identifying the sequential and inelastic cotunneling rates, we numerically evaluate the geometric or Pancharatnam-Berry contributions to the spin exchange flux. We identify the relevant conditions wherein the sequential and cotunneling processes compete and selectively influence the total geometric flux upshot. The Fock space coherences are found to suppress the cotunneling effects when the system reservoir couplings are comparable. The cotunneling contribution to the total geometric flux can be made comparable to the sequential contribution by creating a rightsided asymmetry in the system-reservoir coupling strength. Using a recently proposed geometric thermodynamic uncertainty relationship, we numerically estimate the total rate of minimal entropy production. The geometric flux and the minimum entropy are found to be nonlinear as a function of the interaction energy of the junction's spin orbitals.
翻訳日:2024-02-29 15:05:57 公開日:2024-02-28
# コントラスト文表現学習のより良い理解に向けて--グラディエントのための統一パラダイム

Towards Better Understanding of Contrastive Sentence Representation Learning: A Unified Paradigm for Gradient ( http://arxiv.org/abs/2402.18281v1 )

ライセンス: Link先を確認
Mingxin Li, Richong Zhang, Zhijie Nie(参考訳) 文表現学習(SRL)は自然言語処理(NLP)において重要な課題であり、対照的な自己監督学習(SSL)は現在主流のアプローチである。 しかし、その顕著な効果の背景は明らかでない。 特に、他の研究分野では、対照的なSSLは非対照的なSSL(例えば、アライメントと均一性、Barlow Twins、VICReg)と理論と実践的なパフォーマンスの両方において類似点を共有している。 しかし、SRLでは、対照的なSSLは非コントラストSSLを大きく上回っている。 まず、共通性はSRLの優れた性能を達成するために、様々な対照的な損失をもたらすのか? 第二に、対照的なSSLと似ているがSRLでは効果がない非競合SSLをどうやって作るのか? これらの問題に対処するため、グラデーションの観点から開始し、4つの効果的なコントラスト損失を、勾配散逸、重量、比率の3つの要素に依存する統一パラダイムに統合することができることを発見した。 次に、これらのコンポーネントが最適化において果たす役割を詳細に分析し、モデル性能におけるその意義を実験的に実証する。 最後に、これらのコンポーネントを調整することで、非競合SSLがSRLの優れた性能を達成することができる。

Sentence Representation Learning (SRL) is a crucial task in Natural Language Processing (NLP), where contrastive Self-Supervised Learning (SSL) is currently a mainstream approach. However, the reasons behind its remarkable effectiveness remain unclear. Specifically, in other research fields, contrastive SSL shares similarities in both theory and practical performance with non-contrastive SSL (e.g., alignment & uniformity, Barlow Twins, and VICReg). However, in SRL, contrastive SSL outperforms non-contrastive SSL significantly. Therefore, two questions arise: First, what commonalities enable various contrastive losses to achieve superior performance in SRL? Second, how can we make non-contrastive SSL, which is similar to contrastive SSL but ineffective in SRL, effective? To address these questions, we start from the perspective of gradients and discover that four effective contrastive losses can be integrated into a unified paradigm, which depends on three components: the Gradient Dissipation, the Weight, and the Ratio. Then, we conduct an in-depth analysis of the roles these components play in optimization and experimentally demonstrate their significance for model performance. Finally, by adjusting these components, we enable non-contrastive SSL to achieve outstanding performance in SRL.
翻訳日:2024-02-29 15:05:29 公開日:2024-02-28
# ランクを用いた間接ジョブショップコーディング:QAOA(IQAOA)への適用

Indirect Job-Shop coding using rank: application to QAOA (IQAOA) ( http://arxiv.org/abs/2402.18280v1 )

ライセンス: Link先を確認
Eric Bourreau, Gerard Fleury, Phlippe Lacomme(参考訳) ジョブショップスケジューリング問題(JSSP)は、スケジューリングにおける最も有名な課題の1つです。 解は、最も長い経路アルゴリズムを用いて計算された最初期の始点時間で、向き付けられた可解グラフを通して完全に表現される。 この問題を解決する複雑さは、解を表す可分グラフが非巡回でなければならないという要求から生じる。 したがって、小規模インスタンスのみの場合、これらのグラフを列挙することは可能である。 この分野における重要な進歩は (Bierwith, 1995) と名付けられ、「反復によるベクトル」 (一般には Bierwith のベクトルとして知られている) の導入である。 特に、このベクトルは非巡回可除グラフに写像できる性質を持ち、したがってベクトルの解への写像を可能にする。 この性質は、解の列挙、すなわち非環状不連結グラフのみを可能にするため、高効率な解決スキームの開発を促進する。 我々の目的は、新しい量子アプローチを用いてジョブショップ問題に取り組むために、Bierwithのベクトルを量子近似最適化アルゴリズム(QAOA)に統合する方法を実証することである。

The Job-Shop Scheduling Problem (JSSP) stands as one of the most renowned challenges in scheduling. It is characterized as a disjunctive problem, wherein a solution is fully depicted through an oriented disjunctive graph, with earliest starting times computed using a longest path algorithm. The complexity of solving this problem arises in part from the requirement that disjunctive graphs representing solutions must be acyclic. Consequently, enumerating these graphs is feasible for small-scale instances only. A significant advancement in this field, credited to (Bierwith, 1995), is the introduction of the 'vector by repetition' (commonly known as Bierwith's vector). Notably, this vector possesses the property that it can be mapped to an acyclic disjunctive graph, thereby enabling the mapping of a vector to a solution. This property has facilitated the development of highly efficient resolution schemes, as it allows the enumeration of solutions only i.e. acyclic disjunctive graphs. Our objective is to demonstrate how Bierwith's vector can be integrated into a Quantum Approximate Optimization Algorithm (QAOA) to tackle the job-shop problem using a novel quantum approach.
翻訳日:2024-02-29 15:04:50 公開日:2024-02-28
# EAN-MapNet: Anchorighborhoodsによる効率的なベクトル化HDマップの構築

EAN-MapNet: Efficient Vectorized HD Map Construction with Anchor Neighborhoods ( http://arxiv.org/abs/2402.18278v1 )

ライセンス: Link先を確認
Huiyuan Xiong, Jun Shen, Taohong Zhu, Yuelong Pan(参考訳) 高精細(HD)マップは自動運転システムにとって不可欠である。 既存の作業の多くは、DETRデコーダに基づいた要素検出ヘッドを設計している。 しかしながら、初期クエリはマップ要素の物理的な位置特徴と統合されておらず、バニラ自己注意は高い計算複雑性を必要とする。 そこで我々は,Anchor Neighborhoodsを用いた効率的なHDマップ構築のためのEAN-MapNetを提案する。 まず、アンカー地区の物理的位置特徴に基づくクエリユニットを設計する。 非近距離中央アンカーは、目標地点に適合する近傍中央アンカーを効果的に支援し、予測精度を大幅に向上させる。 次に,局所的問合せを特徴的相互作用の媒体として革新的に利用するグループ化局所的問合せ (gl-sa) を導入することにより,問合せ間の豊富な特徴的相互作用を促進しつつ,その計算量を大幅に削減する。 nuScenesデータセットでは、EAN-MapNetは24時間トレーニング後の63.0 mAPで最先端のパフォーマンスを達成する。 さらに、ベースラインと比較して、メモリ消費を大幅に8198m削減する。

High-definition (HD) map is crucial for autonomous driving systems. Most existing works design map elements detection heads based on the DETR decoder. However, the initial queries lack integration with the physical location feature of map elements, and vanilla self-attention entails high computational complexity. Therefore, we propose EAN-MapNet for Efficiently constructing HD map using Anchor Neighborhoods. Firstly, we design query units based on the physical location feature of anchor neighborhoods. Non-neighborhood central anchors effectively assist the neighborhood central anchors in fitting to the target points, significantly improving the prediction accuracy. Then, we introduce grouped local self-attention (GL-SA), which innovatively utilizes local queries as the medium for feature interaction, thereby substantially reducing the computational complexity of self-attention while facilitating ample feature interaction among queries. On nuScenes dataset, EAN-MapNet achieves a state-of-the-art performance with 63.0 mAP after training for 24 epochs. Furthermore, it considerably reduces memory consumption by 8198M compared to the baseline.
翻訳日:2024-02-29 15:04:18 公開日:2024-02-28
# マルチイルミナントホワイトバランシングのための注意点灯分解モデル

Attentive Illumination Decomposition Model for Multi-Illuminant White Balancing ( http://arxiv.org/abs/2402.18277v1 )

ライセンス: Link先を確認
Dongyoung Kim, Jinwoo Kim, Junsang Yu, Seon Joo Kim(参考訳) 多くの商用カメラのホワイトバランス(wb)アルゴリズムは、単光と均一光を仮定し、シーンに異なる色を持つ複数の光源が存在する場合、望ましくない結果をもたらす。 従来の多色光源wbの研究では、光源の数や色などの実際の照明条件を完全に把握することなく、画素レベルでの照明を予測している。 これは多くの場合、全体的な一貫性に欠ける不自然な結果をもたらす。 この問題に対処するために,各スロットが個別の照度を表現するためのスロットアテンションを利用する,深いホワイトバランスモデルを提案する。 この設計により、モデルは個々の照度に対する色度と重量マップを生成でき、最終照明マップを構成するために融合される。 さらに,色域に基づいて各スロットのアクティベーションを制御し,より効果的に照明を分離するためのモデルを強化するセントロイドマッチング損失を提案する。 本手法は, 単照度および多照度WBベンチマークにおける最先端性能を実現し, シーン中の照度数や色度などの付加情報も提供する。 この機能は、以前のメソッドでは実行できないアプリケーションの照明編集を可能にする。

White balance (WB) algorithms in many commercial cameras assume single and uniform illumination, leading to undesirable results when multiple lighting sources with different chromaticities exist in the scene. Prior research on multi-illuminant WB typically predicts illumination at the pixel level without fully grasping the scene's actual lighting conditions, including the number and color of light sources. This often results in unnatural outcomes lacking in overall consistency. To handle this problem, we present a deep white balancing model that leverages the slot attention, where each slot is in charge of representing individual illuminants. This design enables the model to generate chromaticities and weight maps for individual illuminants, which are then fused to compose the final illumination map. Furthermore, we propose the centroid-matching loss, which regulates the activation of each slot based on the color range, thereby enhancing the model to separate illumination more effectively. Our method achieves the state-of-the-art performance on both single- and multi-illuminant WB benchmarks, and also offers additional information such as the number of illuminants in the scene and their chromaticity. This capability allows for illumination editing, an application not feasible with prior methods.
翻訳日:2024-02-29 15:03:52 公開日:2024-02-28
# ゼロショットタスク適応のための命令調整データセット生成学習

Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation ( http://arxiv.org/abs/2402.18334v1 )

ライセンス: Link先を確認
Nihal V. Nayak, Yiyang Nan, Avi Trost, Stephen H. Bach(参考訳) 我々は,条件付きタスク生成のためのオープンソースモデルであるbonitoを紹介している。 我々の目標は、ユーザの専用プライベートデータに対して、大規模言語モデルのゼロショットタスク適応を可能にすることです。 既存のインストラクションチューニングデータセットをメタテンプレートにリミックスして作成した1.65万のサンプルを備えた,新たな大規模データセットでBonitoをトレーニングする。 データセットのメタテンプレートは、入力が注釈のないテキストとタスク属性であり、出力が命令と応答からなるトレーニング例を生成する。 Bonitoを使って,3つのタスクタイプ – yes-no question answering, extractive question answering, and natural language inference – の特殊なドメインから,7つのデータセットの合成タスクを生成し,言語モデルを適用する。 自己教師付きベースラインよりも,事前学習モデルと命令調整モデルの平均性能が有意に向上することを示す。 例えば、mistral-instruct-v2と命令チューニング型mistralとllama2をbonitoに適合させることで、強いゼロショット性能が22.1 f1ポイント向上する一方、次のワード予測対象は命令チューニングの利点を解き、平均パフォーマンスを0.8 f1ポイント削減する。 ドメインの効果やトレーニングセットのサイズ、代替的なタスクジェネレータの選択を理解するため、bonitoで追加の実験を行います。 総合的に,合成指導調律データセットを用いた学習は,言語モデルを新しい領域に適応させる効果的な方法であることを示す。 モデル、データセット、コードはhttps://github.com/batsresearch/bonitoで入手できる。

We introduce Bonito, an open-source model for conditional task generation: the task of converting unannotated text into task-specific training datasets for instruction tuning. Our goal is to enable zero-shot task adaptation of large language models on users' specialized, private data. We train Bonito on a new large-scale dataset with 1.65M examples created by remixing existing instruction tuning datasets into meta-templates. The meta-templates for a dataset produce training examples where the input is the unannotated text and the task attribute and the output consists of the instruction and the response. We use Bonito to generate synthetic tasks for seven datasets from specialized domains across three task types -- yes-no question answering, extractive question answering, and natural language inference -- and adapt language models. We show that Bonito significantly improves the average performance of pretrained and instruction tuned models over the de facto self supervised baseline. For example, adapting Mistral-Instruct-v2 and instruction tuned variants of Mistral and Llama2 with Bonito improves the strong zero-shot performance by 22.1 F1 points whereas the next word prediction objective undoes some of the benefits of instruction tuning and reduces the average performance by 0.8 F1 points. We conduct additional experiments with Bonito to understand the effects of the domain, the size of the training set, and the choice of alternative synthetic task generators. Overall, we show that learning with synthetic instruction tuning datasets is an effective way to adapt language models to new domains. The model, dataset, and code are available at https://github.com/BatsResearch/bonito.
翻訳日:2024-02-29 14:58:47 公開日:2024-02-28
# 量子マルチメータのシミュレーションについて

On the simulation of quantum multimeters ( http://arxiv.org/abs/2402.18333v1 )

ライセンス: Link先を確認
Andreas Bluhm, Leevi Lepp\"aj\"arvi, Ion Nechita(参考訳) 堅牢で普遍的な量子デバイスを追求する中で、シミュレーションの概念は理論と応用の観点からも重要な役割を担っている。 この研究では、量子チャネルと量子測定のシミュレーションを超えて、測定の集合をシミュレートすることの意味を研究し、それをマルチメーターと呼ぶ。 この目的のために、我々はまず、マルチメーター間の完全正の変換を明示的に特徴付ける。 しかしながら、これらすべての変換は有効なシミュレーションに対応している訳ではなく、我々がゴミ・アンド・プレパアと呼ぶ入力に関係なく常に同じマルチメーターを準備する写像の存在によって証明されている。 我々は、自明性保存変換としてのマルチメータシミュレーションの新しい定義を与える。すなわち、自明な測定からなるマルチメータが与えられたとき、別の自明なマルチメータを生成できるだけである。 量子アンシラが存在しない場合、自明性保存の変換とゴミと前処理の変換を特徴付ける。 最後に,マルチメータシミュレーションの新たな定義を,古典シミュレーション,マルチメータ圧縮,互換性保存シミュレーションの3つの既存手法と比較する。

In the quest for robust and universal quantum devices, the notion of simulation plays a crucial role, both from a theoretical and from an applied perspective. In this work, we go beyond the simulation of quantum channels and quantum measurements, studying what it means to simulate a collection of measurements, which we call a multimeter. To this end, we first explicitly characterize the completely positive transformations between multimeters. However, not all of these transformations correspond to valid simulations, as evidenced by the existence of maps that always prepare the same multimeter regardless of the input, which we call trash-and-prepare. We give a new definition of multimeter simulations as transformations that are triviality-preserving, i.e., when given a multimeter consisting of trivial measurements they can only produce another trivial multimeter. In the absence of a quantum ancilla, we then characterize the transformations that are triviality-preserving and the transformations that are trash-and-prepare. Finally, we use these characterizations to compare our new definition of multimeter simulation to three existing ones: classical simulations, compression of multimeters, and compatibility-preserving simulations.
翻訳日:2024-02-29 14:58:16 公開日:2024-02-28
# finediffusion:10,000クラスによる細粒画像生成のための拡散モデルのスケールアップ

FineDiffusion: Scaling up Diffusion Models for Fine-grained Image Generation with 10,000 Classes ( http://arxiv.org/abs/2402.18331v1 )

ライセンス: Link先を確認
Ziying Pan, Kun Wang, Gang Li, Feihong He, Xiwang Li, Yongxuan Lai(参考訳) 拡散モデルに基づくクラス条件画像生成は高品質で多様な画像を生成することで有名である。 しかし、これまでのほとんどの取り組みは、イメージNet-1kの1000クラスなど、一般的なカテゴリのイメージ生成に重点を置いていた。 より困難なタスク、大規模なきめ細かい画像生成は、探索すべき境界である。 本研究では,1万カテゴリの大規模細粒画像生成にスケールする大規模事前学習拡散モデルに対して,ファインディフフュージョンと呼ばれるパラメータ効率の高い手法を提案する。 FineDiffusionはトレーニングを著しく加速し、微調整されたクラス埋め込み、バイアス項、正規化レイヤのパラメータのみによってストレージオーバーヘッドを低減する。 細粒度分類の画質向上を図るため,特に細粒度分類に特化しているスーパークラス条件付きガイダンスを用いて,従来の分類器不要のガイダンスを代替する,微細粒度画像生成のための新しいサンプリング手法を提案する。 フル微調整と比較すると、ファインディフュージョンは1.56倍のトレーニングスピードアップを達成し、総モデルのパラメータの1.77%しか保存せず、1万クラスの画像生成で9.776の最先端のFIDを達成する必要がある。 大規模定性的および定量的実験は,他のパラメータ効率の良い微調整法と比較して,本手法の優位性を示した。 コードと生成された結果については、プロジェクトのwebサイト(https://finediffusion.github.io/)で確認できます。

The class-conditional image generation based on diffusion models is renowned for generating high-quality and diverse images. However, most prior efforts focus on generating images for general categories, e.g., 1000 classes in ImageNet-1k. A more challenging task, large-scale fine-grained image generation, remains the boundary to explore. In this work, we present a parameter-efficient strategy, called FineDiffusion, to fine-tune large pre-trained diffusion models scaling to large-scale fine-grained image generation with 10,000 categories. FineDiffusion significantly accelerates training and reduces storage overhead by only fine-tuning tiered class embedder, bias terms, and normalization layers' parameters. To further improve the image generation quality of fine-grained categories, we propose a novel sampling method for fine-grained image generation, which utilizes superclass-conditioned guidance, specifically tailored for fine-grained categories, to replace the conventional classifier-free guidance sampling. Compared to full fine-tuning, FineDiffusion achieves a remarkable 1.56x training speed-up and requires storing merely 1.77% of the total model parameters, while achieving state-of-the-art FID of 9.776 on image generation of 10,000 classes. Extensive qualitative and quantitative experiments demonstrate the superiority of our method compared to other parameter-efficient fine-tuning methods. The code and more generated results are available at our project website: https://finediffusion.github.io/.
翻訳日:2024-02-29 14:57:57 公開日:2024-02-28
# Egocentric Heatmap to 3D Pose Lifting の注意・伝播ネットワーク

Attention-Propagation Network for Egocentric Heatmap to 3D Pose Lifting ( http://arxiv.org/abs/2402.18330v1 )

ライセンス: Link先を確認
Taeho Kang, Youngki Lee(参考訳) EgoTAPは高度に高精度な立体自己中心型3Dポーズ推定のためのヒートマップから3Dポーズリフト法である。 エゴセントリックなカメラビューでは、厳密な自己排除と外見の四肢が正確なポーズ推定を困難にしている。 この課題に対処するために、以前の手法では、身体ポーズのジョイントヒートマップ確率2次元表現を用いるが、ヒートマップから3dへのポーズ変換はまだ不正確なプロセスである。 本稿では,Grid ViT Encoder と Propagation Network を組み合わせた新しいヒートマップから3Dへのリフト手法を提案する。 Grid ViT Encoderは、ジョイントヒートマップを自己注意を使って効果的な機能埋め込みに要約する。 そして、骨格情報を利用して3Dポーズを推定し、不明瞭な関節の位置をより正確に推定する。 本手法は,MPJPE測定値の誤差を 23.9 % 減らすことによって, 従来の最先端の定性的かつ定量的に性能を著しく向上させる。 ソースコードはGitHubで入手可能です。

We present EgoTAP, a heatmap-to-3D pose lifting method for highly accurate stereo egocentric 3D pose estimation. Severe self-occlusion and out-of-view limbs in egocentric camera views make accurate pose estimation a challenging problem. To address the challenge, prior methods employ joint heatmaps-probabilistic 2D representations of the body pose, but heatmap-to-3D pose conversion still remains an inaccurate process. We propose a novel heatmap-to-3D lifting method composed of the Grid ViT Encoder and the Propagation Network. The Grid ViT Encoder summarizes joint heatmaps into effective feature embedding using self-attention. Then, the Propagation Network estimates the 3D pose by utilizing skeletal information to better estimate the position of obscure joints. Our method significantly outperforms the previous state-of-the-art qualitatively and quantitatively demonstrated by a 23.9\% reduction of error in an MPJPE metric. Our source code is available in GitHub.
翻訳日:2024-02-29 14:57:29 公開日:2024-02-28
# Informed Data Augmentation による逆シェルのリビングオフ検出

Living-off-The-Land Reverse-Shell Detection by Informed Data Augmentation ( http://arxiv.org/abs/2402.18329v1 )

ライセンス: Link先を確認
Dmitrijs Trizna, Luca Demetrio, Battista Biggio, Fabio Roli(参考訳) リビング・オブ・ザ・ランド(LOTL)の攻撃的手法は、正統なアプリケーションによって実行されるコマンドの連鎖を通じて悪意ある行為を犯すことに依存しており、システムログの分析によってのみ特定できる。 LOTL技術は、一般的な正当な活動によって生成された事象のストリームの中によく隠されており、さらに、脅威アクターは難読化によってカモフラージュ活動を行うことが多い。 このような厳しい環境下でのモデルの性能向上のために,正規ログ内のLOTL悪意のある活動の強化と多様化を目的とした拡張フレームワークを提案する。 脅威インテリジェンスによってガイドされた我々は、野生で使用されることが知られている攻撃テンプレートを注入することでデータセットを生成し、さらに、回避的脅威アクターの振る舞いを再現するために、正当な活動の持続可能なパターンによって強化する。 我々は、拡張データセットをよりうまく扱うモデルを理解するために広範なアブレーション研究を行い、モデル非依存の回避と毒殺攻撃の存在を模倣するように操作しました。 その結果,高い予測能力を維持するためには拡張が必要であること,敵意トレーニングのような特定の強化技術によって攻撃に対する堅牢性が得られ,ほぼゼロの偽アラームによるリアルタイムに近いモデルのデプロイが可能であること,などが示唆された。

The living-off-the-land (LOTL) offensive methodologies rely on the perpetration of malicious actions through chains of commands executed by legitimate applications, identifiable exclusively by analysis of system logs. LOTL techniques are well hidden inside the stream of events generated by common legitimate activities, moreover threat actors often camouflage activity through obfuscation, making them particularly difficult to detect without incurring in plenty of false alarms, even using machine learning. To improve the performance of models in such an harsh environment, we propose an augmentation framework to enhance and diversify the presence of LOTL malicious activity inside legitimate logs. Guided by threat intelligence, we generate a dataset by injecting attack templates known to be employed in the wild, further enriched by malleable patterns of legitimate activities to replicate the behavior of evasive threat actors. We conduct an extensive ablation study to understand which models better handle our augmented dataset, also manipulated to mimic the presence of model-agnostic evasion and poisoning attacks. Our results suggest that augmentation is needed to maintain high-predictive capabilities, robustness to attack is achieved through specific hardening techniques like adversarial training, and it is possible to deploy near-real-time models with almost-zero false alarms.
翻訳日:2024-02-29 14:57:15 公開日:2024-02-28
# 単一電子二層グラフェン量子ドットにおける谷緩和

Valley relaxation in a single-electron bilayer graphene quantum dot ( http://arxiv.org/abs/2402.18328v1 )

ライセンス: Link先を確認
Lin Wang, Guido Burkard(参考訳) 単一電子二層グラフェン量子ドットにおける間隔結合による谷緩和について検討する。 谷緩和は、変形電位とボンド長変化機構による音響フォノンの放出と1/f$の電荷雑音によって支援される。 谷緩和時間$t_1$の垂直磁場依存性において,電子-フォノンカップリングによる高磁場での$t_1$の単調減少を予測し,banszerusらによる最近の実験とよく一致した。 高磁場領域における支配的な谷緩和チャネルは、変形電位による電子-フォノンカップリングである。 低磁場では、結合長の変化による1/f$の電荷ノイズと電子-フォノン散乱の競合から、T_1$のピークが生じると予測する。 また、層間ホッピング$\gamma_3$は、二層グラフェンの回転対称量子ドットに対する電荷雑音に対する谷緩和チャネルを開くことも見出した。

We investigate the valley relaxation due to intervalley coupling in a single-electron bilayer graphene quantum dot. The valley relaxation is assisted by both the emission of acoustic phonons via the deformation potential and bond-length change mechanisms and $1/f$ charge noise. In the perpendicular magnetic-field dependence of the valley relaxation time $T_1$, we predict a monotonic decrease of $T_1$ at higher fields due to electron-phonon coupling, which is in good agreement with recent experiments by Banszerus et al. We find that the dominant valley relaxation channel in the high-field regime is the electron-phonon coupling via the deformation potential. At lower fields, we predict that a peak in $T_1$ can arise from the competition between $1/f$ charge noise and electron-phonon scattering due to bond-length change. We also find that the interlayer hopping $\gamma_3$ opens a valley relaxation channel for electric charge noise for rotationally symmetric quantum dots in bilayer graphene.
翻訳日:2024-02-29 14:56:50 公開日:2024-02-28
# アルゴリズムはいつ辞任すべきか?

When Should Algorithms Resign? ( http://arxiv.org/abs/2402.18326v1 )

ライセンス: Link先を確認
Umang Bhatt and Holli Sargeant(参考訳) 本稿では、組織内におけるAIシステムの利用を管理する戦略的アプローチであるアルゴリズム辞退について論じる。 アルゴリズムの辞退には、AIシステムに直接ガバナンスメカニズムを組み込むことによって、特定のシナリオにおけるAIアシストからの意図的かつインフォームドな解脱が含まれる。 私たちの提案は、AIを廃止するだけでなく、これらのシステムがいつ、どのように使用されるか、避けるべきかを導くことを含んでいる。 アルゴリズムによる辞任,経済効率,評判の高まり,法的遵守といった多面的利益について論じる。 さらに、ポジティブ・ネガティブ・ナッジ、利害関係者のインセンティブ・アライメント、AIの関与度を慎重に検討するなど、さまざまな手法による辞表の運用について概説する。 AI出力へのアクセスを選択的に禁止したり、システムパフォーマンスに対する明確な不満を提供するようなテクニックを使用することで、アルゴリズムの辞退はAIに関連するリスクを軽減するだけでなく、そのメリットを活用し、AIシステムの責任と効果的な使用を保証する。

This paper discusses algorithmic resignation, a strategic approach for managing the use of AI systems within organizations. Algorithmic resignation involves the deliberate and informed disengagement from AI assistance in certain scenarios, by embedding governance mechanisms directly into AI systems. Our proposal is not merely about disuse of AI but includes guiding when and how these systems should be used or avoided. We discuss the multifaceted benefits of algorithmic resignation, spanning economic efficiency, reputational gains, and legal compliance. Further, we outline the operationalization of resignation through various methods such as positive and negative nudges, stakeholder incentive alignment, and careful consideration of the level of AI engagement. Using techniques like barring access to AI outputs selectively or providing explicit disclaimers on system performance, algorithmic resignation not only mitigates risks associated with AI but also leverages its benefits, ensuring the responsible and effective use of AI systems.
翻訳日:2024-02-29 14:56:33 公開日:2024-02-28
# プライバシーポリシーと同意管理プラットフォーム: 成長とユーザの時間的相互作用

Privacy Policies and Consent Management Platforms: Growth and Users' Interactions over Time ( http://arxiv.org/abs/2402.18321v1 )

ライセンス: Link先を確認
Nikhil Jha, Martino Trevisan, Marco Mellia, Daniel Fernandez, Rodrigo Irarrazaval(参考訳) ユーザーのプライバシーに関する懸念が高まる中、議会は、個人データ収集を活性化する前にウェブサイトにユーザーの同意を得ることを強制するGeneral Data Protection Regulation (GDPR)やCalifornia Consumer Privacy Act (CCPA)のような新しい規則と法律を導入した。 この同意調査プロセスの基礎は、データ収集プラクティスに対するユーザの承認を集める技術的メカニズムである、プライバシバナーの使用にある。 コンセントマネジメントプラットフォーム(CMP)は、ウェブサイト管理者が適切なコンセントの管理を容易にし、ユーザ同意の管理と広告機能の活性化の複雑さをアウトソースできるようにするための実用的なソリューションとして登場した。 本稿では,9年間にわたるCMPの進化を詳細に,縦断的に分析した。 まず、HTTP Archiveデータセットのおかげで、CMPの成長、市場シェア、地理的拡散に関する洞察を提供する。 注目すべき観察は、ヨーロッパにおけるCMPの増殖に対するGDPRの相当な影響である。 第2に、世界中の何千ものウェブサイトに存在する中規模のCMPと何百万ものユーザーインタラクションを分析します。 プライバシバナーの設計の小さな変更が、ユーザのデータ収集に対する同意の付与や拒否に、いかに重大な影響を与えているかを観察した。 例えば、ユーザの60%以上は、シンプルな"ワンクリックリジェクションオール"オプションを提供する場合、同意しない。 逆に、オプトアウトに1回以上のクリックが必要な場合、約90%のユーザーが単に同意することを好む。 主な目的は、情報のある決定をするよりも、迷惑なプライバシーバナーを取り除くことだ。 皮肉なことに、iOSユーザーはAndroidユーザーよりもクッキーを受け入れる傾向が高く、おそらくAppleデバイスが提供するプライバシーへの信頼感が増している。

In response to growing concerns about user privacy, legislators have introduced new regulations and laws such as the General Data Protection Regulation (GDPR) and the California Consumer Privacy Act (CCPA) that force websites to obtain user consent before activating personal data collection, fundamental to providing targeted advertising. The cornerstone of this consent-seeking process involves the use of Privacy Banners, the technical mechanism to collect users' approval for data collection practices. Consent management platforms (CMPs) have emerged as practical solutions to make it easier for website administrators to properly manage consent, allowing them to outsource the complexities of managing user consent and activating advertising features. This paper presents a detailed and longitudinal analysis of the evolution of CMPs spanning nine years. We take a twofold perspective: Firstly, thanks to the HTTP Archive dataset, we provide insights into the growth, market share, and geographical spread of CMPs. Noteworthy observations include the substantial impact of GDPR on the proliferation of CMPs in Europe. Secondly, we analyse millions of user interactions with a medium-sized CMP present in thousands of websites worldwide. We observe how even small changes in the design of Privacy Banners have a critical impact on the user's giving or denying their consent to data collection. For instance, over 60% of users do not consent when offered a simple "one-click reject-all" option. Conversely, when opting out requires more than one click, about 90% of users prefer to simply give their consent. The main objective is in fact to eliminate the annoying privacy banner rather the make an informed decision. Curiously, we observe iOS users exhibit a higher tendency to accept cookies compared to Android users, possibly indicating greater confidence in the privacy offered by Apple devices.
翻訳日:2024-02-29 14:56:17 公開日:2024-02-28
# 魚眼画像のための位置誘導頭部ポーズ推定

Location-guided Head Pose Estimation for Fisheye Image ( http://arxiv.org/abs/2402.18320v1 )

ライセンス: Link先を確認
Bing Li, Dong Zhang, Cheng Huang, Yun Xian, Ming Li, and Dah-Jye Lee(参考訳) 魚眼または超広角レンズを備えたカメラは、視点投影でモデル化できない広い視野をカバーしている。 画像の周辺領域における厳密な魚眼{blue}{lens}歪みは、歪みのない画像に基づいて訓練された<textcolor{blue}{existing}ヘッドポーズ推定モデルの劣化性能をもたらす。 本稿では,魚眼歪みの負の効果を低減するために,画像中の頭部位置の知識を用いた頭部ポーズ推定の新しい手法を提案する。 我々は,頭部ポーズと頭部位置のマルチタスク学習を用いて頭部ポーズを推定するエンドツーエンド畳み込みニューラルネットワークを開発した。 提案ネットワークは,魚眼画像から直接頭部のポーズを補正や校正の操作なしに推定する。 また,biwi,300w-lp,aflw2000の3種類の頭部ポーズ推定データセットの<textcolor{blue}{a} fisheye-\textcolor{blue}{distorted}バージョンを作成した。 実験の結果,本ネットワークは,他の1段階および2段階の手法と比較して,頭部ポーズ推定の精度が著しく向上することがわかった。

Camera with a fisheye or ultra-wide lens covers a wide field of view that cannot be modeled by the perspective projection. Serious fisheye \textcolor{blue}{lens} distortion in the peripheral region of the image leads to degraded performance of the \textcolor{blue}{existing} head pose estimation models trained on undistorted images. This paper presents a new approach for head pose estimation that uses the knowledge of head location in the image to reduce the negative effect of fisheye distortion. We develop an end-to-end convolutional neural network to estimate the head pose with the multi-task learning of head pose and head location. Our proposed network estimates the head pose directly from the fisheye image without the operation of rectification or calibration. We also created \textcolor{blue}{a} fisheye-\textcolor{blue}{distorted} version of the three popular head pose estimation datasets, BIWI, 300W-LP, and AFLW2000 for our experiments. Experiments results show that our network remarkably improves the accuracy of head pose estimation compared with other state-of-the-art one-stage and two-stage methods.
翻訳日:2024-02-29 14:55:50 公開日:2024-02-28
# マルチモーダルハンドオーバ障害検出データセットとベースライン

A Multimodal Handover Failure Detection Dataset and Baselines ( http://arxiv.org/abs/2402.18319v1 )

ライセンス: Link先を確認
Santosh Thoduka and Nico Hochgeschwender and Juergen Gall and Paul G. Pl\"oger(参考訳) ロボットと人間の間のオブジェクトハンドオーバ(object handover)は、誤ったコミュニケーション、誤ったアクション、予期しないオブジェクト特性などの理由で失敗しやすい、協調したアクションである。 既存の作業では、オブジェクトスリップや外部の障害による障害の検出と防止に重点を置いている。 しかし、人間による予防不可能な失敗を考慮に入れたデータセットや評価方法が欠如している。 この欠陥に対処するために,ロボットを無視したり,オブジェクトを解放しないなど,人間参加者によって引き起こされる障害からなるマルチモーダルハンドオーバ障害検出データセットを提案する。 また,ハンドオーバ障害検出のための2つのベースライン手法を提案する。 (i)3d cnnを用いた映像分類法 (ii)人間の行動、ロボット行動、行動の全体的成果を共同で分類する時間的行動分断アプローチ。 その結果、ビデオは重要なモダリティであるが、力トルクデータとグリップ位置を用いることで、故障検出とアクションセグメンテーションの精度が向上することがわかった。

An object handover between a robot and a human is a coordinated action which is prone to failure for reasons such as miscommunication, incorrect actions and unexpected object properties. Existing works on handover failure detection and prevention focus on preventing failures due to object slip or external disturbances. However, there is a lack of datasets and evaluation methods that consider unpreventable failures caused by the human participant. To address this deficit, we present the multimodal Handover Failure Detection dataset, which consists of failures induced by the human participant, such as ignoring the robot or not releasing the object. We also present two baseline methods for handover failure detection: (i) a video classification method using 3D CNNs and (ii) a temporal action segmentation approach which jointly classifies the human action, robot action and overall outcome of the action. The results show that video is an important modality, but using force-torque data and gripper position help improve failure detection and action segmentation accuracy.
翻訳日:2024-02-29 14:55:28 公開日:2024-02-28
# ハイブリッド光超伝導量子ビットシステム

Hybrid optomechanical superconducting qubit system ( http://arxiv.org/abs/2402.18317v1 )

ライセンス: Link先を確認
Juuso Manninen, Robert H. Blick, Francesco Massel(参考訳) ナノエレクトロメカニカルシャトルを用いた集積型非線形超伝導デバイスを提案する。 このシステムはボソニックモードに結合した量子ビットとして記述することができる。 回路のトポロジーは調節可能な量子ビット/機械的結合をもたらし、実験者は機械的自由度において線形結合と二次結合を調整できる。 その柔軟性と潜在的なスケーラビリティのため、提案したセットアップは、大規模超伝導回路における機械的要素によるボソニック誤差補正の実装に向けた重要なステップである。 我々は、このデバイスを量子メモリ要素として使用する単純な状態スワッピングプロトコルを議論することで、この可能性の予備的な証拠を与える。

We propose an integrated nonlinear superconducting device based on a nanoelectromechanical shuttle. The system can be described as a qubit coupled to a bosonic mode. The topology of the circuit gives rise to an adjustable qubit/mechanical coupling, allowing the experimenter to tune between linear and quadratic coupling in the mechanical degrees of freedom. Owing to its flexibility and potential scalability, the proposed setup represents an important step towards the implementation of bosonic error correction with mechanical elements in large-scale superconducting circuits. We give preliminary evidence of this possibility by discussing a simple state-swapping protocol that uses this device as a quantum memory element.
翻訳日:2024-02-29 14:55:10 公開日:2024-02-28
# ステップバイステップ:連鎖推論の機械的理解

How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning ( http://arxiv.org/abs/2402.18312v1 )

ライセンス: Link先を確認
Subhabrata Dutta, Joykirat Singh, Soumen Chakrabarti, Tanmoy Chakraborty(参考訳) CoT(Chain-of-Thought)を刺激するLarge Language Models(LLMs)による優れた推論技術にもかかわらず、CoT生成を促進するモデルの内部メカニズムに関する理解の欠如が一般的である。 本研究では、機械的観点からCoT推論を示すLLM内の神経サブ構造について検討する。 LLaMA-2 7Bを架空のオントロジー上の多段階推論に適用した解析から,LLMはステップバイステップ推論のために複数のパラレルな応答生成経路をデプロイすることを示した。 これらの並列経路は、入力された質問コンテキストと生成されたCoTからの逐次応答を提供する。 LLMの中層における顕著な機能的亀裂を観察した。 最初の半分のトークン表現は、前もってトレーニングされる前に強く偏りがちであり、インコンテキストが後半分で突然引き継がれている。 この内部位相シフトは異なる機能成分に現れ、応答トークンを書く注意頭は後半に主に現れ、存在論的関係に沿って情報を移動させる注意頭は前半にのみ現れる。 我々の知る限りでは、LLMにおけるCoT推論の機械論的研究への最初の試みである。

Despite superior reasoning prowess demonstrated by Large Language Models (LLMs) with Chain-of-Thought (CoT) prompting, a lack of understanding prevails around the internal mechanisms of the models that facilitate CoT generation. This work investigates the neural sub-structures within LLMs that manifest CoT reasoning from a mechanistic point of view. From an analysis of LLaMA-2 7B applied to multistep reasoning over fictional ontologies, we demonstrate that LLMs deploy multiple parallel pathways of answer generation for step-by-step reasoning. These parallel pathways provide sequential answers from the input question context as well as the generated CoT. We observe a striking functional rift in the middle layers of the LLM. Token representations in the initial half remain strongly biased towards the pretraining prior, with the in-context taking over abruptly in the later half. This internal phase shift manifests in different functional components: attention heads that write the answer token predominantly appear in the later half, attention heads that move information along ontological relationships appear exclusively in the initial half, and so on. To the best of our knowledge, this is the first attempt towards mechanistic investigation of CoT reasoning in LLMs.
翻訳日:2024-02-29 14:55:01 公開日:2024-02-28
# グローバルプレースメントにおけるローカルオプティマスの回避

Escaping Local Optima in Global Placement ( http://arxiv.org/abs/2402.18311v1 )

ライセンス: Link先を確認
Ke Xue, Xi Lin, Yunqi Shi, Shixiong Kai, Siyuan Xu, Chao Qian(参考訳) 配置は、パワー、パフォーマンス、領域のメトリクスに大きな影響を与えるため、物理的な設計において重要である。 DREAMPlaceのような最近の分析手法の進歩は、グローバルな配置において顕著な性能を示している。 しかし、DREAMPlaceにはいくつかの制限があり、例えば、同じ設定で合法化可能な配置を保証できない場合があり、脆弱で予測不可能な結果をもたらす。 本稿では, 局所最適に留まっている主な課題を強調し, 配置結果を反復的に摂動することで, 局所最適を効率的に回避するためのハイブリッド最適化フレームワークを提案する。 提案フレームワークは,2つのベンチマークの最先端手法と比較して,大幅な改善を実現している。

Placement is crucial in the physical design, as it greatly affects power, performance, and area metrics. Recent advancements in analytical methods, such as DREAMPlace, have demonstrated impressive performance in global placement. However, DREAMPlace has some limitations, e.g., may not guarantee legalizable placements under the same settings, leading to fragile and unpredictable results. This paper highlights the main issue as being stuck in local optima, and proposes a hybrid optimization framework to efficiently escape the local optima, by perturbing the placement result iteratively. The proposed framework achieves significant improvements compared to state-of-the-art methods on two popular benchmarks.
翻訳日:2024-02-29 14:54:39 公開日:2024-02-28
# 道路安全の強化:LiDARによるツリークリアランス分析

Enhancing Roadway Safety: LiDAR-based Tree Clearance Analysis ( http://arxiv.org/abs/2402.18309v1 )

ライセンス: Link先を確認
Miriam Louise Carnot, Eric Peukert, Bogdan Franczyk(参考訳) より安全な道路では、道路上の適切な垂直クリアランスを確保することが重要である。 しばしば木やその他の植生が道路の上に生えており、道路標識やライトの視認を妨げ、交通参加者に危険を及ぼす。 この空間を単純な画像から正確に推定することは、深度情報がないために困難である。 そこでLiDARの技術が活躍する。レーザースキャナーは3次元の視点を明らかにする。 これまでのところ、道路レベルのLiDARポイントクラウドは、主に自動運転分野のアプリケーションに使われてきた。 しかし、これらのスキャンは都市管理の可能性を開放する。 本稿では,道路上に生長する木々を自動的に検出し,刈り取らなければならない新たなポイントクラウドアルゴリズムを提案する。 提案システムでは,意味セグメンテーションを用いて関連するポイントと下流処理ステップをフィルタリングし,必要なボリュームを道路上で明確に生成する。 課題には、道路のぼやけた伸び、LiDAR点雲のノイズのない非構造性、道路形状の評価などが含まれる。 非準拠樹の特定点を雲点から画像に投影することができ、自治体がこのような事件に対処するための視覚的支援を提供する。 このプロセスを自動化することで、自治体は潜在的な道路空間の制約に対処し、全員の安全を高めることができる。 また、より体系的に検査を行うことで、貴重な時間を節約できる。 私たちのオープンソースコードは、プロセス自体の自動化方法に関するコミュニティのインスピレーションを与えます。

In the efforts for safer roads, ensuring adequate vertical clearance above roadways is of great importance. Frequently, trees or other vegetation is growing above the roads, blocking the sight of traffic signs and lights and posing danger to traffic participants. Accurately estimating this space from simple images proves challenging due to a lack of depth information. This is where LiDAR technology comes into play, a laser scanning sensor that reveals a three-dimensional perspective. Thus far, LiDAR point clouds at the street level have mainly been used for applications in the field of autonomous driving. These scans, however, also open up possibilities in urban management. In this paper, we present a new point cloud algorithm that can automatically detect those parts of the trees that grow over the street and need to be trimmed. Our system uses semantic segmentation to filter relevant points and downstream processing steps to create the required volume to be kept clear above the road. Challenges include obscured stretches of road, the noisy unstructured nature of LiDAR point clouds, and the assessment of the road shape. The identified points of non-compliant trees can be projected from the point cloud onto images, providing municipalities with a visual aid for dealing with such occurrences. By automating this process, municipalities can address potential road space constraints, enhancing safety for all. They may also save valuable time by carrying out the inspections more systematically. Our open-source code gives communities inspiration on how to automate the process themselves.
翻訳日:2024-02-29 14:54:28 公開日:2024-02-28
# 重み付き非局所ブロックを用いた低照度インスタンスセグメンテーションの特徴量化

Feature Denoising For Low-Light Instance Segmentation Using Weighted Non-Local Blocks ( http://arxiv.org/abs/2402.18307v1 )

ライセンス: Link先を確認
Joanne Lin, Nantheera Anantrasirichai, David Bull(参考訳) 低光度画像のインスタンスセグメンテーションは、例えば、低光子数、色歪み、コントラストの減少によるショットノイズなど、そのような条件によって課される課題により、ほとんど未解明のままである。 本稿では,この課題に対処するエンドツーエンドのソリューションを提案する。 提案手法はMask R-CNNに基づいて,特徴抽出器に重み付き非局所ブロックを実装した。 この統合により、機能レベルで固有のデノベーションプロセスが可能になる。 その結果,実世界の低照度データセットのトレーニングを支援するため,学習中にアライメントされた真理画像の必要性をなくすことができた。 ネットワークの現実的なノイズ特性への適応性を高めるために,各層に学習可能な重みを導入する。 実験結果から,提案手法は事前学習したMask R-CNNよりも平均精度(AP)が+10.0向上し,重み付きNLブロックが+1.0向上した。

Instance segmentation for low-light imagery remains largely unexplored due to the challenges imposed by such conditions, for example shot noise due to low photon count, color distortions and reduced contrast. In this paper, we propose an end-to-end solution to address this challenging task. Based on Mask R-CNN, our proposed method implements weighted non-local (NL) blocks in the feature extractor. This integration enables an inherent denoising process at the feature level. As a result, our method eliminates the need for aligned ground truth images during training, thus supporting training on real-world low-light datasets. We introduce additional learnable weights at each layer in order to enhance the network's adaptability to real-world noise characteristics, which affect different feature scales in different ways. Experimental results show that the proposed method outperforms the pretrained Mask R-CNN with an Average Precision (AP) improvement of +10.0, with the introduction of weighted NL Blocks further enhancing AP by +1.0.
翻訳日:2024-02-29 14:54:06 公開日:2024-02-28
# 進化戦略としての大規模言語モデル

Large Language Models As Evolution Strategies ( http://arxiv.org/abs/2402.18381v1 )

ライセンス: Link先を確認
Robert Tjarko Lange, Yingtao Tian, Yujin Tang(参考訳) 大規模なトランスフォーマーモデルは、いわゆるインコンテキスト学習アルゴリズムを実装することができる。 これには勾配降下、分類、シーケンス完了、変換、改善が含まれる。 本研究では,ブラックボックス最適化の課題に明示的に遭遇しない大規模言語モデル(llm)が,進化的最適化アルゴリズムを原理的に実装できるかどうかを検討する。 これまでの研究は言語ベースのタスク仕様のみに重点を置いてきたが、今後はゼロショットのLCMをブラックボックス最適化に適用することに注力していく。 本稿では,非正規人口構成員を最小から最下位に分類し,llmを問合せし,平均統計値の改善,すなわちブラックボックス再結合操作を提案する新しい促進戦略を提案する。 実験により, ランダム探索やガウスヒルクライミングなどのベースラインアルゴリズムを, 合成BBOB関数と小脳神経進化タスクで頑健に上回る, LLM ベースの進化戦略をユーザに提供することが確認された。 したがって、LLMは ‘plug-in’ in-context recombination演算子として振る舞うことができる。 我々は,LLMのモデルサイズ,迅速な戦略,コンテキスト構築について比較研究を行った。 最後に,教師最適化トラジェクタに教師アルゴリズム情報を微調整することで,エヴェルムの性能を柔軟に向上できることを示す。

Large Transformer models are capable of implementing a plethora of so-called in-context learning algorithms. These include gradient descent, classification, sequence completion, transformation, and improvement. In this work, we investigate whether large language models (LLMs), which never explicitly encountered the task of black-box optimization, are in principle capable of implementing evolutionary optimization algorithms. While previous works have solely focused on language-based task specification, we move forward and focus on the zero-shot application of LLMs to black-box optimization. We introduce a novel prompting strategy, consisting of least-to-most sorting of discretized population members and querying the LLM to propose an improvement to the mean statistic, i.e. perform a type of black-box recombination operation. Empirically, we find that our setup allows the user to obtain an LLM-based evolution strategy, which we call `EvoLLM', that robustly outperforms baseline algorithms such as random search and Gaussian Hill Climbing on synthetic BBOB functions as well as small neuroevolution tasks. Hence, LLMs can act as `plug-in' in-context recombination operators. We provide several comparative studies of the LLM's model size, prompt strategy, and context construction. Finally, we show that one can flexibly improve EvoLLM's performance by providing teacher algorithm information via instruction fine-tuning on previously collected teacher optimization trajectories.
翻訳日:2024-02-29 14:48:15 公開日:2024-02-28
# 量子材料設計における障害の受容

Embracing Disorder in Quantum Materials Design ( http://arxiv.org/abs/2402.18379v1 )

ライセンス: Link先を確認
A.R. Mazza, J. Yan, S. Middey, J. S. Gardner, A.-H. Chen, M. Brahlek, T.Z. Ward(参考訳) 基本凝縮物質物理学における最もエキサイティングな物質発見の多くは、ある種の内在性障害を含むシステムで行われている。 障害は歴史的に材料設計において避けるべきものとみなされてきたが、しばしば相関や量子材料に中心的な重要性を持つ。 これは、複雑な相互作用、対称性、バンド構造を示す高度に均一なシステムに対処し、予測し、理解するための概念的および理論的容易さによって主に導かれる。 この観点から、高エントロピー酸化物(HEO)量子材料が出現する分野において、このパラダイムの反転がエキサイティングな可能性を可能にしていることを強調する。 これらの材料は、予期せぬ均一な単結晶格子を維持しながら、高レベルのカチオンまたはアニオン組成障害を引き起こす。 スピン、電荷、軌道、格子自由度の原子スケール相互作用の多様性は、はるかに大きな長さスケールでコヒーレントな性質に現れる。 したがって、元素選択による原子スケール特性のばらつきと大きさの変化は、磁性、金属絶縁体転移、強誘電性、さらには創発的トポロジカル反応などの大域的相関位相を調整するための新たな経路を開くことができる。 このように障害を受け入れる戦略は、次世代のマイクロエレクトロニクスおよび量子情報システムのために機能状態を設計できるより広範なパレットを提供する。

Many of the most exciting materials discoveries in fundamental condensed matter physics are made in systems hosting some degree of intrinsic disorder. While disorder has historically been regarded as something to be avoided in materials design, it is often of central importance to correlated and quantum materials. This is largely driven by the conceptual and theoretical ease to handle, predict, and understand highly uniform systems that exhibit complex interactions, symmetries and band structures. In this perspective, we highlight how flipping this paradigm has enabled exciting possibilities in the emerging field of high entropy oxide (HEO) quantum materials. These materials host high levels of cation or anion compositional disorder while maintaining unexpectedly uniform single crystal lattices. The diversity of atomic scale interactions of spin, charge, orbital, and lattice degrees of freedom are found to emerge into coherent properties on much larger length scales. Thus, altering the variance and magnitudes of the atomic scale properties through elemental selection can open new routes to tune global correlated phases such as magnetism, metal-insulator transitions, ferroelectricity, and even emergent topological responses. The strategy of embracing disorder in this way provides a much broader pallet from which functional states can be designed for next-generation microelectronic and quantum information systems.
翻訳日:2024-02-29 14:47:49 公開日:2024-02-28
# 動的システム再構築における外部一般化

Out-of-Domain Generalization in Dynamical Systems Reconstruction ( http://arxiv.org/abs/2402.18377v1 )

ライセンス: Link先を確認
Niclas G\"oring, Florian Hess, Manuel Brenner, Zahra Monfared, Daniel Durstewitz(参考訳) 科学では、制御方程式、動的規則、基礎となる経験的現象を見つけることに興味があります。 従来の科学的モデルは人間の洞察と実験のサイクルから導かれるが、最近のディープラーニング(DL)技術は時系列データから直接動的システム(DS)を再構築するために進歩している。 最先端の動的システム再構成(DSR)手法は、観測されたDSの不変性や長期的な特性を捉えることを約束している。 しかし、これはいかなる科学的理論にも期待できる重要な性質である。 本研究では,dsrの一般化に対応する形式的フレームワークを提案する。 我々は、DSRにおけるOOD(out-of-domain)一般化が、機械学習において他で考えられるOODGと大きく異なる理由と理由を説明する。 我々は,dsrモデルの学習可能性の概念を定式化するために,位相概念とエルゴード理論に基づく数学的概念を導入する。 ブラックボックス DL 技術は,構造的前提を十分に満たさないが,一般に一般化 DSR モデルを学ぶことはできないことを正式に証明する。 また、これまでに提案されたDSRアルゴリズムの主要なクラスを考慮し、位相空間全体の一般化に失敗した理由を実証的に示す。 本研究は,DSRにおけるOODGの包括的数学的治療であり,OODGの根本的問題がどこにあるのか,実際にどのように対処できるかをより深く理解するものである。

In science we are interested in finding the governing equations, the dynamical rules, underlying empirical phenomena. While traditionally scientific models are derived through cycles of human insight and experimentation, recently deep learning (DL) techniques have been advanced to reconstruct dynamical systems (DS) directly from time series data. State-of-the-art dynamical systems reconstruction (DSR) methods show promise in capturing invariant and long-term properties of observed DS, but their ability to generalize to unobserved domains remains an open challenge. Yet, this is a crucial property we would expect from any viable scientific theory. In this work, we provide a formal framework that addresses generalization in DSR. We explain why and how out-of-domain (OOD) generalization (OODG) in DSR profoundly differs from OODG considered elsewhere in machine learning. We introduce mathematical notions based on topological concepts and ergodic theory to formalize the idea of learnability of a DSR model. We formally prove that black-box DL techniques, without adequate structural priors, generally will not be able to learn a generalizing DSR model. We also show this empirically, considering major classes of DSR algorithms proposed so far, and illustrate where and why they fail to generalize across the whole phase space. Our study provides the first comprehensive mathematical treatment of OODG in DSR, and gives a deeper conceptual understanding of where the fundamental problems in OODG lie and how they could possibly be addressed in practice.
翻訳日:2024-02-29 14:47:26 公開日:2024-02-28
# トークン化は圧縮以上のもの

Tokenization Is More Than Compression ( http://arxiv.org/abs/2402.18376v1 )

ライセンス: Link先を確認
Craig W. Schmidt, Varshini Reddy, Haoran Zhang, Alec Alameddine, Omri Uzan, Yuval Pinter, Chris Tanner(参考訳) トークン化は自然言語処理(NLP)タスクの基本ステップであり、生のテキストと言語モデルをブリッジする。 Byte-Pair Encoding (BPE)のような既存のトークン化手法は、データ圧縮の分野から来ており、BPEの有効性はテキストを比較的少数のトークンに凝縮する能力に起因していることが示唆されている。 ドキュメントのテキストを指定された語彙の最小数のトークンに分割する新しいトークン化ツールであるpathpieceを導入することで、より少ないトークンによって下流のパフォーマンスが向上するという仮説を検証した。 広範な実験を通じて、この仮説はそうではないことが分かり、効果的なトークン化の理由の理解に疑問を呈する。 トークン化の3つの段階(事前トークン化、語彙構成、セグメンテーション)にまたがる設計決定を評価し、効果的なトークン化器の設計に関する新たな洞察を提供する。 具体的には,事前学習の重要性と,語彙構築を初期化するBPEの利点について述べる。 トークン化の異なる64の言語モデルをトレーニングし、350mから2.4bのパラメータをパラメータとして公開しています。

Tokenization is a foundational step in Natural Language Processing (NLP) tasks, bridging raw text and language models. Existing tokenization approaches like Byte-Pair Encoding (BPE) originate from the field of data compression, and it has been suggested that the effectiveness of BPE stems from its ability to condense text into a relatively small number of tokens. We test the hypothesis that fewer tokens lead to better downstream performance by introducing PathPiece, a new tokenizer that segments a document's text into the minimum number of tokens for a given vocabulary. Through extensive experimentation we find this hypothesis not to be the case, casting doubt on the understanding of the reasons for effective tokenization. To examine which other factors play a role, we evaluate design decisions across all three phases of tokenization: pre-tokenization, vocabulary construction, and segmentation, offering new insights into the design of effective tokenizers. Specifically, we illustrate the importance of pre-tokenization and the benefits of using BPE to initialize vocabulary construction. We train 64 language models with varying tokenization, ranging in size from 350M to 2.4B parameters, all of which are made publicly available.
翻訳日:2024-02-29 14:47:00 公開日:2024-02-28
# ソフトウェアシステムの低モデリング

Low-Modeling of Software Systems ( http://arxiv.org/abs/2402.18375v1 )

ライセンス: Link先を確認
Jordi Cabot(参考訳) 新しいソフトウェアシステムの複雑さの増大に追従するため、より良い開発方法やツールの必要性が高まっています。 新しいタイプのユーザインターフェース、インテリジェントなコンポーネントの必要性、持続可能性に関する懸念... 対処しなければならない新たな課題をもたらします。 過去数年間、モデル駆動エンジニアリングはソフトウェア開発の品質と生産性を改善するための鍵だったが、モデル自体の特定と管理がますます複雑になっている。 本稿では,現行のモデル駆動工学技術を強化し,次世代のソフトウェアシステムに対応するためのソリューションとして,低モデリングの概念を提案する。

There is a growing need for better development methods and tools to keep up with the increasing complexity of new software systems. New types of user interfaces, the need for intelligent components, sustainability concerns, ... bring new challenges that we need to handle. In the last years, model-driven engineering has been key to improving the quality and productivity of software development, but models themselves are becoming increasingly complex to specify and manage. In this paper, we present the concept of low-modeling as a solution to enhance current model-driven engineering techniques and get them ready for this new generation of software systems.
翻訳日:2024-02-29 14:46:39 公開日:2024-02-28
# VerifiNER:大規模言語モデルを用いた知識基底推論による検証強化NER

VerifiNER: Verification-augmented NER via Knowledge-grounded Reasoning with Large Language Models ( http://arxiv.org/abs/2402.18374v1 )

ライセンス: Link先を確認
Seoyeon Kim, Kwangwook Seo, Hyungjoo Chae, Jinyoung Yeo, Dongha Lee(参考訳) 生物医学的NERのようなドメイン固有名称認識(NER)の最近のアプローチは、顕著な進歩を見せている。 しかし、彼らはまだ忠実さを欠いており、誤った予測を生み出している。 エンティティの知識は、予測の正確性を検証するのに役立つと仮定する。 知識が有用であるにも拘わらず、そのような誤りを知識で解決することは自明ではない。 そこで本研究では,既存のnerメソッドの誤りを知識を用いて識別し,より忠実な予測へと修正する,ポストホック検証フレームワーク verifiner を提案する。 本フレームワークは,大規模言語モデルの推論能力を活用し,検証過程における知識と文脈情報に適切に基づいている。 バイオメディカルデータセットの広範な実験によりVerifiNERの有効性を検証する。 この結果から,VerifiNERはモデルに依存しないアプローチとして既存のモデルからの誤りを検証できることが示唆された。 ドメイン外および低リソース設定に関するさらなる分析は、現実世界のアプリケーションにおけるVerifiNERの有用性を示している。

Recent approaches in domain-specific named entity recognition (NER), such as biomedical NER, have shown remarkable advances. However, they still lack of faithfulness, producing erroneous predictions. We assume that knowledge of entities can be useful in verifying the correctness of the predictions. Despite the usefulness of knowledge, resolving such errors with knowledge is nontrivial, since the knowledge itself does not directly indicate the ground-truth label. To this end, we propose VerifiNER, a post-hoc verification framework that identifies errors from existing NER methods using knowledge and revises them into more faithful predictions. Our framework leverages the reasoning abilities of large language models to adequately ground on knowledge and the contextual information in the verification process. We validate effectiveness of VerifiNER through extensive experiments on biomedical datasets. The results suggest that VerifiNER can successfully verify errors from existing models as a model-agnostic approach. Further analyses on out-of-domain and low-resource settings show the usefulness of VerifiNER on real-world applications.
翻訳日:2024-02-29 14:46:29 公開日:2024-02-28
# 注意誘導拡散異常検出モデルを用いた目的・解釈可能な乳房コスメシスの評価

Objective and Interpretable Breast Cosmesis Evaluation with Attention Guided Denoising Diffusion Anomaly Detection Model ( http://arxiv.org/abs/2402.18362v1 )

ライセンス: Link先を確認
Sangjoon Park, Yong Bae Kim, Jee Suk Chang, Seo Hee Choi, Hyungjin Chung, Ik Jae Lee, Hwa Kyung Byun(参考訳) 乳癌治療の分野での進歩が進み続けており、術後の化粧品評価は患者の生活の質に大きく影響するため、重要性が増している。 しかし,乳房コスメシスの評価は,専門的ラベル付けの本質的な主観性に起因する課題を呈している。 本研究では,従来の教師付き学習の限界と既存の異常検出モデルに対処し,手術後の乳房コスメシスを評価するための,注意誘導拡散異常検出法(AG-DDAD)を提案する。 本手法は,ラベルなし自己教師付き視覚トランスフォーマ(vit)と拡散モデルを組み合わせた蒸留の注意機構を活用し,高品質な画像再構成と識別領域の高精度変換を実現する。 非ラベルデータの拡散モデルを通常コメシスで主に訓練することにより,教師なしの異常検出視点を採用し,コメシスを自動的にスコアリングする。 本手法の有効性を実世界データ実験により実証し,視覚的に魅力的な表現と定量化可能なスコアをコメシス評価に提供した。 一般的なルールベースのプログラムと比較して、完全に自動化されたアプローチは手動アノテーションの必要性を排除し、客観的評価を提供する。 さらに,我々の異常検出モデルは,既存のモデルを上回る精度で最先端の性能を示す。 胸部コスメシスの範囲を超えて,本研究は医療領域内における非監督的異常検出の大幅な進歩を示し,今後の研究への道を開いた。

As advancements in the field of breast cancer treatment continue to progress, the assessment of post-surgical cosmetic outcomes has gained increasing significance due to its substantial impact on patients' quality of life. However, evaluating breast cosmesis presents challenges due to the inherently subjective nature of expert labeling. In this study, we present a novel automated approach, Attention-Guided Denoising Diffusion Anomaly Detection (AG-DDAD), designed to assess breast cosmesis following surgery, addressing the limitations of conventional supervised learning and existing anomaly detection models. Our approach leverages the attention mechanism of the distillation with no label (DINO) self-supervised Vision Transformer (ViT) in combination with a diffusion model to achieve high-quality image reconstruction and precise transformation of discriminative regions. By training the diffusion model on unlabeled data predominantly with normal cosmesis, we adopt an unsupervised anomaly detection perspective to automatically score the cosmesis. Real-world data experiments demonstrate the effectiveness of our method, providing visually appealing representations and quantifiable scores for cosmesis evaluation. Compared to commonly used rule-based programs, our fully automated approach eliminates the need for manual annotations and offers objective evaluation. Moreover, our anomaly detection model exhibits state-of-the-art performance, surpassing existing models in accuracy. Going beyond the scope of breast cosmesis, our research represents a significant advancement in unsupervised anomaly detection within the medical domain, thereby paving the way for future investigations.
翻訳日:2024-02-29 14:45:25 公開日:2024-02-28
# 類似性に基づく類比

Similarity-based analogical proportions ( http://arxiv.org/abs/2402.18360v1 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 著者は、最近、普遍代数の一般設定において、類比と類似性の抽象代数的枠組みを導入した。 本論文の目的は, 前者の観点から後者を定式化することによって, 類似性から類似性へ橋を架けることである。 この類似性に基づくアプローチの利点は、類似度と類似度の間の関係がフレームワークに組み込まれているため、類似度と類似度の両方がアナロジーの中心にあるため、どちらが魅力的であるかが明らかである。

The author has recently introduced abstract algebraic frameworks of analogical proportions and similarity within the general setting of universal algebra. The purpose of this paper is to build a bridge from similarity to analogical proportions by formulating the latter in terms of the former. The benefit of this similarity-based approach is that the connection between proportions and similarity is built into the framework and therefore evident which is appealing since proportions and similarity are both at the center of analogy; moreover, future results on similarity can directly be applied to analogical proportions.
翻訳日:2024-02-29 14:44:57 公開日:2024-02-28
# ポートベース状態調製とその応用

Port-Based State Preparation and Applications ( http://arxiv.org/abs/2402.18356v1 )

ライセンス: Link先を確認
Garazi Muguruza and Florian Speelman(参考訳) ポートベース状態準備(PBSP)は,アリスが目標状態の古典的記述を完全に保持し,ボブの修正操作はレジスタの追跡のみに限定されるテレポーテーションタスクである。 ポートベーステレポーテーションの関連するタスクに対する多項式トレードオフとは対照的に,ポート数で誤差が指数関数的に減少するpbspを実装したプロトコルを示し,最大に絡み合ったリソース状態を使用する場合に最適であることを示す。 本稿では,Universal Programmable Hybrid Processors (UPHP)を提案する。 ここでの目標はユニタリを量子状態としてエンコードすることであり、uphpは古典的記述を知る際にこのユニタリを量子状態に適用することができる。 我々は、同じ誤差を達成する最適近似ユニバーサルプログラマブル量子プロセッサよりも、次元的に厳密に少ないメモリを必要とする構成を与える。 さらに,uphpsのメモリとエラーの最適トレードオフに対する下限を提供する。

We introduce Port-Based State Preparation (PBSP), a teleportation task where Alice holds a complete classical description of the target state and Bob's correction operations are restricted to only tracing out registers. We show a protocol that implements PBSP with error decreasing exponentially in the number of ports, in contrast to the polynomial trade-off for the related task of Port-Based Teleportation, and we prove that this is optimal when a maximally entangled resource state is used. As an application, we introduce approximate Universal Programmable Hybrid Processors (UPHP). Here the goal is to encode a unitary as a quantum state, and the UPHP can apply this unitary to a quantum state when knowing its classical description. We give a construction that needs strictly less memory in terms of dimension than the optimal approximate Universal Programmable Quantum Processor achieving the same error. Additionally, we provide lower bounds for the optimal trade-off between memory and error of UPHPs.
翻訳日:2024-02-29 14:44:48 公開日:2024-02-28
# latentswap: 顔スワップのための効率的な潜在コードマッピングフレームワーク

LatentSwap: An Efficient Latent Code Mapping Framework for Face Swapping ( http://arxiv.org/abs/2402.18351v1 )

ライセンス: Link先を確認
Changho Choi, Minho Kim, Junhyeok Lee, Hyoung-Kyu Song, Younggeun Kim, Seungryong Kim(参考訳) 我々は、あるジェネレータのフェイススワップ潜在コードを生成するシンプルなフェイススワップフレームワーク latentswapを提案する。 ランダムにサンプリングされた潜在コードを利用することで、我々のフレームワークは軽量で、事前訓練されたモデル以外にデータセットを必要としない。 損失目的は3項のみで構成され、ソース画像とターゲット画像間の顔スワップ結果を効果的に制御できる。 モデルに依存しない事前学習されたGANインバージョンモデルとStyleGAN2ジェネレータを併用することにより、他の競合顔スワップモデルに匹敵するフォトリアリスティックで高解像度の画像を生成する。 このフレームワークは、StyleNeRFのような他のジェネレータに適用可能で、3D対応の顔スワップも可能で、他の下流のStyleGAN2ジェネレータタスクと互換性がある。 ソースコードとモデルは \url{https://github.com/usingcolor/LatentSwap} で見ることができる。

We propose LatentSwap, a simple face swapping framework generating a face swap latent code of a given generator. Utilizing randomly sampled latent codes, our framework is light and does not require datasets besides employing the pre-trained models, with the training procedure also being fast and straightforward. The loss objective consists of only three terms, and can effectively control the face swap results between source and target images. By attaching a pre-trained GAN inversion model independent to the model and using the StyleGAN2 generator, our model produces photorealistic and high-resolution images comparable to other competitive face swap models. We show that our framework is applicable to other generators such as StyleNeRF, paving a way to 3D-aware face swapping and is also compatible with other downstream StyleGAN2 generator tasks. The source code and models can be found at \url{https://github.com/usingcolor/LatentSwap}.
翻訳日:2024-02-29 14:44:34 公開日:2024-02-28
# 質問に集中しろ! コモンセンス推論における有害CoT問題の解釈と緩和

Focus on Your Question! Interpreting and Mitigating Toxic CoT Problems in Commonsense Reasoning ( http://arxiv.org/abs/2402.18344v1 )

ライセンス: Link先を確認
Jiachun Li, Pengfei Cao, Chenhao Wang, Zhuoran Jin, Yubo Chen, Daojian Zeng, Kang Liu, Jun Zhao(参考訳) 大規模言語モデルは、特にChain-of-Thought (CoT)のような拡張手法で、高度なコモンセンス推論能力を示す。 しかし、これらのCoTライクな手法は、Toxic CoT問題と定義する、元の正解が誤りを犯す原因となる。 この問題を解釈し緩和するために,まず帰属的追跡法と因果的追跡法を用いて,COT推論中のLLMの内部動作機構を探索する。 比較により,本モデルが有理性や回答を生成する際に,浅い注意層上の質問から情報損失を生じさせることを示す。 探索結果に基づいて、復号とシリアルポジションの両方の観点からモデルにおける情報不足を補うRIDERS(Residual decodIng and serial-position Swap)と呼ばれる新しい手法を設計する。 複数のコモンセンス推論ベンチマークに関する広範な実験を通じて、この手法がトキシックCoT問題を著しく排除するだけでなく(23.6%)、モデル全体のコモンセンス推論性能を効果的に改善する(5.5%)。

Large language models exhibit high-level commonsense reasoning abilities, especially with enhancement methods like Chain-of-Thought (CoT). However, we find these CoT-like methods lead to a considerable number of originally correct answers turning wrong, which we define as the Toxic CoT problem. To interpret and mitigate this problem, we first utilize attribution tracing and causal tracing methods to probe the internal working mechanism of the LLM during CoT reasoning. Through comparisons, we prove that the model exhibits information loss from the question over the shallow attention layers when generating rationales or answers. Based on the probing findings, we design a novel method called RIDERS (Residual decodIng and sERial-position Swap), which compensates for the information deficit in the model from both decoding and serial-position perspectives. Through extensive experiments on multiple commonsense reasoning benchmarks, we validate that this method not only significantly eliminates Toxic CoT problems (decreased by 23.6%), but also effectively improves the model's overall commonsense reasoning performance (increased by 5.5%).
翻訳日:2024-02-29 14:44:17 公開日:2024-02-28
# 強度相関を用いた連続体および非線形呼吸器における2体境界状態の探索

Probing Two-body Bound States in the Continuum and Nonlinear Breathers Using Intensity Correlations ( http://arxiv.org/abs/2402.18340v1 )

ライセンス: Link先を確認
Trideb Shit, Rishav Hui, Marco Di Liberto, Diptiman Sen, Sebabrata Mukherjee(参考訳) フェムト秒レーザー加工したフォトニックSu-Schrieffer-Heeger格子におけるHanbury Brown-Twiss空間強度相関について検討した。 まず、2つの区別不能なボソンの連続体(bics)におけるエッジ境界状態について、2体ボソン量子ウォークの強度相関をマッピングする。 これらの2体縁BICは、障害の存在において顕著な堅牢性を示す。 線形状態において観測される強度相関の局在は、格子の端に {\it long-lived breather} とソリトンを形成するために弱い非線形性で持続する。 強い非線形性のために、光はエッジサイトからバルクに非局在化され、強度相関の局在が破壊される傾向にある。 その結果,バンド構造,初期状態,非線形性の相互作用が輸送および強度相関に与える影響が示唆された。

We study Hanbury Brown-Twiss spatial intensity correlations in femtosecond laser-fabricated photonic Su-Schrieffer-Heeger lattices. We first probe edge bound states in the continuum (BICs) of two indistinguishable bosons by mapping the intensity correlations to the two-body bosonic quantum walk. These two-body edge BICs show remarkable robustness in the presence of disorder. The localization of intensity correlation, observed in the linear regime, persists at weak nonlinearity due to the formation of {\it long-lived breathers} and solitons on the edge of the lattice. For stronger nonlinearities, the light tends to be delocalized from the edge site into the bulk, destroying the localization of the intensity correlation. Our results show the interplay of band structure, initial state, and nonlinearity influencing transport and intensity correlations.
翻訳日:2024-02-29 14:43:56 公開日:2024-02-28
# 条件付き正規化流を用いた確率ベイズ最適設計

Probabilistic Bayesian optimal experimental design using conditional normalizing flows ( http://arxiv.org/abs/2402.18337v1 )

ライセンス: Link先を確認
Rafael Orozco, Felix J. Herrmann, Peng Chen(参考訳) ベイジアン最適実験設計(OED)は、ベイジアンフレームワークの実験データから、システムの事前知識を後方に更新するための予算制約の下で最も有益な実験を行うことを目指している。 このような問題は,(1) システムパラメータと設計変数が高次元である場合,(2) システムパラメータと設計変数の呪いの次元性に苦しむ,(2) 設計変数が二元的であれば,最適化は相補的かつ非凸的であり,しばしば非破壊設計につながるため,コストが高く繰り返し評価されるため,計算的に困難である。 ベイジアン OED 問題の解法を効率よく,スケーラブルで,実用的にも堅牢にするために,我々は新しい共同最適化手法を提案する。 本手法は,(1)スケーラブル条件正規化フロー(cnf)の同時学習を行い,共同学習実験設計の期待情報ゲイン(eig)を効率良く最大化すること,(2)ベルヌーイ分布を用いた2次実験設計の確率的定式化の最適化を行う。 我々は,高次元(320$\times$320)パラメータの高解像度化,高次元(640$\times$386)観測,および最も情報性の高い観測を行うための2値マスク設計など,最も困難なベイズOED問題の1つである,実用的なMRIデータ取得問題に対する提案手法の性能を実証する。

Bayesian optimal experimental design (OED) seeks to conduct the most informative experiment under budget constraints to update the prior knowledge of a system to its posterior from the experimental data in a Bayesian framework. Such problems are computationally challenging because of (1) expensive and repeated evaluation of some optimality criterion that typically involves a double integration with respect to both the system parameters and the experimental data, (2) suffering from the curse-of-dimensionality when the system parameters and design variables are high-dimensional, (3) the optimization is combinatorial and highly non-convex if the design variables are binary, often leading to non-robust designs. To make the solution of the Bayesian OED problem efficient, scalable, and robust for practical applications, we propose a novel joint optimization approach. This approach performs simultaneous (1) training of a scalable conditional normalizing flow (CNF) to efficiently maximize the expected information gain (EIG) of a jointly learned experimental design (2) optimization of a probabilistic formulation of the binary experimental design with a Bernoulli distribution. We demonstrate the performance of our proposed method for a practical MRI data acquisition problem, one of the most challenging Bayesian OED problems that has high-dimensional (320 $\times$ 320) parameters at high image resolution, high-dimensional (640 $\times$ 386) observations, and binary mask designs to select the most informative observations.
翻訳日:2024-02-29 14:43:42 公開日:2024-02-28
# ランダム・サブグラフ運転者ハミルトンによるQAOA

QAOA with random and subgraph driver Hamiltonians ( http://arxiv.org/abs/2402.18412v1 )

ライセンス: Link先を確認
Anthony Wilkie, Igor Gaidai, James Ostrowski, and Rebekah Herrman(参考訳) 量子近似最適化アルゴリズム (quantum approximation optimization algorithm,qaoa) は、組合せ最適化問題を解くために用いられる有望な量子アルゴリズムである。 通常のQAOAアンザッツは、コストとミキサーハミルトンの交互に応用される。 本研究では、通常コストのかかるハミルトン式以外のハミルトン式の使用がQAOAの性能にどのように影響するかを検討する。 p = 1 のカスタムドライバハミルトニアンを持つqaoaの期待値公式を導出し、これらのカスタムドライバのいくつかが元のアルゴリズム実装よりも高い近似率を達成できることを数値的に示す。 テストされたすべてのグラフのうち、ランダムカスタムドライバの0.036%、サブグラフカスタムドライバの75.9%、三角形削除カスタムドライバの95.1%、極度エッジ削除カスタムドライバの93.9%は、オリジナルのqaoa実装よりも近似率が高い。 この発見は、より良いドライバーであるハミルトンがQAOAの性能をさらに向上するために設計できるかどうかという疑問を提起する。

The quantum approximate optimization algorithm (QAOA) is a promising quantum algorithm that can be used to approximately solve combinatorial optimization problems. The usual QAOA ansatz consists of an alternating application of the cost and mixer Hamiltonians. In this work, we study how using Hamiltonians other than the usual cost Hamiltonian, dubbed custom driver Hamiltonians, can affect the performance of QAOA. We derive an expected value formula for QAOA with custom driver Hamiltonians at p = 1 and show numerically that some of these custom drivers can achieve higher approximation ratio than the original algorithm implementation. Out of all the graphs tested, 0.036% of the random custom drivers, 75.9% of the subgraph custom drivers, 95.1% of the triangle-removed custom drivers, and 93.9% of the maximal degree edge-removed custom drivers have a higher approximation ratio than the original QAOA implementation. This finding opens up the question of whether better driver Hamiltonians can be designed to further improve the performance of QAOA.
翻訳日:2024-02-29 14:40:41 公開日:2024-02-28
# 原型最適輸送による教師なしクロスドメイン画像検索

Unsupervised Cross-Domain Image Retrieval via Prototypical Optimal Transport ( http://arxiv.org/abs/2402.18411v1 )

ライセンス: Link先を確認
Bin Li, Ye Shi, Qian Yu, Jingya Wang(参考訳) unsupervised cross-domain image retrieval(ucir)は、ラベル付きデータに頼ることなく、さまざまなドメインで同じカテゴリを共有するイメージを検索することを目的としている。 従来のアプローチでは、UCIRの問題をドメイン内表現学習とドメイン間特徴アライメントという2つの異なるタスクに分解していた。 しかし、これらの分離戦略はこれらのタスク間の潜在的なシナジーを見落としている。 本稿では、ドメイン内特徴表現学習とクロスドメインアライメントを統合フレームワークに統合した、UCIR用に明示的に調整された新しい最適輸送形式であるProtoOTを紹介する。 ProtoOTはK平均クラスタリング法の強度を活用し、UCIR固有の分布不均衡を効果的に管理する。 初期プロトタイプの生成とクラス境界分布の近似にK-meansを用いることで、最適輸送における制約を修正し、UCIRシナリオにおけるその性能を大幅に向上させる。 さらに,比較学習をprotootフレームワークに組み込むことにより,表現学習をさらに改善する。 これにより、類似したセマンティクスを持つ機能間の局所的なセマンティクス一貫性が促進されると同時に、機能と非マッチングプロトタイプの分離が明示的に実施され、グローバルな判別性が向上する。 ProtoOTは、既存の最先端メソッドを、ベンチマークデータセット間で顕著なマージンで上回る。 特にdomainnetでは、protootは平均24.44%のp@200向上を達成し、office-homeではp@15の改善は12.12%である。 コードはhttps://github.com/HCVLAB/ProtoOTで入手できる。

Unsupervised cross-domain image retrieval (UCIR) aims to retrieve images sharing the same category across diverse domains without relying on labeled data. Prior approaches have typically decomposed the UCIR problem into two distinct tasks: intra-domain representation learning and cross-domain feature alignment. However, these segregated strategies overlook the potential synergies between these tasks. This paper introduces ProtoOT, a novel Optimal Transport formulation explicitly tailored for UCIR, which integrates intra-domain feature representation learning and cross-domain alignment into a unified framework. ProtoOT leverages the strengths of the K-means clustering method to effectively manage distribution imbalances inherent in UCIR. By utilizing K-means for generating initial prototypes and approximating class marginal distributions, we modify the constraints in Optimal Transport accordingly, significantly enhancing its performance in UCIR scenarios. Furthermore, we incorporate contrastive learning into the ProtoOT framework to further improve representation learning. This encourages local semantic consistency among features with similar semantics, while also explicitly enforcing separation between features and unmatched prototypes, thereby enhancing global discriminativeness. ProtoOT surpasses existing state-of-the-art methods by a notable margin across benchmark datasets. Notably, on DomainNet, ProtoOT achieves an average P@200 enhancement of 24.44%, and on Office-Home, it demonstrates a P@15 improvement of 12.12%. Code is available at https://github.com/HCVLAB/ProtoOT.
翻訳日:2024-02-29 14:40:20 公開日:2024-02-28
# 大規模視覚言語モデルのための画像推論と記述の認知的評価ベンチマーク

A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision Language Models ( http://arxiv.org/abs/2402.18409v1 )

ライセンス: Link先を確認
Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen(参考訳) 近年の成功にもかかわらず、LVLM(Large Vision Language Models)は認知能力について包括的にテストされることはほとんどない。 人間の認知テストにおける「Cookie Theft」タスクの利用に着想を得て,リッチなセマンティクスを持つ画像を用いてLVLMの高レベル認知能力を評価するための評価ベンチマークを提案する。 8つの推論能力を定義し、画像記述タスクと視覚的質問応答タスクで構成される。 LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。

Large Vision Language Models (LVLMs), despite their recent success, are hardly comprehensively tested for their cognitive abilities. Inspired by the prevalent use of the "Cookie Theft" task in human cognition test, we propose a novel evaluation benchmark to evaluate high-level cognitive ability of LVLMs using images with rich semantics. It defines eight reasoning capabilities and consists of an image description task and a visual question answering task. Our evaluation on well-known LVLMs shows that there is still a large gap in cognitive ability between LVLMs and humans.
翻訳日:2024-02-29 14:39:54 公開日:2024-02-28
# 単結晶における2つの逆相整合過程による偏光絡み

Polarization entanglement by two simultaneous backward phase-matching processes in a single crystal ( http://arxiv.org/abs/2402.18404v1 )

ライセンス: Link先を確認
Ming-Yuan Gao, Yin-Hai Li, Zhao-Qi-Zhi Han, Qiang Zhou, Guang-Can Guo, Zhi-Yuan Zhou and Bao-Sen Shi(参考訳) 絡み合いは量子技術における多くの有望な応用を可能にする。 新しい世代の方法の考案と絡み合いの活用は、実用上の前提条件である。 ここでは, 単一バルク結晶における自然パラメトリックダウンコンバージョンにより, Type-0 と type-I の後方準位相マッチング (BQPM) を同時に達成することにより, 異なる偏光束源を実現する。 単一偏光ビームで結晶を励起すると、非極性偏光エンタングル状態が生成され、ブリュースター窓1対でさらに極性ベル状態に投影される。 ホン・ウー・マンデル干渉実験は、初めて0型およびI型BQPMプロセスの偏光分解光子対に対して行われる。 両方のプロセスで出力される光子は15.7GHzの帯域幅を持つ。 このソースの高品質は様々な方法によって特徴づけられる。 比較的単純な構成、狭い帯域幅、高い絡み合い品質により、ソースは多くの量子情報タスクに非常に有望である。

Entanglement enables many promising applications in quantum technology. Devising new generation methods and harnessing entanglement are prerequisites for practical applications. Here we realize a distinct polarization-entangled source by simultaneously achieving type-0 and type-I backward quasi-phase matching (BQPM) through spontaneous parametric down-conversion in a single bulk crystal, which is different from all previous entangled-source configurations. Pumping the crystal with a single polarized beam generates a non-maximally polarization-entangled state, which can be further projected to a maximal Bell state with a pair of Brewster windows. Hong-Ou-Mandel interference experiments are done on polarization-degenerate photon pairs for both type-0 and type-I BQPM processes for the first time. The emitted photons in both processes have a bandwidth as narrow as 15.7 GHz. The high quality of this source is characterized by various methods. The rather simple configuration, narrow bandwidth, and high entanglement quality make the source very promising for many quantum information tasks.
翻訳日:2024-02-29 14:39:42 公開日:2024-02-28
# 深度パラメトリック推定によるマルチメディア理解ネットワークのロバスト性向上のためのモジュールシステム

A Modular System for Enhanced Robustness of Multimedia Understanding Networks via Deep Parametric Estimation ( http://arxiv.org/abs/2402.18402v1 )

ライセンス: Link先を確認
Francesco Barbato, Umberto Michieli, Mehmet Karim Yucel, Pietro Zanuttigh, Mete Ozay(参考訳) マルチメディア理解タスクでは、破損したサンプルは、機械学習モデルにフィードされるとパフォーマンスが低下するので、重要な課題となる。 過去、ノイズデータを扱うための3つのアプローチが提案されてきた。 一 ノイズデータの品質を向上させるためのエンハンサー及びデノイザーモジュール 二 データ強化のアプローチ及び iii) ドメイン適応戦略。 ひとつは高い計算コストを持ち、トレーニングのためにクリーンに破損したデータのペアを必要とし、もうひとつはトレーニングされた同じタスク/ネットワーク(上流と下流のタスク/ネットワークが同じである場合)のデプロイのみを可能にします。 本稿では,これらの問題点を解決するためにSyMPIEを提案する。 この目的のために、我々は、低計算コストで下流マルチメディア理解のための入力データを強化するために、小さくてモジュール的で効率的な(2GFLOPsでフルHD画像を処理する)システムを設計する。 私たちのシンピーは上流のタスク/ネットワークで事前トレーニングされています。 我々の重要な洞察は、現実世界のタスクで見られるほとんどの入力汚職は、画像の色チャネルや小さなカーネルを持つ空間フィルタのグローバルな操作によってモデル化できるということです。 画像分類(imagenetc、imagenetc-bar、vizwiz、新しく提案されたimagenetc-mixedと呼ばれる混合腐敗ベンチマーク)やセマンティックセグメンテーション(cityscapes、adcc、darkzurich)など、複数のデータセットやタスクに対するアプローチを検証することで、ボード全体の相対精度が約52%向上しました。 このアプローチのコードと新しいImageNetC-mixedベンチマークは、公開時に公開されます。

In multimedia understanding tasks, corrupted samples pose a critical challenge, because when fed to machine learning models they lead to performance degradation. In the past, three groups of approaches have been proposed to handle noisy data: i) enhancer and denoiser modules to improve the quality of the noisy data, ii) data augmentation approaches, and iii) domain adaptation strategies. All the aforementioned approaches come with drawbacks that limit their applicability; the first has high computational costs and requires pairs of clean-corrupted data for training, while the others only allow deployment of the same task/network they were trained on (\ie, when upstream and downstream task/network are the same). In this paper, we propose SyMPIE to solve these shortcomings. To this end, we design a small, modular, and efficient (just 2GFLOPs to process a Full HD image) system to enhance input data for robust downstream multimedia understanding with minimal computational cost. Our SyMPIE is pre-trained on an upstream task/network that should not match the downstream ones and does not need paired clean-corrupted samples. Our key insight is that most input corruptions found in real-world tasks can be modeled through global operations on color channels of images or spatial filters with small kernels. We validate our approach on multiple datasets and tasks, such as image classification (on ImageNetC, ImageNetC-Bar, VizWiz, and a newly proposed mixed corruption benchmark named ImageNetC-mixed) and semantic segmentation (on Cityscapes, ACDC, and DarkZurich) with consistent improvements of about 5\% relative accuracy gain across the board. The code of our approach and the new ImageNetC-mixed benchmark will be made available upon publication.
翻訳日:2024-02-29 14:39:24 公開日:2024-02-28
# DevPhish: ソフトウェアサプライチェーン攻撃におけるソーシャルエンジニアリングの探求

DevPhish: Exploring Social Engineering in Software Supply Chain Attacks on Developers ( http://arxiv.org/abs/2402.18401v1 )

ライセンス: Link先を確認
Hossein Siadati, Sima Jafarikhah, Elif Sahin, Terrence Brent Hernandez, Elijah Lorenzo Tripp, Denis Khryashchev(参考訳) ソフトウェアサプライチェーン(SSC)は、システムに侵入し組織を弱体化させようとする攻撃者からかなりの注目を集めている。 ソフトウェア開発者に特化したソーシャルエンジニアリング(SocE)技術を利用している証拠がある。 つまり、githubリポジトリへのアクセス、コードの依存性の導入、悪意のあるコードを導入するためのプルリクエスト(pr)の承認の取得など、ソフトウェア開発ライフサイクル(sdlc)における重要なステップで開発者と対話する。 本稿では、ソフトウェア技術者(SWE)を騙して悪意あるソフトウェアを届けるために、敵が採用している既存のSocE戦術を包括的に探求することを目的とする。 確立した学術文献や実世界の出来事を含む多種多様な資源を分析し,SSCの領域におけるこれらの操作戦略の概要を体系的に提示する。 このような洞察は、脅威モデリングとセキュリティギャップ分析に非常に有益である。

The Software Supply Chain (SSC) has captured considerable attention from attackers seeking to infiltrate systems and undermine organizations. There is evidence indicating that adversaries utilize Social Engineering (SocE) techniques specifically aimed at software developers. That is, they interact with developers at critical steps in the Software Development Life Cycle (SDLC), such as accessing Github repositories, incorporating code dependencies, and obtaining approval for Pull Requests (PR) to introduce malicious code. This paper aims to comprehensively explore the existing and emerging SocE tactics employed by adversaries to trick Software Engineers (SWEs) into delivering malicious software. By analyzing a diverse range of resources, which encompass established academic literature and real-world incidents, the paper systematically presents an overview of these manipulative strategies within the realm of the SSC. Such insights prove highly beneficial for threat modeling and security gap analysis.
翻訳日:2024-02-29 14:38:52 公開日:2024-02-28
# スケーラブル量子回路による時間進化偏微分方程式のハミルトンシミュレーション

Hamiltonian simulation for time-evolving partial differential equation by scalable quantum circuits ( http://arxiv.org/abs/2402.18398v1 )

ライセンス: Link先を確認
Yuki Sato, Ruho Kondo, Ikko Hamamura, Tamiya Onodera, Naoki Yamamoto(参考訳) 計算時間内で超大規模システムに対する偏微分方程式を解くことは、工学開発を加速させるのに役立つ。 量子コンピューティングアルゴリズム、特にハミルトニアンシミュレーションは、この目的を達成するための潜在的かつ有望なアプローチである。 実際、潜在的な量子スピードアップを伴うハミルトンシミュレーションのいくつかの提案があるが、その詳細な実装とそれによる詳細な計算複雑性は、すべて不明確である。 本稿では,ハミルトニアンシミュレーションのための量子回路を明示的に実装する手法を提案する。鍵となる手法は,対象偏微分方程式に含まれる微分作用素の明示ゲート構成である。 さらに,構成回路の空間と時間の複雑さは,従来のアルゴリズムよりも指数関数的に小さいことを示す。 また,提案手法の有効性を示すために,波動方程式の実装置に関する数値実験と実験を行った。

Solving partial differential equations for extremely large-scale systems within a feasible computation time serves in accelerating engineering developments. Quantum computing algorithm, particularly the Hamiltonian simulation, is a potential and promising approach to achieve this purpose. Actually there are several proposals of Hamiltonian simulation with potential quantum speedup, but their detailed implementation and accordingly the detailed computational complexity are all somewhat unclear. This paper presents a method that enables us to explicitly implement the quantum circuit for Hamiltonian simulation; the key technique is the explicit gate construction of differential operators contained in the target partial differential equation. Moreover, we show that the space and time complexity of the constructed circuit is exponentially smaller than that of all classical algorithms. We also provide numerical experiments and an experiment on a real device for the wave equation to demonstrate the validity of our proposed method.
翻訳日:2024-02-29 14:38:36 公開日:2024-02-28
# 分解プロンプティング:英語中心の大規模言語モデルにおける多言語言語構造知識の展開

Decomposed Prompting: Unveiling Multilingual Linguistic Structure Knowledge in English-Centric Large Language Models ( http://arxiv.org/abs/2402.18397v1 )

ライセンス: Link先を確認
Ercong Nie, Shuzhou Yuan, Bolei Ma, Helmut Schmid, Michael F\"arber, Frauke Kreuter, Hinrich Sch\"utze(参考訳) GPT-3やLLaMAのような英語中心のLarge Language Model(LLM)は、トレーニングデータにおける英語の優位性にもかかわらず、多言語タスクを実行する素晴らしい能力を示し、言語横断能力の深さと性質について疑問を投げかける。 本稿では,シーケンスラベリングタスクにおけるLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。 単一のテキストからテキストへのプロンプトから切り離して、入力文の各トークンに対して、その言語ラベルを求める個々のプロンプトを生成する。 本手法は,38言語を対象に,英語と多言語LLMの両方を用いて,Universal Dependencies Part-of-Speech Taggingデータセットの評価を行う。 以上の結果から,ゼロショットおよび少数ショット設定下では,分解プロンプトが反復プロンプトベースラインよりも有効性と効率が優れていることが示された。 さらに分析した結果,評価方法の影響とインプロンプトの活用が明らかになった。 我々の多言語調査は、英語中心の言語モデルは、多言語モデルよりも平均的に優れていることを示している。 本研究は,多言語言語知識の理解に寄与する英語中心のLLMの多言語翻訳可能性に関する知見を提供する。

Despite the predominance of English in their training data, English-centric Large Language Models (LLMs) like GPT-3 and LLaMA display a remarkable ability to perform multilingual tasks, raising questions about the depth and nature of their cross-lingual capabilities. This paper introduces the decomposed prompting approach to probe the linguistic structure understanding of these LLMs in sequence labeling tasks. Diverging from the single text-to-text prompt, our method generates for each token of the input sentence an individual prompt which asks for its linguistic label. We assess our method on the Universal Dependencies part-of-speech tagging dataset for 38 languages, utilizing both English-centric and multilingual LLMs. Our findings show that decomposed prompting surpasses the iterative prompting baseline in efficacy and efficiency under zero- and few-shot settings. Further analysis reveals the influence of evaluation methods and the use of instructions in prompts. Our multilingual investigation shows that English-centric language models perform better on average than multilingual models. Our study offers insights into the multilingual transferability of English-centric LLMs, contributing to the understanding of their multilingual linguistic knowledge.
翻訳日:2024-02-29 14:38:11 公開日:2024-02-28
# 新たなポケットへの深い信頼 - 一般化のドッキング戦略

Deep Confident Steps to New Pockets: Strategies for Docking Generalization ( http://arxiv.org/abs/2402.18396v1 )

ライセンス: Link先を確認
Gabriele Corso, Arthur Deng, Benjamin Fry, Nicholas Polizzi, Regina Barzilay, Tommi Jaakkola(参考訳) 正確な盲目のドッキングは、新しい生物学的ブレークスルーにつながる可能性があるが、この約束を実現するためには、ドッキングの方法がプロテオームを越えてうまく一般化する必要がある。 しかし、既存のベンチマークは、厳密に一般化性を評価することができない。 そこで我々は,タンパク質のリガンド結合ドメインに基づく新しいベンチマークであるDockGenを開発した。 我々はMLベースのドッキングのスケーリング法則を慎重に分析し、データとモデルサイズをスケーリングし、合成データ戦略を統合することにより、一般化能力を大幅に向上し、ベンチマーク全体で新しい最先端のパフォーマンスを設定できることを示す。 さらに,拡散モデルと信頼モデルの相互作用のみに依存する新しい学習パラダイムである信頼度ブートストラップを提案し,拡散モデルのマルチレゾリューション生成プロセスを活用する。 信頼性ブートストラッピングは、MLベースのドッキング手法が未確認のタンパク質クラスにドッキングし、正確で一般化可能なブラインドドッキング手法に近づく能力を大幅に改善することを示した。

Accurate blind docking has the potential to lead to new biological breakthroughs, but for this promise to be realized, docking methods must generalize well across the proteome. Existing benchmarks, however, fail to rigorously assess generalizability. Therefore, we develop DockGen, a new benchmark based on the ligand-binding domains of proteins, and we show that existing machine learning-based docking models have very weak generalization abilities. We carefully analyze the scaling laws of ML-based docking and show that, by scaling data and model size, as well as integrating synthetic data strategies, we are able to significantly increase the generalization capacity and set new state-of-the-art performance across benchmarks. Further, we propose Confidence Bootstrapping, a new training paradigm that solely relies on the interaction between diffusion and confidence models and exploits the multi-resolution generation process of diffusion models. We demonstrate that Confidence Bootstrapping significantly improves the ability of ML-based docking methods to dock to unseen protein classes, edging closer to accurate and generalizable blind docking methods.
翻訳日:2024-02-29 14:37:31 公開日:2024-02-28
# 変成試験による自律運転の意思決定最適性の評価

Evaluating Decision Optimality of Autonomous Driving via Metamorphic Testing ( http://arxiv.org/abs/2402.18393v1 )

ライセンス: Link先を確認
Mingfei Cheng, Yuan Zhou, Xiaofei Xie, Junjie Wang, Guozhu Meng, Kairui Yang(参考訳) 自動運転システム(ads)テストは、広告開発において不可欠であり、現在の主な焦点は安全性である。 しかしながら、安全でない性能の評価、特にADSが最適な判断を下し、自動運転車(AV)の最適経路を創出する能力は、AIVのインテリジェンスを確保し、リスクを減らすために等しく不可欠である。 現在、対応するオラクルの欠如や、最適でない決定を伴うシナリオを生成するのに困難があるため、ADSの最適意思決定性能を評価する作業はほとんど行われていない。 本稿では,ADSの意思決定品質を評価することに集中し,ADSがAVの最適経路を計算しない非最適決定シナリオ(NoDS)を検出するための最初の方法を提案する。 まず, オラクル問題に対処するために, 最適決定の違反を明らかにすることを目的とした新しいメタモルフィック関係(MR)を提案する。 MRは、非侵襲的な変化によって最適な経路が影響を受けない場合、ADSが最適決定を維持すべきであるという特性を特定する。 その後,nodsを効率的に生成するための新しいフレームワークdecictorを開発した。 decictorは、非侵襲突然変異、mrチェック、フィードバックの3つの主成分からなる。 非侵襲的変異は、変異したシナリオにおける元の最適経路が影響を受けないことを保証するが、mrチェックは非最適決定が行われるかどうかを決定する責任がある。 nodssを識別する効果を高めるために,av動作の空間的側面と時間的側面の両方を組み合わせたフィードバックメトリックを設計する。 我々は、オープンソースおよびプロダクショングレードのADSであるBaidu Apollo上でDecictorを評価する。 その結果, ADSの非最適判定におけるDecictorの有効性が検証された。 我々の研究は、ADSの非安全クリティカルな性能を評価する上で、価値ある独自の洞察を提供する。

Autonomous Driving System (ADS) testing is crucial in ADS development, with the current primary focus being on safety. However, the evaluation of non-safety-critical performance, particularly the ADS's ability to make optimal decisions and produce optimal paths for autonomous vehicles (AVs), is equally vital to ensure the intelligence and reduce risks of AVs. Currently, there is little work dedicated to assessing ADSs' optimal decision-making performance due to the lack of corresponding oracles and the difficulty in generating scenarios with non-optimal decisions. In this paper, we focus on evaluating the decision-making quality of an ADS and propose the first method for detecting non-optimal decision scenarios (NoDSs), where the ADS does not compute optimal paths for AVs. Firstly, to deal with the oracle problem, we propose a novel metamorphic relation (MR) aimed at exposing violations of optimal decisions. The MR identifies the property that the ADS should retain optimal decisions when the optimal path remains unaffected by non-invasive changes. Subsequently, we develop a new framework, Decictor, designed to generate NoDSs efficiently. Decictor comprises three main components: Non-invasive Mutation, MR Check, and Feedback. The Non-invasive Mutation ensures that the original optimal path in the mutated scenarios is not affected, while the MR Check is responsible for determining whether non-optimal decisions are made. To enhance the effectiveness of identifying NoDSs, we design a feedback metric that combines both spatial and temporal aspects of the AV's movement. We evaluate Decictor on Baidu Apollo, an open-source and production-grade ADS. The experimental results validate the effectiveness of Decictor in detecting non-optimal decisions of ADSs. Our work provides valuable and original insights into evaluating the non-safety-critical performance of ADSs.
翻訳日:2024-02-29 14:37:00 公開日:2024-02-28
# 因果推論モデル評価におけるロバスト性の可能性の解明

Unveiling the Potential of Robustness in Evaluating Causal Inference Models ( http://arxiv.org/abs/2402.18392v1 )

ライセンス: Link先を確認
Yiyan Huang, Cheuk Hang Leung, Siyi Wang, Yijun Li, Qi Wu(参考訳) パーソナライズされた意思決定に対する需要が高まり、条件付き平均処理効果(CATE)の推定への関心が高まっている。 機械学習と因果推論の交差は、様々な効果的なCATE推定器を生み出している。 しかし、これらの推定器を実際に配置することは、反ファクトラベルの欠如によってしばしば妨げられるため、クロスバリデーションのような従来のモデル選択手法を用いて望ましいCATE推定器を選択することは困難である。 プラグインや擬似アウトカムメトリクスといった既存のCATE推定器の選択手法は、2つの固有の課題に直面している。 まず、ニュアンスパラメータやプラグイン学習者の適合のために、メトリックフォームと基礎となる機械学習モデルを決定する必要がある。 第2に、堅牢な推定器の選択に特に重点を置いていない。 これらの課題に対処するために、CATE推定器選択のための新しいアプローチであるdistributally Robust Metric(DRM)を提案する。 提案されたDRMは、追加モデルに適合する必要をなくすだけでなく、堅牢なCATE推定器の選択にも優れている。 実験によりDRM法の有効性が実証され, 優れた推定器を同定し, 劣るものを選択するリスクを軽減した。

The growing demand for personalized decision-making has led to a surge of interest in estimating the Conditional Average Treatment Effect (CATE). The intersection of machine learning and causal inference has yielded various effective CATE estimators. However, deploying these estimators in practice is often hindered by the absence of counterfactual labels, making it challenging to select the desirable CATE estimator using conventional model selection procedures like cross-validation. Existing approaches for CATE estimator selection, such as plug-in and pseudo-outcome metrics, face two inherent challenges. Firstly, they are required to determine the metric form and the underlying machine learning models for fitting nuisance parameters or plug-in learners. Secondly, they lack a specific focus on selecting a robust estimator. To address these challenges, this paper introduces a novel approach, the Distributionally Robust Metric (DRM), for CATE estimator selection. The proposed DRM not only eliminates the need to fit additional models but also excels at selecting a robust CATE estimator. Experimental studies demonstrate the efficacy of the DRM method, showcasing its consistent effectiveness in identifying superior estimators while mitigating the risk of selecting inferior ones.
翻訳日:2024-02-29 14:36:07 公開日:2024-02-28
# オンラインモニタリング技術レポートのための音響コンカレントトレース

Sound Concurrent Traces for Online Monitoring Technical Report ( http://arxiv.org/abs/2402.18391v1 )

ライセンス: Link先を確認
Chukri Soueidi and Ylies Falcone(参考訳) 並行プログラムの監視は通常、抽象プログラムの実行のためのトレースの収集に依存している。 しかしながら、一般的な行動特性をターゲットとする既存のアプローチは、オンライン監視用に調整されていないか、もはやメンテナンスされていないか、しばしば不健全な評決につながるような単純なインスツルメンテーションを実装している。 まず、トレースが並列実行を表すときの概念を定義します。 次にノンブロッキングベクトルクロックアルゴリズムを提案し,イベント間の部分次数を反映した音の同時トレースを収集する。 さらに、代表トレースにおける同時イベントは、全順序形式から合成されたモニタの音質問題を引き起こす。 このため、モニタから因果関係を抽出して、トレースに必要な順序があるかどうかを確認し、収集されたトレースを監視可能な場合に実行時に決定する条件を定義する。 我々は、Javaバイトコードにコンパイルされたプログラムを計測し、音代表トレースを構築し、モニターに監視不能トレースについて警告するツール、FACTSにコントリビューションを実装した。 作業を評価し、既存のアプローチと比較します。

Monitoring concurrent programs typically rely on collecting traces to abstract program executions. However, existing approaches targeting general behavioral properties are either not tailored for online monitoring, are no longer maintained, or implement naive instrumentation that often leads to unsound verdicts. We first define the notion of when a trace is representative of a concurrent execution. We then present a non-blocking vector clock algorithm to collect sound concurrent traces on the fly reflecting the partial order between events. Moreover, concurrent events in the representative trace pose a soundness problem for monitors synthesized from total order formalisms. For this, we extract a causal dependence relation from the monitor to check if the trace has the needed orderings and define the conditions to decide at runtime when a collected trace is monitorable. We implement our contributions in a tool, FACTS, which instruments programs compiling to Java bytecode, constructs sound representative traces, and warns the monitor about non-monitorable traces. We evaluate our work and compare it with existing approaches.
翻訳日:2024-02-29 14:35:23 公開日:2024-02-28
# マイクログリッドにおけるニューロモルフィックイベント駆動セマンティックコミュニケーション

Neuromorphic Event-Driven Semantic Communication in Microgrids ( http://arxiv.org/abs/2402.18390v1 )

ライセンス: Link先を確認
Xiaoguang Diao, Yubo Song, Subham Sahoo, Yuan Li(参考訳) 高度なコミュニケーション、コンピューティング、人工知能のシナジーは、マイクログリッドにおける協調操作とレジリエンスの新しい方向性を解き放ちます。 一方、ソース間の調整は、複数の場所でのプライバシーを意識した分散処理によって容易であり、一方、通信層における他の信頼性の問題の中でサイバーフィジカルアタックにつながる敵のための外因性データ到着パスも作成する。 この長年の問題は、システムの制御性能を最適化するために、電力線を介してコンバータ間で情報を交換する新しい本質的な方法を必要とする。 本稿では、効率とスケーラビリティの懸念によって制限された既存の電力・データの共有技術を超えて、各ノードにスパイキングニューラルネットワーク(snn)を使用して通信機能を埋め込む神経形態学習を提案する。 スパイキング信号を扱う従来のニューロモルフィックセンサとは対照的に,snsの訓練のためにスパースデータを集めるためにイベント駆動選択的プロセスを用いる。 最後に、マイクログリッドトポロジとコンポーネントの異なるシミュレーション条件下で、そのマルチフォールドの有効性と信頼性を検証し、パワー電子支配グリッドとマイクログリッドの新しい方向を定めている。

Synergies between advanced communications, computing and artificial intelligence are unraveling new directions of coordinated operation and resiliency in microgrids. On one hand, coordination among sources is facilitated by distributed, privacy-minded processing at multiple locations, whereas on the other hand, it also creates exogenous data arrival paths for adversaries that can lead to cyber-physical attacks amongst other reliability issues in the communication layer. This long-standing problem necessitates new intrinsic ways of exchanging information between converters through power lines to optimize the system's control performance. Going beyond the existing power and data co-transfer technologies that are limited by efficiency and scalability concerns, this paper proposes neuromorphic learning to implant communicative features using spiking neural networks (SNNs) at each node, which is trained collaboratively in an online manner simply using the power exchanges between the nodes. As opposed to the conventional neuromorphic sensors that operate with spiking signals, we employ an event-driven selective process to collect sparse data for training of SNNs. Finally, its multi-fold effectiveness and reliable performance is validated under simulation conditions with different microgrid topologies and components to establish a new direction in the sense-actuate-compute cycle for power electronic dominated grids and microgrids.
翻訳日:2024-02-29 14:35:04 公開日:2024-02-28
# WSDM Cup 2024: 対話型マルチドキュメントQAのための大規模言語モデルの活用

The First Place Solution of WSDM Cup 2024: Leveraging Large Language Models for Conversational Multi-Doc QA ( http://arxiv.org/abs/2402.18385v1 )

ライセンス: Link先を確認
Yiming Li and Zhao Zhang(参考訳) 対話型マルチドック質問応答は、検索した文書と文脈会話に基づいて、特定の質問に答えることを目的としている。 本稿では,Large Language Models (LLMs) の優れた自然言語理解と生成能力を活用する WSDM Cup 2024 における "Conversational Multi-Doc QA" チャレンジに対する勝利のアプローチを紹介する。 まず LLM をタスクに適用し、次に、ドメイン内のラベルなしデータを最大限活用するためのハイブリッドトレーニング戦略を考案する。 さらに、潜在的に無関係な文書をフィルタリングするために高度なテキスト埋め込みモデルを採用し、モデルアンサンブルに対していくつかのアプローチを設計・比較する。 これらのテクニックをすべて取り入れた私たちのソリューションは、最終的にWSDMカップ2024で1位となり、ライバルをはるかに上回った。 ソースコードはhttps://github.com/zhangzhao219/WSDM-Cup-2024で公開された。

Conversational multi-doc question answering aims to answer specific questions based on the retrieved documents as well as the contextual conversations. In this paper, we introduce our winning approach for the "Conversational Multi-Doc QA" challenge in WSDM Cup 2024, which exploits the superior natural language understanding and generation capability of Large Language Models (LLMs). We first adapt LLMs to the task, then devise a hybrid training strategy to make the most of in-domain unlabeled data. Moreover, an advanced text embedding model is adopted to filter out potentially irrelevant documents and several approaches are designed and compared for the model ensemble. Equipped with all these techniques, our solution finally ranked 1st place in WSDM Cup 2024, surpassing its rivals to a large extent. The source codes have been released at https://github.com/zhangzhao219/WSDM-Cup-2024.
翻訳日:2024-02-29 14:34:44 公開日:2024-02-28
# 領域的注意によるct肺気腫のロバスト定量化--肺動脈硬化症(mesa)の検討

Robust Quantification of Percent Emphysema on CT via Domain Attention: the Multi-Ethnic Study of Atherosclerosis (MESA) Lung Study ( http://arxiv.org/abs/2402.18383v1 )

ライセンス: Link先を確認
Xuzhe Zhang, Elsa D. Angelini, Eric A. Hoffman, Karol E. Watson, Benjamin M. Smith, R. Graham Barr, Andrew F. Laine(参考訳) ctによる肺気腫のロバスト定量化は,スキャナの異なるタイプのスキャンや臨床検査への変換を含む大規模研究において課題となっている。 既存の研究では、密度補正、ノイズフィルタリング、回帰、隠れマルコフ測度場(HMMF)モデルベースセグメンテーション、体積調整肺密度など、この課題に取り組むためのいくつかの方向を探っている。 有望な結果があったにも拘わらず、以前の研究では退屈なワークフローが必要か、下流気腫のサブタイピングの機会が限られており、大規模な研究での効率的な適応が制限されていた。 このジレンマを軽減するため,既存のHMMFセグメンテーションフレームワークに基づくエンドツーエンドのディープラーニングフレームワークを開発した。 まず、通常のunetでは、スキャナの事前設定がないため、既存のhmmf結果を再現できないことを実証する。 次に、定量的スキャナーを優先して画像特徴を融合する新しいドメインアテンションブロックを設計し、その結果を著しく改善する。

Robust quantification of pulmonary emphysema on computed tomography (CT) remains challenging for large-scale research studies that involve scans from different scanner types and for translation to clinical scans. Existing studies have explored several directions to tackle this challenge, including density correction, noise filtering, regression, hidden Markov measure field (HMMF) model-based segmentation, and volume-adjusted lung density. Despite some promising results, previous studies either required a tedious workflow or limited opportunities for downstream emphysema subtyping, limiting efficient adaptation on a large-scale study. To alleviate this dilemma, we developed an end-to-end deep learning framework based on an existing HMMF segmentation framework. We first demonstrate that a regular UNet cannot replicate the existing HMMF results because of the lack of scanner priors. We then design a novel domain attention block to fuse image feature with quantitative scanner priors which significantly improves the results.
翻訳日:2024-02-29 14:34:26 公開日:2024-02-28
# nlpにおける継続学習のための次のタスクとドメインにホップする

HOP to the Next Tasks and Domains for Continual Learning in NLP ( http://arxiv.org/abs/2402.18449v1 )

ライセンス: Link先を確認
Umberto Michieli, Mete Ozay(参考訳) 継続学習(CL)は、過去の問題を忘れることを避けつつ、過去の問題から得た知識を伝達することで、一連の問題(タスクやドメイン)を学習することを目的としている。 本稿では,特定のユースケースにおける1つのnlpタスクやドメインのclにフォーカスした従来のアプローチと異なり,より一般的なcl設定に対処し,問題列から一意なフレームワークで学習する。 我々の方法であるHOPは、CL問題に3つの方向で対処することで、タスクやドメインをホップすることができる。 (i)大きな事前学習されたモデルを一般化するために,アダプタのセットを用いる。 (ii)異なるタスクやドメイン間で独立かつ相関のある統計を区別するために,組込み表現の分布上の高次モーメントを計算する。 (iii)各エンド問題に特化した補助ヘッドでこの強化情報を処理する。 4つのnlpアプリケーションに対する広範な実験キャンペーン、5つのベンチマーク、2つのclセットアップは、我々のホップの有効性を示しています。

Continual Learning (CL) aims to learn a sequence of problems (i.e., tasks and domains) by transferring knowledge acquired on previous problems, whilst avoiding forgetting of past ones. Different from previous approaches which focused on CL for one NLP task or domain in a specific use-case, in this paper, we address a more general CL setting to learn from a sequence of problems in a unique framework. Our method, HOP, permits to hop across tasks and domains by addressing the CL problem along three directions: (i) we employ a set of adapters to generalize a large pre-trained model to unseen problems, (ii) we compute high-order moments over the distribution of embedded representations to distinguish independent and correlated statistics across different tasks and domains, (iii) we process this enriched information with auxiliary heads specialized for each end problem. Extensive experimental campaign on 4 NLP applications, 5 benchmarks and 2 CL setups demonstrates the effectiveness of our HOP.
翻訳日:2024-02-29 14:29:33 公開日:2024-02-28
# 単ドメイン一般化のためのプロンプト駆動動的オブジェクト中心学習

Prompt-Driven Dynamic Object-Centric Learning for Single Domain Generalization ( http://arxiv.org/abs/2402.18447v1 )

ライセンス: Link先を確認
Deng Li, Aming Wu, Yaowei Wang and Yahong Han(参考訳) 単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。 既存の作業は主に静的ネットワークの一般化能力の改善に重点を置いている。 しかし、静的ネットワークは異なる画像シーンの多様なバリエーションに動的に適応できないため、一般化能力は限られている。 異なるシーンは様々なレベルの複雑さを示し、画像の複雑さはクロスドメインシナリオで大きく変化する。 本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。 具体的には,様々なシーンプロンプトによって誘導されるオブジェクト中心の特徴に注目し,プロンプト学習に基づくオブジェクト中心ゲーティングモジュールを提案する。 そして、オブジェクト中心のゲーティングマスクを用いて、動的選択モジュールは、モデルがオブジェクト中心の関連する特徴を適応的に知覚し、一般化能力を高めることができるように、空間次元およびチャネル次元の高度に相関した特徴領域を動的に選択する。 画像分類と物体検出における単一領域一般化タスクについて広範な実験を行った。 実験結果から,提案手法の有効性と汎用性を検証した最先端手法よりも高い性能を示した。

Single-domain generalization aims to learn a model from single source domain data to achieve generalized performance on other unseen target domains. Existing works primarily focus on improving the generalization ability of static networks. However, static networks are unable to dynamically adapt to the diverse variations in different image scenes, leading to limited generalization capability. Different scenes exhibit varying levels of complexity, and the complexity of images further varies significantly in cross-domain scenarios. In this paper, we propose a dynamic object-centric perception network based on prompt learning, aiming to adapt to the variations in image complexity. Specifically, we propose an object-centric gating module based on prompt learning to focus attention on the object-centric features guided by the various scene prompts. Then, with the object-centric gating masks, the dynamic selective module dynamically selects highly correlated feature regions in both spatial and channel dimensions enabling the model to adaptively perceive object-centric relevant features, thereby enhancing the generalization capability. Extensive experiments were conducted on single-domain generalization tasks in image classification and object detection. The experimental results demonstrate that our approach outperforms state-of-the-art methods, which validates the effectiveness and generally of our proposed method.
翻訳日:2024-02-29 14:29:16 公開日:2024-02-28
# 局所性制約下における量子状態判別の絡み合いコスト

Entanglement cost of discriminating quantum states under locality constraints ( http://arxiv.org/abs/2402.18446v1 )

ライセンス: Link先を確認
Chenghong Zhu, Chengkai Zhu, Zhiping Liu, and Xin Wang(参考訳) 量子系における絡み合いと非局所性のユニークな特徴は、一般の絡み合い測定によって完全に区別できるが、局所演算や古典的通信では区別できない二成分状態が存在し、量子絡み合い理論、分散量子情報処理、量子データ隠蔽において重要な意味を持つ。 本稿では,2つの二部量子状態を識別するための絡み合いコストについて検討し,正の演算子評価測度(POVM)と正の部分転位(PPT)を用いて,一般の絡み合い測定による最適成功確率を求める。 まず,povmのスペクトルppt距離と呼ばれる効率的な計算量を導入し,一般計測の局所性を定量化する。 PPT POVMによる最適識別の絡み合いコストの低減効果を示す。 第2に,PPT POVMによる任意の状態に対する最適識別の絡み合いコストの上限を確立する。 この結果から,純粋状態はベル状態の助けを借りて任意の状態に対して最適に判別できることが示唆された。 本研究は、量子状態の識別における絡み合いによる中心的役割の理解を深め、局所的に制約された測定値に対して量子データを隠蔽する重要な要素となる。

The unique features of entanglement and non-locality in quantum systems, where there are pairs of bipartite states perfectly distinguishable by general entangled measurements yet indistinguishable by local operations and classical communication, hold significant importance in quantum entanglement theory, distributed quantum information processing, and quantum data hiding. This paper delves into the entanglement cost for discriminating two bipartite quantum states, employing positive operator-valued measures (POVMs) with positive partial transpose (PPT) to achieve optimal success probability through general entangled measurements. First, we introduce an efficiently computable quantity called the spectral PPT-distance of a POVM to quantify the localness of a general measurement. We show that it can be a lower bound for the entanglement cost of optimal discrimination by PPT POVMs. Second, we establish an upper bound on the entanglement cost of optimal discrimination by PPT POVMs for any pair of states. Leveraging this result, we show that a pure state can be optimally discriminated against any other state with the assistance of a single Bell state. This study advances our understanding of the pivotal role played by entanglement in quantum state discrimination, serving as a crucial element in unlocking quantum data hiding against locally constrained measurements.
翻訳日:2024-02-29 14:28:52 公開日:2024-02-28
# LeMo-NADe: LLMによるマルチパラメータニューラルネットワークディスカバリ

LeMo-NADe: Multi-Parameter Neural Architecture Discovery with LLMs ( http://arxiv.org/abs/2402.18443v1 )

ライセンス: Link先を確認
Md Hafizur Rahman and Prabuddha Chakraborty(参考訳) 効率的なニューラルネットワークアーキテクチャの構築は、幅広い専門知識を必要とする時間のかかる作業である。 このタスクは、推論時の消費電力、モデルサイズ、推論速度、CO2排出量などのパラメータを考慮する必要があるため、エッジデバイスでは特に困難になる。 本稿では,ユーザが定義したパラメータやエキスパートシステム,大量のオープンドメイン知識に基づいてトレーニングされたllmに基づいて,新たなニューラルネットワークアーキテクチャを自動的に発見する,新たなフレームワークを提案する。 導入されたフレームワーク(LeMo-NADe)は、AIの専門家以外の専門家が使用するように調整されており、所定のニューラルネットワーク検索スペースを必要としない。 提案するニューラルネットワーク探索フレームワークをcifar-10,cifar-100,imagenet16-120を用いて実装・検証し,llmコンポーネントとしてgpt-4 turboとgeminiを用いた。 提案するフレームワークは,ユーザが定義するさまざまなアプリケーション設定に対して,極めて良好に動作する複雑なニューラルネットワークモデルを,(数時間以内に)迅速に発見することができる。

Building efficient neural network architectures can be a time-consuming task requiring extensive expert knowledge. This task becomes particularly challenging for edge devices because one has to consider parameters such as power consumption during inferencing, model size, inferencing speed, and CO2 emissions. In this article, we introduce a novel framework designed to automatically discover new neural network architectures based on user-defined parameters, an expert system, and an LLM trained on a large amount of open-domain knowledge. The introduced framework (LeMo-NADe) is tailored to be used by non-AI experts, does not require a predetermined neural architecture search space, and considers a large set of edge device-specific parameters. We implement and validate this proposed neural architecture discovery framework using CIFAR-10, CIFAR-100, and ImageNet16-120 datasets while using GPT-4 Turbo and Gemini as the LLM component. We observe that the proposed framework can rapidly (within hours) discover intricate neural network models that perform extremely well across a diverse set of application settings defined by the user.
翻訳日:2024-02-29 14:28:30 公開日:2024-02-28
# 大域フェルミオン対称性を持つれんが壁量子回路

Brick Wall Quantum Circuits with Global Fermionic Symmetry ( http://arxiv.org/abs/2402.18440v1 )

ライセンス: Link先を確認
Pietro Richelli, Kareljan Schoutens, Alberto Zorzato(参考訳) 大域フェルミオン対称性を享受するレンガ壁量子回路について検討する。 2量子ビットゲートとそのフェルミオン対称性は、1+1次元の可積分超対称量子場理論における2粒子散乱行列に由来する。 我々の2量子ゲートは3つの自由パラメータの関数として、いわゆるフリーフェルミオンあるいはマッチゲート形式であり、レンガの壁のユニタリ$U_F$とその非自明なハミルトニアン極限$H_{\gamma}$のスペクトル構造を閉形式で導出することができる。 フェルミオン対称性は臨界点の曲面に$H_{\gamma}$をピンするのに対して、対称性を破ると非自明な位相となる。 我々は、この種類の回路のクエンチダイナミクスと絡み合いについて簡単に検討する。

We study brick wall quantum circuits enjoying a global fermionic symmetry. The constituent 2-qubit gate, and its fermionic symmetry, derive from a 2-particle scattering matrix in integrable, supersymmetric quantum field theory in 1+1 dimensions. Our 2-qubit gate, as a function of three free parameters, is of so-called free fermionic or matchgate form, allowing us to derive the spectral structure of both the brick wall unitary $U_F$ and its, non-trivial, hamiltonian limit $H_{\gamma}$ in closed form. We find that the fermionic symmetry pins $H_{\gamma}$ to a surface of critical points, whereas breaking that symmetry leads to non-trivial topological phases. We briefly explore quench dynamics and entanglement build up for this class of circuits.
翻訳日:2024-02-29 14:28:11 公開日:2024-02-28
# 自然言語を超えて: LLMは推論とコミュニケーションを強化する代替フォーマットを活用する

Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication ( http://arxiv.org/abs/2402.18439v1 )

ライセンス: Link先を確認
Weize Chen, Chenfei Yuan, Jiarui Yuan, Yusheng Su, Chen Qian, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun(参考訳) 自然言語(NL)は、人間の認知とコミュニケーションの主要なフォーマットであり、拡張によっても、Large Language Models(LLM)の開発と応用において同様に重要な役割を担っている。 しかし、NL以外にも、LLMはコードや論理式など、事前学習中に様々な非NLフォーマットを目にしている。 特に単一LLM推論やマルチエージェント通信において、LLMの最適フォーマットとしてのNLの地位は、十分に検討されていない。 本研究では,これらの文脈における非NLフォーマットの有用性を検討することで,NLのデフォルト利用に挑戦する。 LLMが推論や通信に先立って、最も適したフォーマットを自律的に選択できるようにすることで、異なるLLMの推論効率が3.3~5.7 %向上し、通信効率を維持しつつ、マルチエージェント通信におけるトークン使用率を72.7 %削減できることを示す。 我々の包括的分析により、LLMは限られたタスク命令からフォーマットを作成でき、考案されたフォーマットは異なるLLM間で効果的に転送可能であることが明らかとなった。 興味深いことに、LLMによって決定される構造化通信形式は、確立されたエージェント通信言語と顕著な類似性を示し、エージェント通信における効率的な構造化通信への自然な進化を示唆している。 私たちのコードは \url{https://github.com/thunlp/autoform} でリリースされる。

Natural language (NL) has long been the predominant format for human cognition and communication, and by extension, has been similarly pivotal in the development and application of Large Language Models (LLMs). Yet, besides NL, LLMs have seen various non-NL formats during pre-training, such as code and logical expression. NL's status as the optimal format for LLMs, particularly in single-LLM reasoning and multi-agent communication, has not been thoroughly examined. In this work, we challenge the default use of NL by exploring the utility of non-NL formats in these contexts. We show that allowing LLMs to autonomously select the most suitable format before reasoning or communicating leads to a 3.3 to 5.7\% improvement in reasoning efficiency for different LLMs, and up to a 72.7\% reduction in token usage in multi-agent communication, all while maintaining communicative effectiveness. Our comprehensive analysis further reveals that LLMs can devise a format from limited task instructions and that the devised format is effectively transferable across different LLMs. Intriguingly, the structured communication format decided by LLMs exhibits notable parallels with established agent communication languages, suggesting a natural evolution towards efficient, structured communication in agent communication. Our code is released at \url{https://github.com/thunlp/AutoForm}.
翻訳日:2024-02-29 14:27:56 公開日:2024-02-28
# 極端分類のためのグラフ正規化エンコーダトレーニング

Graph Regularized Encoder Training for Extreme Classification ( http://arxiv.org/abs/2402.18434v1 )

ライセンス: Link先を確認
Anshul Mittal, Shikhar Mohan, Deepak Saini, Suchith C. Prabhu, Jain jiao, Sumeet Agarwal, Soumen Chakrabarti, Purushottam Kar, Manik Varma(参考訳) deep extreme classification (xc) は、エンコーダアーキテクチャと付随する分類器アーキテクチャを訓練し、非常に大きなラベルの宇宙から最も関連するラベルのサブセットでデータポイントをタグ付けすることを目的としている。 ランキング、レコメンデーション、タグ付けにおけるXCアプリケーションは、トレーニングデータの量が極端に少ないテールラベルに頻繁に遭遇する。 グラフ畳み込みネットワーク(gcn)は、タスクメタデータを活用し、これらの設定におけるモデルの精度を高めるための、便利だが計算コストの高い方法を提供する。 本稿では,GCNを非GCNアーキテクチャに置き換えることにより,GCNの急激な計算コストを完全に回避できることを示す。 これらの設定では、GCNを実装するよりも、グラフデータを使ってエンコーダのトレーニングを規則化する方がずっと効果的である。 これらの知見に基づいて、xc設定でグラフメタデータを利用するための代替パラダイムであるramenが提示され、推論計算コストをゼロにすることで、大幅なパフォーマンス向上を実現している。 RAMENは、最大100万ラベルのデータセットにスケールし、GCNのトレーニングにグラフメタデータを使用するものを含む、最先端の手法よりも、ベンチマークデータセット上で最大15%高い予測精度を提供する。 RAMENはまた、人気のある検索エンジンのクリックログから得られたプロプライエタリなレコメンデーションデータセットに対して、最高のベースラインよりも10%高い精度を提供する。 RAMENのコードは一般公開される。

Deep extreme classification (XC) aims to train an encoder architecture and an accompanying classifier architecture to tag a data point with the most relevant subset of labels from a very large universe of labels. XC applications in ranking, recommendation and tagging routinely encounter tail labels for which the amount of training data is exceedingly small. Graph convolutional networks (GCN) present a convenient but computationally expensive way to leverage task metadata and enhance model accuracies in these settings. This paper formally establishes that in several use cases, the steep computational cost of GCNs is entirely avoidable by replacing GCNs with non-GCN architectures. The paper notices that in these settings, it is much more effective to use graph data to regularize encoder training than to implement a GCN. Based on these insights, an alternative paradigm RAMEN is presented to utilize graph metadata in XC settings that offers significant performance boosts with zero increase in inference computational costs. RAMEN scales to datasets with up to 1M labels and offers prediction accuracy up to 15% higher on benchmark datasets than state of the art methods, including those that use graph metadata to train GCNs. RAMEN also offers 10% higher accuracy over the best baseline on a proprietary recommendation dataset sourced from click logs of a popular search engine. Code for RAMEN will be released publicly.
翻訳日:2024-02-29 14:27:28 公開日:2024-02-28
# ディスクリプタとしてのユニバーサルニューラルネットワークポテンシャル:量子コンピュータと古典コンピュータを用いたスケーラブルな化学特性予測を目指して

Universal neural network potentials as descriptors: Towards scalable chemical property prediction using quantum and classical computers ( http://arxiv.org/abs/2402.18433v1 )

ライセンス: Link先を確認
Tomoya Shiota, Kenji Ishihara, Wataru Mizukami(参考訳) 化学特性の正確な予測は、分子設計と材料発見の進展に不可欠である。 本稿では,化学特性予測のための汎用記述子として,普遍的ニューラルネットワークポテンシャルの中間情報を利用する汎用的アプローチを提案する。 本手法は,汎用力場のための高度なニューラルネットワークアーキテクチャを訓練することで,原子環境の伝達可能な表現を学習する,という知見に基づく。 グラフニューラルネットワークポテンシャルm3gnetを用いたトランスファー・ラーニングは、量子機械学習と標準の古典回帰モデルを用いて、記述子のコンパクトさに関わらず、nmrの化学シフトである^1$h,$^{13}$c,$^{15}$n,$^{17}$o,$^{19}$fの予測に匹敵する精度を示す。 この研究は、特性を正確に予測する効率的な方法を提供し、新しい分子や物質の発見を加速する可能性がある。

Accurate prediction of diverse chemical properties is crucial for advancing molecular design and materials discovery. Here we present a versatile approach that uses the intermediate information of a universal neural network potential as a general-purpose descriptor for chemical property prediction. Our method is based on the insight that by training a sophisticated neural network architecture for universal force fields, it learns transferable representations of atomic environments. We show that transfer learning with a graph neural network potential M3GNet achieves accuracy comparable to state-of-the-art methods for predicting the NMR chemical shifts of$^1$H, $^{13}$C, $^{15}$N, $^{17}$O, and $^{19}$F using quantum machine learning as well as a standard classical regression model, despite the compactness of its descriptors. This work provides an efficient way to accurately predict properties, potentially accelerating the discovery of new molecules and materials.
翻訳日:2024-02-29 14:27:03 公開日:2024-02-28
# 格子シュウィンガー模型における実時間散乱

Real-time scattering in the lattice Schwinger model ( http://arxiv.org/abs/2402.18429v1 )

ライセンス: Link先を確認
Irene Papaefstathiou, Johannes Knolle and Mari Carmen Ba\~nuls(参考訳) テンソルネットワーク法は、連続体極限に近い格子ゲージ理論の平衡特性の研究に適合することを示した。 格子シュウィンガー模型における複合中間子のリアルタイム衝突をシミュレートし, これまでの研究よりもはるかに少ない平衡状態のシナリオでそれらを用いる。 異なるタイミングでベクトル中間子の波束を構成することで、2つの重い中間子を生成する非弾性チャネルの開口を観察し、運動量閾値を同定する。 強結合系における衝突生成物を検出するために,現在の量子シミュレーションプラットフォームで測定可能な局所量子化法を提案する。

Tensor network methods have demonstrated their suitability for the study of equilibrium properties of lattice gauge theories, even close to the continuum limit. We use them in an out-of-equilibrium scenario, much less explored so far, by simulating the real-time collisions of composite mesons in the lattice Schwinger model. Constructing wave-packets of vector mesons at different incoming momenta, we observe the opening of the inelastic channel in which two heavier mesons are produced and identify the momentum threshold. To detect the products of the collision in the strong coupling regime we propose local quantitites that could be measured in current quantum simulation platforms.
翻訳日:2024-02-29 14:26:44 公開日:2024-02-28
# ニューラルマシン翻訳のための協調学習による多様なモデリングコンテキストの活用

Leveraging Diverse Modeling Contexts with Collaborating Learning for Neural Machine Translation ( http://arxiv.org/abs/2402.18428v1 )

ライセンス: Link先を確認
Yusheng Liao and Yanfeng Wang and Yu Wang(参考訳) 自己回帰 (AR) と非自己回帰 (NAR) モデル (NAR) はニューラルマシン翻訳 (NMT) の2種類の生成モデルである。 arモデルは単語ごとにトークンを予測し、実際の翻訳の分布を効果的に捉えることができる。 NARモデルは、推論速度を改善するが性能劣化に苦しむ双方向のコンテキスト情報を抽出することでトークンを予測する。 これまでの作業では、トレーニングデータの複雑さを減らしたり、NARモデルを利用してグローバル情報をARモデルに組み込むことで、ARモデルを活用して、NARモデルを強化していた。 しかし、これらの手法は、異なる種類のモデルによって提供できる文脈情報の多様性を無視しながら、単一のタイプのモデルの文脈情報のみを活用している。 本稿では,教師や学生の代わりにARモデルとNARモデルを協調者として扱う,新しい総合的協調学習手法であるDCMCLを提案する。 双方向の文脈情報を階層的に活用するために、トークンレベルの相互学習とシーケンスレベルのコントラスト学習がARモデルとNARモデルの間で採用されている。 広範に使用されている4つのベンチマークにおいて、提案されたDCMCL法は、それぞれ1.38点と2.98点のBLEUスコアを持つARモデルとNARモデルの両方を同時に改善でき、またARとNARデコーディングの両方に対して最大0.97点のBLEUスコアを持つ現在の最も統一されたモデルよりも優れていた。

Autoregressive (AR) and Non-autoregressive (NAR) models are two types of generative models for Neural Machine Translation (NMT). AR models predict tokens in a word-by-word manner and can effectively capture the distribution of real translations. NAR models predict tokens by extracting bidirectional contextual information which can improve the inference speed but they suffer from performance degradation. Previous works utilized AR models to enhance NAR models by reducing the training data's complexity or incorporating the global information into AR models by virtue of NAR models. However, those investigated methods only take advantage of the contextual information of a single type of model while neglecting the diversity in the contextual information that can be provided by different types of models. In this paper, we propose a novel generic collaborative learning method, DCMCL, where AR and NAR models are treated as collaborators instead of teachers and students. To hierarchically leverage the bilateral contextual information, token-level mutual learning and sequence-level contrastive learning are adopted between AR and NAR models. Extensive experiments on four widely used benchmarks show that the proposed DCMCL method can simultaneously improve both AR and NAR models with up to 1.38 and 2.98 BLEU scores respectively, and can also outperform the current best-unified model with up to 0.97 BLEU scores for both AR and NAR decoding.
翻訳日:2024-02-29 14:26:32 公開日:2024-02-28
# ニューラルネットワークにおける次元抽象化のためのリレーショナルインダクティブバイアス

A Relational Inductive Bias for Dimensional Abstraction in Neural Networks ( http://arxiv.org/abs/2402.18426v1 )

ライセンス: Link先を確認
Declan Campbell, Jonathan D. Cohen(参考訳) ヒトの認知システムは、環境の低次元な構成表現を形成する能力があるため、顕著な柔軟性と一般化能力を示す。 対照的に、標準的なニューラルネットワークアーキテクチャは、しばしば抽象的な推論タスク、過剰フィッティング、トレーニングのために広範なデータを必要とする。 本稿では,入力間の関係に処理を集中するメカニズムであるリレーショナル・ボトルネックが,合成符号化に寄与する因子化表現の学習と処理の柔軟性に与える影響について検討する。 このようなボトルネックは、一般化と学習効率の向上だけでなく、ネットワーク性能と人間の行動バイアスの整合性も示している。 リレーショナルボトルネックでトレーニングされたネットワークは、データセットに潜む特徴次元の直交表現を開発し、人間の認知的柔軟性を損なうと考えられる因子構造を反映した。 さらに、関係ネットワークは、予め特定された記号プリミティブを使わずに、人間の正規性に対するバイアスを模倣し、ボトルネックがシンボルに似た柔軟性を提供する抽象表現の出現を促進することを示唆している。

The human cognitive system exhibits remarkable flexibility and generalization capabilities, partly due to its ability to form low-dimensional, compositional representations of the environment. In contrast, standard neural network architectures often struggle with abstract reasoning tasks, overfitting, and requiring extensive data for training. This paper investigates the impact of the relational bottleneck -- a mechanism that focuses processing on relations among inputs -- on the learning of factorized representations conducive to compositional coding and the attendant flexibility of processing. We demonstrate that such a bottleneck not only improves generalization and learning efficiency, but also aligns network performance with human-like behavioral biases. Networks trained with the relational bottleneck developed orthogonal representations of feature dimensions latent in the dataset, reflecting the factorized structure thought to underlie human cognitive flexibility. Moreover, the relational network mimics human biases towards regularity without pre-specified symbolic primitives, suggesting that the bottleneck fosters the emergence of abstract representations that confer flexibility akin to symbols.
翻訳日:2024-02-29 14:26:03 公開日:2024-02-28
# 低次・低次資源言語における感情分類

Emotion Classification in Low and Moderate Resource Languages ( http://arxiv.org/abs/2402.18424v1 )

ライセンス: Link先を確認
Shabnam Tafreshi, Shubham Vatsal, Mona Diab(参考訳) 世界中の人々の感情状態を分析することは重要である。 世界中で7100以上のアクティブ言語が話されており、各言語の感情分類の構築は労働集約的である。 特に低リソースおよび絶滅危惧言語では、感情分類を構築するのは非常に難しい。 本稿では,言語間感情分類器を提案する。そこでは,資源豊富な言語で感情分類器を訓練し,低・中程度のリソース言語に学習を伝達する。 高いリソース言語から低または中程度のリソース言語へのトランスファー学習の2つのアプローチを比較して比較する。 あるアプローチでは、アノテーションをハイソース言語からハイソース言語へ並列コーパスで投影し、別のアプローチでは、ハイソース言語から他の言語へ直接転送する。 私たちは、Farsi、アラビア語、スペイン語、Ilocano、Odia、Azerbaijaniの6つの言語に対するアプローチの有効性を示します。 その結果、我々のアプローチはランダムなベースラインを上回り、言語間で感情を伝達することに成功した。 すべての言語において、感情の直接的言語間移動はより良い結果をもたらす。 また、Farsi、Azerbaijani、Ilocano、Odiaという4つの言語のための注釈付き感情ラベルリソースも作成しています。

It is important to be able to analyze the emotional state of people around the globe. There are 7100+ active languages spoken around the world and building emotion classification for each language is labor intensive. Particularly for low-resource and endangered languages, building emotion classification can be quite challenging. We present a cross-lingual emotion classifier, where we train an emotion classifier with resource-rich languages (i.e. \textit{English} in our work) and transfer the learning to low and moderate resource languages. We compare and contrast two approaches of transfer learning from a high-resource language to a low or moderate-resource language. One approach projects the annotation from a high-resource language to low and moderate-resource language in parallel corpora and the other one uses direct transfer from high-resource language to the other languages. We show the efficacy of our approaches on 6 languages: Farsi, Arabic, Spanish, Ilocano, Odia, and Azerbaijani. Our results indicate that our approaches outperform random baselines and transfer emotions across languages successfully. For all languages, the direct cross-lingual transfer of emotion yields better results. We also create annotated emotion-labeled resources for four languages: Farsi, Azerbaijani, Ilocano and Odia.
翻訳日:2024-02-29 14:25:44 公開日:2024-02-28
# 自由膨張性フェルミオンガスのページ曲線様力学の一般流体力学による記述

Generalised Hydrodynamics description of the Page curve-like dynamics of a freely expanding fermionic gas ( http://arxiv.org/abs/2402.18422v1 )

ライセンス: Link先を確認
Madhumita Saha, Manas Kulkarni and Abhishek Dhar(参考訳) ブラックホールの蒸発に伴う絡み合いエントロピーの進化を特徴付けるページ曲線の主な特徴を解析的に把握可能なモデルとして考察する。 我々のモデルは、箱から真空に放出される格子上の非相互作用性フェルミオンの気体である。 より正確には、ハミルトニアンは、充填箱と真空の間の接合に欠陥がある密結合モデルである。 エンタングルメントエントロピーに加えて、空間密度プロファイルや電流などの他の観測可能量も考慮し、一般化された流体力学の半古典的アプローチが、エンタングルメントエントロピーを含む量子力学を常に正確に記述していることを示す。 我々の流体力学結果は、正確な微視的な数値で得られたものとよく一致する。 絡み合いの成長は線形で普遍的であり、欠陥の詳細とは無関係である。 崩壊は共形欠陥に対して1/t$のスケーリングを示し、非整形欠陥に対しては遅くなる。 本研究は、半古典的アプローチの力を示し、ブラックホール情報パラドックスの解決に関する議論に関係している可能性がある。

We consider an analytically tractable model that exhibits the main features of the Page curve characterizing the evolution of entanglement entropy during evaporation of a black hole. Our model is a gas of non-interacting fermions on a lattice that is released from a box into the vacuum. More precisely, our Hamiltonian is a tight-binding model with a defect at the junction between the filled box and the vacuum. In addition to the entanglement entropy we consider several other observables, such as the spatial density profile and current, and show that the semiclassical approach of generalized hydrodynamics provides a remarkably accurate description of the quantum dynamics including that of the entanglement entropy at all times. Our hydrodynamic results agree closely with those obtained via exact microscopic numerics. We find that the growth of entanglement is linear and universal, i.e, independent of the details of the defect. The decay shows $1/t$ scaling for conformal defect while for non-conformal defects, it is slower. Our study shows the power of the semiclassical approach and could be relevant for discussions on the resolution of the black hole information paradox.
翻訳日:2024-02-29 14:25:23 公開日:2024-02-28
# GPTはガイドラインに基づく自動質問応答による事前認可の状態を改善できるか?

Can GPT Improve the State of Prior Authorization via Guideline Based Automated Question Answering? ( http://arxiv.org/abs/2402.18419v1 )

ライセンス: Link先を確認
Shubham Vatsal, Ayush Singh and Shabnam Tafreshi(参考訳) 医療保険会社は、患者に特定の処置を施す前に、医師や他の医療従事者が医療計画から前もってクリアランスを得ることを要求する健康計画コスト管理プロセスである事前認可(PA)と呼ばれるプロセスを有する。 医療保険会社にとって、医療分野の患者に対するPA要求の承認は、時間を要する課題である。 これらの重要な課題の1つは、要求が年齢、性別などの特定の基準に合致するかどうかを検証することである。 本研究は,gptが多くの重要な要因を検証できるかどうかを評価し,その結果,健康計画の意思決定の迅速化を支援する。 我々はこれを質問応答タスクとみなし,患者の電子健康記録から質問への回答を促す。 我々は,従来のプロンプト技術を試行するとともに,新しいプロンプト技術を導入する。 また,本手法による自然言語生成の質的評価について報告する。 その結果,本手法はF1平均スコア0.61で,標準スコアに比べて優れた性能を示すことがわかった。

Health insurance companies have a defined process called prior authorization (PA) which is a health plan cost-control process that requires doctors and other healthcare professionals to get clearance in advance from a health plan before performing a particular procedure on a patient in order to be eligible for payment coverage. For health insurance companies, approving PA requests for patients in the medical domain is a time-consuming and challenging task. One of those key challenges is validating if a request matches up to certain criteria such as age, gender, etc. In this work, we evaluate whether GPT can validate numerous key factors, in turn helping health plans reach a decision drastically faster. We frame it as a question answering task, prompting GPT to answer a question from patient electronic health record. We experiment with different conventional prompting techniques as well as introduce our own novel prompting technique. Moreover, we report qualitative assessment by humans on the natural language generation outputs from our approach. Results show that our method achieves superior performance with the mean weighted F1 score of 0.61 as compared to its standard counterparts.
翻訳日:2024-02-29 14:25:04 公開日:2024-02-28
# pet/ctラジオグラフィと臨床情報を用いた頭頸部癌再発再発の予測

Prediction of recurrence free survival of head and neck cancer using PET/CT radiomics and clinical information ( http://arxiv.org/abs/2402.18417v1 )

ライセンス: Link先を確認
Mona Furukawa, Daniel R. McGowan, Bart{\l}omiej W. Papie\.z(参考訳) 頭頸部癌(hnc)の5年間の生存率は過去10年間で改善されておらず、治療不全の原因の1つは再発である。 本稿では,咽頭HNC患者の再発自由生存(RFS)を予測するコックス比例ハザード(CoxPH)モデルを構築した。 我々はCT(CT)とPET(PET)の腫瘍領域から抽出した臨床情報とマルチモーダルラジオミクスの特徴を利用する。 さらに, セグメンテーション精度が抽出された放射能特性の予測力に与える影響について, 下位・過剰セグメンテーション研究を通じて検討した最初の研究の一つである。 頭頸部腫瘍 (hecktor) チャレンジデータを用いてトレーニングを行い, 臨床情報とマルチモーダルct, petラジオミクス機能を利用するモデル (c-index (c-index) を0.74で達成し, 臨床情報のみを使用したモデル (c-index (0.67)) と比較した。 本研究は,放射線抽出におけるセグメンテーションの精度がPETとCTに異なる影響があることを確認した。

The 5-year survival rate of Head and Neck Cancer (HNC) has not improved over the past decade and one common cause of treatment failure is recurrence. In this paper, we built Cox proportional hazard (CoxPH) models that predict the recurrence free survival (RFS) of oropharyngeal HNC patients. Our models utilise both clinical information and multimodal radiomics features extracted from tumour regions in Computed Tomography (CT) and Positron Emission Tomography (PET). Furthermore, we were one of the first studies to explore the impact of segmentation accuracy on the predictive power of the extracted radiomics features, through under- and over-segmentation study. Our models were trained using the HEad and neCK TumOR (HECKTOR) challenge data, and the best performing model achieved a concordance index (C-index) of 0.74 for the model utilising clinical information and multimodal CT and PET radiomics features, which compares favourably with the model that only used clinical information (C-index of 0.67). Our under- and over-segmentation study confirms that segmentation accuracy affects radiomics extraction, however, it affects PET and CT differently.
翻訳日:2024-02-29 14:24:44 公開日:2024-02-28
# ROG$_{PL}$:地域型プロトタイプ学習によるロバストなオープンセットグラフ学習

ROG$_{PL}$: Robust Open-Set Graph Learning via Region-Based Prototype Learning ( http://arxiv.org/abs/2402.18495v1 )

ライセンス: Link先を確認
Qin Zhang, Xiaowei Li, Jiexin Lu, Liping Qiu, Shirui Pan, Xiaojun Chen, Junyang Chen(参考訳) オープンセットグラフ学習は、既知のクラスノードを分類し、未知のクラスサンプルを未知として識別することを目的とした実用的なタスクである。 従来のノード分類手法は通常、out-of-distribution(ood)データやin-distribution(ind)ノイズといった複雑なデータによって、オープンセットのシナリオでは不十分に実行される。 OODデータは、既知のクラスに属さないサンプルである。 それらはトレーニング中に発生する場合(オードノイズ)とテスト時に発生する場合のオープンセットサンプルである。 INDノイズは、間違ったラベルが割り当てられたトレーニングサンプルである。 INDノイズとOODノイズの存在が一般的であり、通常はクラス内多様性問題やクラス間混乱問題を含む曖昧性問題を引き起こす。 したがって、頑健なオープンセット学習手法の探索は必要であり、非IIDグラフデータにとってさらに困難になる。このため、プロトタイプ学習を導入することにより、複雑なノイズグラフデータに対する堅牢なオープンセット学習を実現するためにROG$_{PL}$という統合フレームワークを提案する。 具体的には、rog$_{pl}$は2つのモジュールで構成される。 第1モジュールは、類似性に基づくラベル伝播によりノイズラベルを補正し、低信頼サンプルを除去し、ノイズによるクラス内バラエティ問題を解決する。 第2のモジュールは、非オーバーラップ領域を介して、既知の各クラスのオープンセットプロトタイプを学習し、クラス間の混乱問題を解決するために、内部と境界の両方のプロトタイプを継続する。 私たちの知る限りでは、提案されたrog$_{pl}$は、複雑なノイズを持つグラフデータに対する最初の堅牢なオープンセットノード分類法である。

Open-set graph learning is a practical task that aims to classify the known class nodes and to identify unknown class samples as unknowns. Conventional node classification methods usually perform unsatisfactorily in open-set scenarios due to the complex data they encounter, such as out-of-distribution (OOD) data and in-distribution (IND) noise. OOD data are samples that do not belong to any known classes. They are outliers if they occur in training (OOD noise), and open-set samples if they occur in testing. IND noise are training samples which are assigned incorrect labels. The existence of IND noise and OOD noise is prevalent, which usually cause the ambiguity problem, including the intra-class variety problem and the inter-class confusion problem. Thus, to explore robust open-set learning methods is necessary and difficult, and it becomes even more difficult for non-IID graph data.To this end, we propose a unified framework named ROG$_{PL}$ to achieve robust open-set learning on complex noisy graph data, by introducing prototype learning. In specific, ROG$_{PL}$ consists of two modules, i.e., denoising via label propagation and open-set prototype learning via regions. The first module corrects noisy labels through similarity-based label propagation and removes low-confidence samples, to solve the intra-class variety problem caused by noise. The second module learns open-set prototypes for each known class via non-overlapped regions and remains both interior and border prototypes to remedy the inter-class confusion problem.The two modules are iteratively updated under the constraints of classification loss and prototype diversity loss. To the best of our knowledge, the proposed ROG$_{PL}$ is the first robust open-set node classification method for graph data with complex noise.
翻訳日:2024-02-29 14:19:48 公開日:2024-02-28
# sunshine to rainstorm:ロバストな3dオブジェクト検出のためのクロスウェザー知識蒸留

Sunshine to Rainstorm: Cross-Weather Knowledge Distillation for Robust 3D Object Detection ( http://arxiv.org/abs/2402.18493v1 )

ライセンス: Link先を確認
Xun Huang, Hai Wu, Xin Li, Xiaoliang Fan, Chenglu Wen, Cheng Wang(参考訳) lidarベースの3dオブジェクト検出モデルは、従来、劣化しノイズの多い走査信号のために雨条件下で苦労してきた。 過去の研究では、雨からの騒音をシミュレートして、検出モデルの堅牢性を改善することを試みた。 しかし、シミュレーションデータと実際の雨の影響データの間には大きな差がある。 本研究では, DRETと呼ばれる新しい雨シミュレーション手法を提案し, 動的・降雨環境理論を統一し, 現実的な雨データを拡張して3次元検出訓練を行う。 さらに,降雨条件下での3次元検出を強化するために,Sunny-to-Rainy Knowledge Distillation (SRKD)アプローチを提案する。 WaymoOpenDatasetの大規模データセットに対する大規模な実験により、最先端のDSVTモデルや他の古典的な3D検出器と組み合わせることで、提案フレームワークは効率を損なうことなく、大幅な検出精度の向上を示す。 幸いなことに、私たちのフレームワークは、晴れた状況下での検知能力も向上し、天候が雨でも晴れでも、堅牢な3D検出ソリューションを提供する。

LiDAR-based 3D object detection models have traditionally struggled under rainy conditions due to the degraded and noisy scanning signals. Previous research has attempted to address this by simulating the noise from rain to improve the robustness of detection models. However, significant disparities exist between simulated and actual rain-impacted data points. In this work, we propose a novel rain simulation method, termed DRET, that unifies Dynamics and Rainy Environment Theory to provide a cost-effective means of expanding the available realistic rain data for 3D detection training. Furthermore, we present a Sunny-to-Rainy Knowledge Distillation (SRKD) approach to enhance 3D detection under rainy conditions. Extensive experiments on the WaymoOpenDataset large-scale dataset show that, when combined with the state-of-the-art DSVT model and other classical 3D detectors, our proposed framework demonstrates significant detection accuracy improvements, without losing efficiency. Remarkably, our framework also improves detection capabilities under sunny conditions, therefore offering a robust solution for 3D detection regardless of whether the weather is rainy or sunny
翻訳日:2024-02-29 14:19:14 公開日:2024-02-28
# 拡散モデルの動的レジーム

Dynamical Regimes of Diffusion Models ( http://arxiv.org/abs/2402.18491v1 )

ライセンス: Link先を確認
Giulio Biroli, Tony Bonnaire, Valentin de Bortoli, Marc M\'ezard(参考訳) 統計物理学的手法を用いて,空間の次元とデータ数が大きく,スコア関数が最適に訓練された領域における生成拡散モデルについて検討した。 解析の結果,後方生成拡散過程における3つの異なる動的レジームが明らかになった。 生成力学は純粋なノイズから始まり、まず、相転移の対称性の破れに似たメカニズムを通じて、データの全体構造が未発見の「種分化」遷移に遭遇する。 その後、ガラス相の凝縮に類似した機構を通じて、ダイナミクスの軌道が記憶されたデータポイントの1つに惹かれる「凝縮」遷移が起こる。 任意のデータセットでは、相関行列のスペクトル分析から種分化時間を見つけることができ、データ内の「外エントロピー」の推定から崩壊時間を求めることができる。 崩壊時間の次元とデータ数への依存性は拡散モデルにおける次元の呪いの徹底的な特徴を与える。 高次元ガウス混合のような単純なモデルの解析解はこれらの発見を裏付け、理論的な枠組みを提供する一方で、より複雑なシナリオへの拡張や実際のデータセットによる数値的検証は理論的な予測を裏付ける。

Using statistical physics methods, we study generative diffusion models in the regime where the dimension of space and the number of data are large, and the score function has been trained optimally. Our analysis reveals three distinct dynamical regimes during the backward generative diffusion process. The generative dynamics, starting from pure noise, encounters first a 'speciation' transition where the gross structure of data is unraveled, through a mechanism similar to symmetry breaking in phase transitions. It is followed at later time by a 'collapse' transition where the trajectories of the dynamics become attracted to one of the memorized data points, through a mechanism which is similar to the condensation in a glass phase. For any dataset, the speciation time can be found from a spectral analysis of the correlation matrix, and the collapse time can be found from the estimation of an 'excess entropy' in the data. The dependence of the collapse time on the dimension and number of data provides a thorough characterization of the curse of dimensionality for diffusion models. Analytical solutions for simple models like high-dimensional Gaussian mixtures substantiate these findings and provide a theoretical framework, while extensions to more complex scenarios and numerical validations with real datasets confirm the theoretical predictions.
翻訳日:2024-02-29 14:18:55 公開日:2024-02-28
# TAMM:3次元形状理解のためのTriAdapter Multi-Modal Learning

TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding ( http://arxiv.org/abs/2402.18490v1 )

ライセンス: Link先を確認
Zhihao Zhang, Shengcao Cao, Yu-Xiong Wang(参考訳) 現在の3次元形状データセットの限られたスケールは、3次元形状理解の進歩を阻害し、データに基づく2次元画像と言語モダリティから3次元形状へ学習知識を伝達するマルチモーダル学習アプローチを動機付けている。 しかし,CLIPのようなクロスモーダルモデルでは画像表現と言語表現が一致しているが,既存のマルチモーダル3D表現学習手法では,画像モダリティが言語に匹敵しないことがわかった。 これは、2d画像の領域シフトと各モダリティの異なる焦点に起因する。 事前学習における両方のモダリティをより効果的に活用するために,3つの相乗的アダプタに基づく新しい2段階学習手法であるTriAdapter Multi-Modal Learning (TAMM)を導入する。 まず,クリップの視覚的表現を合成画像とテキストのペアに適用することにより,3dレンダリング画像と自然画像の領域ギャップを緩和する。 その後、我々のデュアルアダプタは3次元形状表現空間を2つの相補的な部分空間に分解し、一方は視覚的属性に焦点を当て、もう一方は意味理解に焦点をあて、より包括的で効果的なマルチモーダル事前学習を確実にする。 大規模な実験では、TAMMは広範囲の3Dエンコーダアーキテクチャ、事前学習データセット、下流タスクの3D表現を一貫して強化している。 特に,Objaverse-LVISのゼロショット分類精度を46.8から50.7に向上し,ModelNet40の5ウェイ10ショット線形確率分類精度を96.1から99.0に改善する。 プロジェクトページ: \url{https://alanzhangcs.github.io/tamm-page}

The limited scale of current 3D shape datasets hinders the advancements in 3D shape understanding, and motivates multi-modal learning approaches which transfer learned knowledge from data-abundant 2D image and language modalities to 3D shapes. However, even though the image and language representations have been aligned by cross-modal models like CLIP, we find that the image modality fails to contribute as much as the language in existing multi-modal 3D representation learning methods. This is attributed to the domain shift in the 2D images and the distinct focus of each modality. To more effectively leverage both modalities in the pre-training, we introduce TriAdapter Multi-Modal Learning (TAMM) -- a novel two-stage learning approach based on three synergetic adapters. First, our CLIP Image Adapter mitigates the domain gap between 3D-rendered images and natural images, by adapting the visual representations of CLIP for synthetic image-text pairs. Subsequently, our Dual Adapters decouple the 3D shape representation space into two complementary sub-spaces: one focusing on visual attributes and the other for semantic understanding, which ensure a more comprehensive and effective multi-modal pre-training. Extensive experiments demonstrate that TAMM consistently enhances 3D representations for a wide range of 3D encoder architectures, pre-training datasets, and downstream tasks. Notably, we boost the zero-shot classification accuracy on Objaverse-LVIS from 46.8 to 50.7, and improve the 5-way 10-shot linear probing classification accuracy on ModelNet40 from 96.1 to 99.0. Project page: \url{https://alanzhangcs.github.io/tamm-page}.
翻訳日:2024-02-29 14:18:34 公開日:2024-02-28
# AHPを用いた多目的強化学習と類似性に基づく体験リプレイを用いた検索・救助ミッションにおけるUAV軌道計画

Human-Centric Aware UAV Trajectory Planning in Search and Rescue Missions Employing Multi-Objective Reinforcement Learning with AHP and Similarity-Based Experience Replay ( http://arxiv.org/abs/2402.18487v1 )

ライセンス: Link先を確認
Mahya Ramezani and Jose Luis Sanchez-Lopez(参考訳) 無人航空機(UAV)の捜索救助(SAR)ミッションへの統合は、運用効率と有効性を高めるための有望な道を示す。 しかし、これらのミッションの成功は、ドローンの技術的能力だけでなく、地上の人間との受容と相互作用にも依存している。 本稿では,SARミッションにおけるUAV軌道計画における人間中心因子の効果について検討する。 分析階層化プロセスと新しい類似性に基づく経験リプレイを付加した強化学習に基づく新しいアプローチを導入し,uav軌道を最適化し,操作目標と人間の快適さと安全性のバランスをとる。 さらに,包括的調査を通じて,uav設計におけるジェンダーの手がかりと擬人化が公共の受容と信頼に与える影響を調査し,sarにおけるドローンのインタラクション戦略に有意な影響を明らかにした。 コントリビューションには,(1)多目的の考察を動的に統合するUAV軌道計画のための強化学習フレームワーク,(2)SARにおけるジェンダーや人為的なドローンに対する人間の認識の分析,(3)複雑なSARシナリオにおける学習効率向上のための類似性に基づく体験リプレイの適用などが含まれている。 この発見は、技術的に熟練しただけでなく、人間中心の価値観に沿ったUAVシステムの設計に関する貴重な洞察を提供する。

The integration of Unmanned Aerial Vehicles (UAVs) into Search and Rescue (SAR) missions presents a promising avenue for enhancing operational efficiency and effectiveness. However, the success of these missions is not solely dependent on the technical capabilities of the drones but also on their acceptance and interaction with humans on the ground. This paper explores the effect of human-centric factor in UAV trajectory planning for SAR missions. We introduce a novel approach based on the reinforcement learning augmented with Analytic Hierarchy Process and novel similarity-based experience replay to optimize UAV trajectories, balancing operational objectives with human comfort and safety considerations. Additionally, through a comprehensive survey, we investigate the impact of gender cues and anthropomorphism in UAV design on public acceptance and trust, revealing significant implications for drone interaction strategies in SAR. Our contributions include (1) a reinforcement learning framework for UAV trajectory planning that dynamically integrates multi-objective considerations, (2) an analysis of human perceptions towards gendered and anthropomorphized drones in SAR contexts, and (3) the application of similarity-based experience replay for enhanced learning efficiency in complex SAR scenarios. The findings offer valuable insights into designing UAV systems that are not only technically proficient but also aligned with human-centric values.
翻訳日:2024-02-29 14:18:00 公開日:2024-02-28
# finagent: 金融取引のためのマルチモーダル・ファンデーションエージェント: ツール提供、多様化、ジェネラリスト

FinAgent: A Multimodal Foundation Agent for Financial Trading: Tool-Augmented, Diversified, and Generalist ( http://arxiv.org/abs/2402.18485v1 )

ライセンス: Link先を確認
Wentao Zhang, Lingxuan Zhao, Haochong Xia, Shuo Sun, Jiaze Sun, Molei Qin, Xinyi Li, Yuqing Zhao, Yilei Zhao, Xinyu Cai, Longtao Zheng, Xinrun Wang, Bo An(参考訳) 金融取引は市場の重要な要素であり、ニュース、物価、クラインチャートを包含するマルチモーダルな情報状況から情報を得ており、量的取引や様々な資産との高周波取引といった様々なタスクを包含している。 ディープラーニングや強化学習といった高度なai技術は金融の分野で広く利用されているが、金融取引タスクにおける彼らの応用は、マルチモーダルデータの不適切な処理とさまざまなタスクの一般化可能性の制限によって、しばしば課題に直面している。 これらの課題に対処するため、金融取引のためのツール強化を備えたマルチモーダル基盤エージェントであるFinAgentを提示する。 FinAgentのマーケットインテリジェンスモジュールは、金融市場を正確に分析するために、さまざまなデータ数字、テキスト、視覚的に処理する。 そのユニークなデュアルレベルリフレクションモジュールは、市場ダイナミクスへの迅速な適応を可能にするだけでなく、多様なメモリ検索システムを導入し、履歴データから学習するエージェントの能力を高め、意思決定プロセスを改善する。 エージェントが行動の推論に重きを置くことで、その財務判断に対する信頼が高まる。 さらにFinAgentは、既存のトレーディング戦略と専門家の洞察を統合し、そのトレーディングアプローチがデータ駆動であり、健全な金融原則に根ざしていることを保証する。 株式やCryptoを含む6つの金融データセットに関する総合的な実験により、FinAgentは6つの金融指標で9つの最先端のベースラインを著しく上回り、利益の平均は36%を超えた。 具体的には、1つのデータセットで92.27%のリターン(84.39%の改善)を達成する。 特にFinAgentは、金融取引タスク用に設計された最初の先進的マルチモーダル・ファンデーションエージェントである。

Financial trading is a crucial component of the markets, informed by a multimodal information landscape encompassing news, prices, and Kline charts, and encompasses diverse tasks such as quantitative trading and high-frequency trading with various assets. While advanced AI techniques like deep learning and reinforcement learning are extensively utilized in finance, their application in financial trading tasks often faces challenges due to inadequate handling of multimodal data and limited generalizability across various tasks. To address these challenges, we present FinAgent, a multimodal foundational agent with tool augmentation for financial trading. FinAgent's market intelligence module processes a diverse range of data-numerical, textual, and visual-to accurately analyze the financial market. Its unique dual-level reflection module not only enables rapid adaptation to market dynamics but also incorporates a diversified memory retrieval system, enhancing the agent's ability to learn from historical data and improve decision-making processes. The agent's emphasis on reasoning for actions fosters trust in its financial decisions. Moreover, FinAgent integrates established trading strategies and expert insights, ensuring that its trading approaches are both data-driven and rooted in sound financial principles. With comprehensive experiments on 6 financial datasets, including stocks and Crypto, FinAgent significantly outperforms 9 state-of-the-art baselines in terms of 6 financial metrics with over 36% average improvement on profit. Specifically, a 92.27% return (a 84.39% relative improvement) is achieved on one dataset. Notably, FinAgent is the first advanced multimodal foundation agent designed for financial trading tasks.
翻訳日:2024-02-29 14:17:35 公開日:2024-02-28
# 長期粗解気候シミュレーションと希少事象統計の定量化のための非侵入機械学習フレームワーク

A non-intrusive machine learning framework for debiasing long-time coarse resolution climate simulations and quantifying rare events statistics ( http://arxiv.org/abs/2402.18484v1 )

ライセンス: Link先を確認
Benedikt Barthel Sorensen, Alexis Charalampopoulos, Shixuan Zhang, Bryce Harrop, Ruby Leung, Themistoklis Sapsis(参考訳) 気候が急速に変化するため、今後数十年で極端な天候の頻度と深刻度が増加すると予想されている。 完全に解決された気候シミュレーションは計算的に難解であるため、政策立案者は極度のリスクを定量化するために粗いモデルに頼る必要がある。 しかし、粗いモデルは無視された「サブグリッド」スケールのために固有のバイアスに悩まされる。 ニューラルネット(NN)補正演算子を用いて,非侵襲的に粗度気候予測を行う枠組みを提案する。 これまで、統計にマッチする損失関数を用いてそのようなオペレータを訓練しようと試みてきた。 しかしながら、このアプローチは、参照統計が収束していないため、トレーニングデータよりも返却期間が長いイベントでは不十分である。 ここでは、トレーニングデータよりも長い戻り期間を持つ極端な事象の動的補正と定量化を可能にする学習方法を定式化する。 鍵となる障害は、基礎となる力学のカオス性である。 この課題を克服するために、修正演算子を基準データを用いて訓練し、その基準に向けて粗いモデルシミュレーションを行う動的システムアプローチを導入する。 本手法は,未解決の準地すべりモデルとエネルギーエクサスケール地球系モデル(e3sm)のデバイアスについて実証した。 前者に対しては、トレーニングデータよりも2桁長いリターン期間を持つ事象の定量化を可能にする。 後者の場合,8年間のERA5データをトレーニングすると,粗いE3SMの出力を補正し,36年間のERA5の統計データを詳細に反映し,空間バイアスを著しく低減することができる。

Due to the rapidly changing climate, the frequency and severity of extreme weather is expected to increase over the coming decades. As fully-resolved climate simulations remain computationally intractable, policy makers must rely on coarse-models to quantify risk for extremes. However, coarse models suffer from inherent bias due to the ignored "sub-grid" scales. We propose a framework to non-intrusively debias coarse-resolution climate predictions using neural-network (NN) correction operators. Previous efforts have attempted to train such operators using loss functions that match statistics. However, this approach falls short with events that have longer return period than that of the training data, since the reference statistics have not converged. Here, the scope is to formulate a learning method that allows for correction of dynamics and quantification of extreme events with longer return period than the training data. The key obstacle is the chaotic nature of the underlying dynamics. To overcome this challenge, we introduce a dynamical systems approach where the correction operator is trained using reference data and a coarse model simulation nudged towards that reference. The method is demonstrated on debiasing an under-resolved quasi-geostrophic model and the Energy Exascale Earth System Model (E3SM). For the former, our method enables the quantification of events that have return period two orders longer than the training data. For the latter, when trained on 8 years of ERA5 data, our approach is able to correct the coarse E3SM output to closely reflect the 36-year ERA5 statistics for all prognostic variables and significantly reduce their spatial biases.
翻訳日:2024-02-29 14:17:03 公開日:2024-02-28
# NewsQs: 問い合わせマインドのためのマルチソース質問生成

NewsQs: Multi-Source Question Generation for the Inquiring Mind ( http://arxiv.org/abs/2402.18479v1 )

ライセンス: Link先を確認
Alyssa Hwang, Kalpit Dixit, Miguel Ballesteros, Yassine Benajiba, Vittorio Castelli, Markus Dreyer, Mohit Bansal, Kathleen McKeown(参考訳) 複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQs(news-cues)を提示する。 NewsQsを作成するために、News On the WebコーパスからFAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問で、従来のマルチドキュメント要約データセットを拡張する。 制御符号を持つモデルの微調整は、人間による評価によって測定されることなく、同じモデルよりも受け入れがたいと判断される質問を生成する。 人間のアノテーションと高い相関関係を持つQNLIモデルを用いてデータをフィルタリングする。 クエリベースのマルチドキュメント要約における今後の作業のためのリソースとして、高品質な質問、回答、ドキュメントクラスタの最後のデータセットをリリースします。

We present NewsQs (news-cues), a dataset that provides question-answer pairs for multiple news documents. To create NewsQs, we augment a traditional multi-document summarization dataset with questions automatically generated by a T5-Large model fine-tuned on FAQ-style news articles from the News On the Web corpus. We show that fine-tuning a model with control codes produces questions that are judged acceptable more often than the same model without them as measured through human evaluation. We use a QNLI model with high correlation with human annotations to filter our data. We release our final dataset of high-quality questions, answers, and document clusters as a resource for future work in query-based multi-document summarization.
翻訳日:2024-02-29 14:16:38 公開日:2024-02-28
# 確率過程の因果発見における符号カーネル条件独立試験

Signature Kernel Conditional Independence Tests in Causal Discovery for Stochastic Processes ( http://arxiv.org/abs/2402.18477v1 )

ライセンス: Link先を確認
Georg Manten, Cecilia Casolo, Emilio Ferrucci, S{\o}ren Wengel Mogensen, Cristopher Salvi, Niki Kilbertus(参考訳) 観測データから確率力学系の基礎となる因果構造を推測することは、科学や健康からファイナンスまで幅広い分野において大きな可能性を秘めている。 このような過程は確率微分方程式(SDE)によって正確にモデル化されることが多く、「どの変数が他の変数の微分に入るか」によって因果関係を暗示する。 本稿では,近年のシグネチャカーネルの進歩を活用して,SDEのソリューションであるパス空間上での条件独立性(CI)のカーネルベーステストを開発する。 提案するciテストはパススペースでの既存手法と比較して厳密に優れた性能を示す。 そこで我々は,時間情報を利用した非循環確率力学系に対する制約に基づく因果探索アルゴリズムを開発し,全有向グラフを復元する。 忠実性とci神託を仮定すると、我々のアルゴリズムは健全で完全です。 開発したCIテストと因果発見アルゴリズムが、さまざまな設定で確実にベースラインを上回っていることを実証的に検証します。

Inferring the causal structure underlying stochastic dynamical systems from observational data holds great promise in domains ranging from science and health to finance. Such processes can often be accurately modeled via stochastic differential equations (SDEs), which naturally imply causal relationships via "which variables enter the differential of which other variables". In this paper, we develop a kernel-based test of conditional independence (CI) on "path-space" -- solutions to SDEs -- by leveraging recent advances in signature kernels. We demonstrate strictly superior performance of our proposed CI test compared to existing approaches on path-space. Then, we develop constraint-based causal discovery algorithms for acyclic stochastic dynamical systems (allowing for loops) that leverage temporal information to recover the entire directed graph. Assuming faithfulness and a CI oracle, our algorithm is sound and complete. We empirically verify that our developed CI test in conjunction with the causal discovery algorithm reliably outperforms baselines across a range of settings.
翻訳日:2024-02-29 14:16:25 公開日:2024-02-28
# ibd:画像バイアス復号による大規模視覚言語モデルの幻覚緩和

IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding ( http://arxiv.org/abs/2402.18476v1 )

ライセンス: Link先を確認
Lanyun Zhu, Deyi Ji, Tianrun Chen, Peng Xu, Jieping Ye, Jun Liu(参考訳) 急速な開発と広範囲の応用にもかかわらず、LVLM(Large Vision-Language Models)は幻覚を生じやすいという深刻な課題に直面している。 言語的先行性への過度な依存は、これらの幻覚につながる重要な要因として認識されている。 本稿では,新しい画像バイアスデコーディング(IBD)技術を導入することにより,この問題を軽減することを提案する。 本手法は,従来のlvlmと画像バイアスlvlmの予測を対比することにより,テキストへの過度な依存による幻覚的誤りを軽減しつつ,画像内容と高い相関関係にある正しい情報を増幅することにより,次の確率分布を導出する。 さらに,本手法の信頼性を検証するための包括的統計解析を行い,各種条件下での堅牢かつ柔軟な処理を実現するための適応調整戦略を設計する。 複数の評価指標にまたがる実験結果から,学習データの追加は必要とせず,モデルパラメータの最小化のみで,LVLMの幻覚を著しく低減し,生成した応答の真正性を高めることができることがわかった。

Despite achieving rapid developments and with widespread applications, Large Vision-Language Models (LVLMs) confront a serious challenge of being prone to generating hallucinations. An over-reliance on linguistic priors has been identified as a key factor leading to these hallucinations. In this paper, we propose to alleviate this problem by introducing a novel image-biased decoding (IBD) technique. Our method derives the next-token probability distribution by contrasting predictions from a conventional LVLM with those of an image-biased LVLM, thereby amplifying the correct information highly correlated with image content while mitigating the hallucinatory errors caused by excessive dependence on text. We further conduct a comprehensive statistical analysis to validate the reliability of our method, and design an adaptive adjustment strategy to achieve robust and flexible handling under varying conditions. Experimental results across multiple evaluation metrics verify that our method, despite not requiring additional training data and only with a minimal increase in model parameters, can significantly reduce hallucinations in LVLMs and enhance the truthfulness of the generated response.
翻訳日:2024-02-29 14:16:08 公開日:2024-02-28
# クラスタリングニューラルネットワークによるオンライン強化学習の実装

Implementing Online Reinforcement Learning with Clustering Neural Networks ( http://arxiv.org/abs/2402.18472v1 )

ライセンス: Link先を確認
James E. Smith(参考訳) 強化学習を利用するエージェントは、環境からの入力(状態変数)を受け取り、ある目的を達成するために環境に影響を与えるアクションを実行する。 報酬(肯定的または否定的)は、エージェントを将来の行動を改善するために導く。 本稿では, 生物学的に可塑性なネオ・ヘビーンの3要素シナプス学習規則を付加したエージェントを第3因子として構築し, 先行・後スパイクに加えて, 先行クラスタリングニューラルネットワーク研究を基礎とする。 古典的なカートポール問題(逆振り子をバランシングする)が展示全体を通して実行例として使用される。 シミュレーションの結果,提案手法はより一般的な手法の低レベル成分として有効であることが示された。

An agent employing reinforcement learning takes inputs (state variables) from an environment and performs actions that affect the environment in order to achieve some objective. Rewards (positive or negative) guide the agent toward improved future actions. This paper builds on prior clustering neural network research by constructing an agent with biologically plausible neo-Hebbian three-factor synaptic learning rules, with a reward signal as the third factor (in addition to pre- and post-synaptic spikes). The classic cart-pole problem (balancing an inverted pendulum) is used as a running example throughout the exposition. Simulation results demonstrate the efficacy of the approach, and the proposed method may eventually serve as a low-level component of a more general method.
翻訳日:2024-02-29 14:15:49 公開日:2024-02-28
# 分離と克服:弱い教師付き意味セグメンテーションのための分解と表現による共起の分離

Separate and Conquer: Decoupling Co-occurrence via Decomposition and Representation for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2402.18467v1 )

ライセンス: Link先を確認
Zhiwei Yang, Kexue Fu, Minghong Duan, Linhao Qu, Shuo Wang, Zhijian Song(参考訳) 共起オブジェクトの頻繁な結合と画像レベルのラベルからの限定的な監督により、困難な共起問題は広く存在し、弱教師付きセマンティックセグメンテーション(WSSS)におけるオブジェクトの誤活性化につながる。 本研究では,画像空間と特徴空間の次元からこの問題に取り組むために,セコの「分離・征服」スキームを考案する。 画像空間では,イメージをパッチに分割することで,画像分解を伴う共起オブジェクトを分離することを提案する。 重要なことは、各パッチがクラスアクティベーションマップ(CAM)からカテゴリタグを割り当てることである。 特徴空間において,多粒度知識コントラストを用いた意味表現の強化により,偽のアクティベーションを「一致」することを提案する。 この目的のために、デュアル教師・シングル学生アーキテクチャを設計し、タグ誘導コントラストを行い、知識の正しさを保証し、共起オブジェクト間の相違をさらに促進する。 マルチステージのWSSSパイプラインをエンドツーエンドで合理化し、外部の監視なしに共起に取り組みます。 また,本手法の有効性を検証し,パスカルvocとms cocoにおける先行単段および複数段の競合相手よりも優れていることを検証した。 コードは利用可能だ。

Attributed to the frequent coupling of co-occurring objects and the limited supervision from image-level labels, the challenging co-occurrence problem is widely present and leads to false activation of objects in weakly supervised semantic segmentation (WSSS). In this work, we devise a 'Separate and Conquer' scheme SeCo to tackle this issue from dimensions of image space and feature space. In the image space, we propose to 'separate' the co-occurring objects with image decomposition by subdividing images into patches. Importantly, we assign each patch a category tag from Class Activation Maps (CAMs), which spatially helps remove the co-context bias and guide the subsequent representation. In the feature space, we propose to 'conquer' the false activation by enhancing semantic representation with multi-granularity knowledge contrast. To this end, a dual-teacher-single-student architecture is designed and tag-guided contrast is conducted to guarantee the correctness of knowledge and further facilitate the discrepancy among co-occurring objects. We streamline the multi-staged WSSS pipeline end-to-end and tackle co-occurrence without external supervision. Extensive experiments are conducted, validating the efficiency of our method tackling co-occurrence and the superiority over previous single-staged and even multi-staged competitors on PASCAL VOC and MS COCO. Code will be available.
翻訳日:2024-02-29 14:15:37 公開日:2024-02-28
# AI生成コンテンツがソーシャルメディアに与える影響を理解する:Pixivの場合

Understanding the Impact of AI Generated Content on Social Media: The Pixiv Case ( http://arxiv.org/abs/2402.18463v1 )

ライセンス: Link先を確認
Yiluo Wei and Gareth Tyson(参考訳) この2年間、AIGC(Artificial Intelligence Generated Content)は大きな注目を集めており、ソーシャルメディアプラットフォームを介して共有されるAIGCの爆発的な増加につながっている。 aigcの影響とその影響は、政策の実行、コミュニティ形成、アルゴリズム設計など、社会プラットフォームにとって重要な意味を持つ。 しかし、これまでのところ、AIGCの到来がソーシャルメディアのエコシステムにどんな影響を及ぼしたかはほとんどわかっていない。 このギャップを埋めるために、我々はPixivを総合的に研究する。Pixivは、イラストの共有とフィードバックを希望するアーティストのためのオンラインコミュニティだ。 Pixivは1億以上の芸術作品をホストし、月間10億ページビューを受け取った(2023年現在)。 重要なのは、人間とAIが生成したコンテンツの両方をアップロードできることだ。 そこで私たちは、Pixivのレンズを通して、AIGCがソーシャルメディアエコシステムに与える影響を初めて分析しました。 240万のAI生成画像を含む1520万の投稿のデータセットに基づいて、我々は、AIGCがPixivコミュニティに与える影響、およびコンテンツ生成と消費パターンの観点からAIGCと人為的コンテンツの違いを測定する。 我々の結果は、AIGCがPixivのようなソーシャルメディアプラットフォームのダイナミクスをどのように変えつつあるか、重要な洞察を与えてくれる。

In the last two years, Artificial Intelligence Generated Content (AIGC) has received significant attention, leading to an anecdotal rise in the amount of AIGC being shared via social media platforms. The impact of AIGC and its implications are of key importance to social platforms, e.g., regarding the implementation of policies, community formation, and algorithmic design. Yet, to date, we know little about how the arrival of AIGC has impacted the social media ecosystem. To fill this gap, we present a comprehensive study of Pixiv, an online community for artists who wish to share and receive feedback on their illustrations. Pixiv hosts over 100 million artistic submissions and receives more than 1 billion page views per month (as of 2023). Importantly, it allows both human and AI generated content to be uploaded. Exploiting this, we perform the first analysis of the impact that AIGC has had on the social media ecosystem, through the lens of Pixiv. Based on a dataset of 15.2 million posts (including 2.4 million AI-generated images), we measure the impact of AIGC on the Pixiv community, as well as the differences between AIGC and human-generated content in terms of content creation and consumption patterns. Our results offer key insight to how AIGC is changing the dynamics of social media platforms like Pixiv.
翻訳日:2024-02-29 14:15:07 公開日:2024-02-28
# 大規模言語モデルからの埋め込みを促すメタタスク

Meta-Task Prompting Elicits Embedding from Large Language Models ( http://arxiv.org/abs/2402.18458v1 )

ライセンス: Link先を確認
Yibin Lei, Di Wu, Tianyi Zhou, Tao Shen, Yu Cao, Chongyang Tao, Andrew Yates(参考訳) そこで本研究では,大言語モデル (llm) から,モデルを微調整したりタスク固有のエンジニアリングを必要とせずに高品質な文埋め込みを生成するための,明示的な一単語制限(metaeol)を伴う新しい教師なし埋め込み手法であるメタタスクプロンプトを提案する。 メタタスクプロンプトを活用して、MetaEOLは、複数の表現的側面に対処する、慎重に設計された一連のプロンプトを通じて、LDMを誘導して埋め込みを生成する。 総合的な実験により,様々なメタタスクから平均される組込みが,semantic textual similarity (sts) ベンチマークと excel を下流タスクで比較し,コントラスト学習したモデルに匹敵するパフォーマンスをもたらすことを示した。 本研究は,多種多様な文中心のシナリオにまたがって,多種多様で資源効率のよい手法を組み込んだ埋め込み生成法を提案する。

In this work, we introduce a new unsupervised embedding method, Meta-Task Prompting with Explicit One-Word Limitation (MetaEOL), for generating high-quality sentence embeddings from Large Language Models (LLMs) without the need for model fine-tuning or task-specific engineering. Leveraging meta-task prompting, MetaEOL guides LLMs to produce embeddings through a series of carefully designed prompts that address multiple representational aspects. Our comprehensive experiments demonstrate that embeddings averaged from various meta-tasks yield competitive performance on Semantic Textual Similarity (STS) benchmarks and excel in downstream tasks, surpassing contrastive-trained models. Our findings suggest a new scaling law for embedding generation, offering a versatile, resource-efficient approach for embedding extraction across diverse sentence-centric scenarios.
翻訳日:2024-02-29 14:14:45 公開日:2024-02-28
# MambaMIR: 関節画像再構成と不確かさ推定のための任意マスクマンバ

MambaMIR: An Arbitrary-Masked Mamba for Joint Medical Image Reconstruction and Uncertainty Estimation ( http://arxiv.org/abs/2402.18451v1 )

ライセンス: Link先を確認
Jiahao Huang, Liutao Yang, Fanwen Wang, Yinzhe Wu, Yang Nan, Angelica I. Aviles-Rivero, Carola-Bibiane Sch\"onlieb, Daoqiang Zhang and Guang Yang(参考訳) 最近のMambaモデルは、医用画像タスクを含む視覚表現学習に顕著な適応性を示している。 本研究では,マンバをベースとした医用画像再構成モデルであるMambaMIRと,そのGenerative Adversarial Network-based variantであるMambaMIR-GANを紹介する。 提案したMambaMIRは,線形複雑性,大域受容場,動的重み付けなどの利点を元のMambaモデルから継承する。 革新的任意マスク機構は,マンバを画像再構成作業に効果的に適用し,その後のモンテカルロによる不確実性推定にランダム性を与える。 膝, 胸, 腹部などの解剖学的領域をカバーする高速MRI, SVCT などの医療画像再構成作業において, MambaMIR と MambaMIR-GAN が, 最先端の方法と比較して, 同等あるいは優れた再建成績を示した。 さらに、推定不確実性マップは、復元品質の信頼性に関するさらなる洞察を提供する。 コードはhttps://github.com/ayanglab/MambaMIR.comで公開されている。

The recent Mamba model has shown remarkable adaptability for visual representation learning, including in medical imaging tasks. This study introduces MambaMIR, a Mamba-based model for medical image reconstruction, as well as its Generative Adversarial Network-based variant, MambaMIR-GAN. Our proposed MambaMIR inherits several advantages, such as linear complexity, global receptive fields, and dynamic weights, from the original Mamba model. The innovated arbitrary-mask mechanism effectively adapt Mamba to our image reconstruction task, providing randomness for subsequent Monte Carlo-based uncertainty estimation. Experiments conducted on various medical image reconstruction tasks, including fast MRI and SVCT, which cover anatomical regions such as the knee, chest, and abdomen, have demonstrated that MambaMIR and MambaMIR-GAN achieve comparable or superior reconstruction results relative to state-of-the-art methods. Additionally, the estimated uncertainty maps offer further insights into the reliability of the reconstruction quality. The code is publicly available at https://github.com/ayanglab/MambaMIR.
翻訳日:2024-02-29 14:14:28 公開日:2024-02-28
# 量子コンピュータによるトラベルセールスマン問題を解決するために、量子ビット数を$n^2$から$n\log_{2} (n)$に削減する: nisq時代の量子超越性を示すための提案

Reducing the Number of Qubits from $n^2$ to $n\log_{2} (n)$ to Solve the Traveling Salesman Problem with Quantum Computers: A Proposal for Demonstrating Quantum Supremacy in the NISQ Era ( http://arxiv.org/abs/2402.18530v1 )

ライセンス: Link先を確認
Mehdi Ramezani, Sadegh Salami, Mehdi Shokhmkar, Morteza Moradi and Alireza Bahrampour(参考訳) 本研究は,nisq時代の量子超越性の追求において,量子近似最適化アルゴリズム (qaoa) を基盤とする新しいアプローチを導入し,トラベルセールスマン問題 (tsp) に対処する。 所要のキュービット数を$n^2$から$n\log_{2} (n)$に戦略的に削減することにより、我々のQAOAベースのアルゴリズムは、キュービット効率に関する現在進行中の議論に寄与するだけでなく、確立されたメトリクスに基づくパフォーマンスの向上も示し、実世界の最適化課題の解決におけるNISQ時代の優位性の実現の可能性を示している。

In our pursuit of quantum supremacy during the NISQ era, this research introduces a novel approach rooted in the Quantum Approximate Optimization Algorithm (QAOA) framework to address the Traveling Salesman Problem (TSP). By strategically reducing the requisite qubit count from $n^2$ to $n\log_{2} (n)$, our QAOA-based algorithm not only contributes to the ongoing discourse on qubit efficiency but also demonstrates improved performance based on established metrics, underscoring its potential for achieving NISQ-era supremacy in solving real-world optimization challenges.
翻訳日:2024-02-29 14:08:24 公開日:2024-02-28
# グラデーションリ重み付け:不均衡なクラスインクリメンタル学習に向けて

Gradient Reweighting: Towards Imbalanced Class-Incremental Learning ( http://arxiv.org/abs/2402.18528v1 )

ライセンス: Link先を確認
Jiangpeng He and Fengqing Zhu(参考訳) CIL(Class-Incremental Learning)は、学習知識を維持しながら、非定常データから新しいクラスを継続的に認識するようにモデルを訓練する。 CILの大きな課題は、非一様分布を特徴とする実世界のデータに適用する際に生じる。 (i)古いタスクの記憶された例と新しいクラスデータ(相間不均衡)の相違 (ii)各タスク内の重度クラス不均衡(相内不均衡) この二重不均衡問題により、FC層に偏りのある勾配更新が生じ、CILの過度/過度な適合と破滅的な忘れが生じる。 提案手法は,バランスのとれた最適化と偏りのない分類学習に向けて勾配を重み付けすることで対処する。 さらに, 学習段階において, 学習データ量が多くなるため, CIL中において, パラドックス的にインスタンスリッチクラスが高い性能劣化を被る不均衡な記憶を観察する。 そこで本研究では, 学習データの分布に比例して出力ロジットを調整することにより, 忘れを緩和するために, 分布認識型知識蒸留損失を導入する。 提案手法は,cifar-100,imagenetsubset,food101を様々な評価プロトコルで検証し,既存の手法と比較して一貫性のある改善を示す。

Class-Incremental Learning (CIL) trains a model to continually recognize new classes from non-stationary data while retaining learned knowledge. A major challenge of CIL arises when applying to real-world data characterized by non-uniform distribution, which introduces a dual imbalance problem involving (i) disparities between stored exemplars of old tasks and new class data (inter-phase imbalance), and (ii) severe class imbalances within each individual task (intra-phase imbalance). We show that this dual imbalance issue causes skewed gradient updates with biased weights in FC layers, thus inducing over/under-fitting and catastrophic forgetting in CIL. Our method addresses it by reweighting the gradients towards balanced optimization and unbiased classifier learning. Additionally, we observe imbalanced forgetting where paradoxically the instance-rich classes suffer higher performance degradation during CIL due to a larger amount of training data becoming unavailable in subsequent learning phases. To tackle this, we further introduce a distribution-aware knowledge distillation loss to mitigate forgetting by aligning output logits proportionally with the distribution of lost training data. We validate our method on CIFAR-100, ImageNetSubset, and Food101 across various evaluation protocols and demonstrate consistent improvements compared to existing works, showing great potential to apply CIL in real-world scenarios with enhanced robustness and effectiveness.
翻訳日:2024-02-29 14:08:05 公開日:2024-02-28
# タイヤx線画像における欠陥検出:従来の深部構造法

Defect Detection in Tire X-Ray Images: Conventional Methods Meet Deep Structures ( http://arxiv.org/abs/2402.18527v1 )

ライセンス: Link先を確認
Andrei Cozma, Landon Harris, Hairong Qi, Ping Ji, Wenpeng Guo, Song Yuan(参考訳) 本稿では,局所二分パターン (lbp) やグレーレベル共起行列 (glcm) などの従来の特徴抽出手法や,フーリエおよびウェーブレットに基づく特徴を機械学習の高度な手法で補完することにより,タイヤx線画像の自動欠陥検出のためのロバストな手法を提案する。 タイヤx線画像の複雑なパターンとテクスチャに内在する課題を認識し,欠陥検出システムの性能向上における特徴工学の重要性を強調した。 これらの特徴とランダムフォレスト(RF)分類器を巧みに統合し、YOLOv8のような先進モデルと比較することにより、この研究は欠陥検出における従来の特徴のパフォーマンスをベンチマークするだけでなく、古典的アプローチと近代的アプローチの相乗効果も探求している。 実験結果から,これらの従来の特徴と機械学習モデルを組み合わせることで,タイヤ欠陥検出の精度と信頼性が向上し,タイヤ製造における品質自動保証の新たな標準が確立されることが示唆された。

This paper introduces a robust approach for automated defect detection in tire X-ray images by harnessing traditional feature extraction methods such as Local Binary Pattern (LBP) and Gray Level Co-Occurrence Matrix (GLCM) features, as well as Fourier and Wavelet-based features, complemented by advanced machine learning techniques. Recognizing the challenges inherent in the complex patterns and textures of tire X-ray images, the study emphasizes the significance of feature engineering to enhance the performance of defect detection systems. By meticulously integrating combinations of these features with a Random Forest (RF) classifier and comparing them against advanced models like YOLOv8, the research not only benchmarks the performance of traditional features in defect detection but also explores the synergy between classical and modern approaches. The experimental results demonstrate that these traditional features, when fine-tuned and combined with machine learning models, can significantly improve the accuracy and reliability of tire defect detection, aiming to set a new standard in automated quality assurance in tire manufacturing.
翻訳日:2024-02-29 14:07:40 公開日:2024-02-28
# 最小測定値をもつGME状態のほぼデバイス非依存認証

Almost device-independent certification of GME states with minimal measurements ( http://arxiv.org/abs/2402.18522v1 )

ライセンス: Link先を確認
Shubhayan Sarkar, Alexandre C. Orthey, Jr., Gautam Sharma, Remigiusz Augusiak(参考訳) デバイスに依存しない量子状態の認証は、最小限の物理仮定をすることでデバイス内部に存在する量子状態の特徴づけを可能にする。 この点における大きな問題は、最小限の資源を用いて量子状態を検証することである。 本研究では、任意の数のパーティを持つマルチパーティの量子ステアリングシナリオを考えるが、信頼できるパーティによる測定が知られているという意味で信頼されているのは1つだけである。 したがって、自己検査方式はほぼデバイスに依存しない。 重要なことに、すべての当事者は2つの測定しか行えず、これは量子非局所性のあらゆる形態を観測するのに必要となる最小限の測定数である。 そして、本項では、真に多重部分交絡(GME)状態の3つの主要なクラス、任意の局所次元のグラフ状態、2、任意の局所次元のシュミット状態、3、3、$N$-qubit generalized W状態によって最大に違反するステアリング不等式を提案する。 提案した不等式を用いて、上記GME状態のほぼデバイスに依存しない認証を行う。

Device-independent certification of quantum states allows the characterization of quantum states present inside a device by making minimal physical assumptions. A major problem in this regard is to certify quantum states using minimal resources. In this work, we consider the multipartite quantum steering scenario with an arbitrary number of parties but only one of which is trusted in the sense that the measurements performed by the trusted party are known. Consequently, the self-testing scheme is almost device-independent. Importantly, all the parties can only perform two measurements each which is the minimal number of measurements required to observe any form of quantum nonlocality. Then, we propose steering inequalities that are maximally violated by three major classes of genuinely multipartite entangled (GME) states, one, graph states of arbitrary local dimension, two, Schmidt states of arbitrary local dimension, and, three, $N$-qubit generalized W states. Using the proposed inequalities, we then provide an almost device-independent certification of the above GME states.
翻訳日:2024-02-29 14:07:19 公開日:2024-02-28
# 超伝導量子ビットのゲート演算と非マルコフ性:フィダリティ、長距離時間相関、デコヒーレンスの抑制

Gate Operations for Superconducting Qubits and Non-Markovianity: Fidelities, Long-range Time Correlations, and Suppression of Decoherence ( http://arxiv.org/abs/2402.18518v1 )

ライセンス: Link先を確認
Kiyoto Nakamura, Joachim Ankerhold(参考訳) 量子ビット演算の精度は過去10年間に大幅に改善されてきたが、最終的な目標であるフォールトトレラントな量子コンピュータは、従来のコンピュータよりも現実の問題を効率的に解くことができる。 量子ビット保存相関や非マルコフ力学といった環境ノイズの微妙な影響が、回路設計と制御の両方に焦点を合わせている。 進行を導くため,広帯域のノイズ源とゲート操作の全シーケンスが存在する場合の単一量子力学の包括的図面を,数値的に厳密な方法で明らかにした。 Ohmic から Deep $1/f^{\varepsilon}$-like sub-Ohmic behavior は超伝導量子ビットの現実的なシナリオを模倣すると考えられている。 動的特徴とは別に、2つの図形が解析され、すなわち、シーケンス全体の量子ビット性能の忠実さと、ハーンエコーや動的疎結合のような量子制御スキームの存在下でのコヒーレンス時間である。 遅延されたフィードバックと長距離の量子保存相関の関連性を定量的に示し、現在のデバイスの性能の限界をより深く理解し、将来のデバイスの設計を導く。

While the accuracy of qubit operations has been greatly improved in the last decade, further development is demanded to achieve the ultimate goal: a fault-tolerant quantum computer that can solve real-world problems more efficiently than classical computers. With growing fidelities even subtle effects of environmental noise such as qubit-reservoir correlations and non-Markovian dynamics turn into the focus for both circuit design and control. To guide progress, we disclose, in a numerically rigorous manner, a comprehensive picture of the single-qubit dynamics in presence of a broad class of noise sources and for entire sequences of gate operations. Thermal reservoirs ranging from Ohmic to deep $1/f^{\varepsilon}$-like sub-Ohmic behavior are considered to imitate realistic scenarios for superconducting qubits. Apart from dynamical features, two figures of merit are analyzed, namely, fidelities of the qubit performance over entire sequences and coherence times in presence of quantum control schemes such as the Hahn echo and dynamical decoupling. The relevance of retarded feedback and long-range qubit-reservoir correlations is demonstrated on a quantitative level, thus, providing a deeper understanding of the limitations of performances for current devices and guiding the design of future ones.
翻訳日:2024-02-29 14:07:00 公開日:2024-02-28
# ログニューラル制御の微分方程式: リーブラケットは差分を作る

Log Neural Controlled Differential Equations: The Lie Brackets Make a Difference ( http://arxiv.org/abs/2402.18512v1 )

ライセンス: Link先を確認
Benjamin Walker, Andrew D. McLeod, Tiexin Qin, Yichuan Cheng, Haoliang Li, Terry Lyons(参考訳) 制御微分方程式(cde)のベクトル場は、制御経路と解経路の進化との関係を記述する。 ニューラルCDE(NCDE)は、時系列データを制御パスからの観測として扱い、ニューラルネットワークを使用してCDEのベクトルフィールドをパラメータ化し、ソリューションパスを継続的な進化した隠れ状態として使用する。 それらの定式化によって不規則サンプリングレートが堅牢になるため、NCDEは実世界のデータをモデル化するための強力なアプローチである。 ニューラル粗微分方程式 (NRDE) に基づいて, NCDE を訓練するための新しい効果的な方法である Log-NCDE を導入する。 log-ncdes の中核コンポーネントは log-ode 法であり、cde の解を近似するための粗い経路の研究から得られたツールである。 多変量時系列分類のベンチマークでは、ログ-NCDEはNCDE、NRDE、および2つの最先端モデルであるS5と線形リカレントユニットよりも平均テストセットの精度が高いことが示されている。

The vector field of a controlled differential equation (CDE) describes the relationship between a control path and the evolution of a solution path. Neural CDEs (NCDEs) treat time series data as observations from a control path, parameterise a CDE's vector field using a neural network, and use the solution path as a continuously evolving hidden state. As their formulation makes them robust to irregular sampling rates, NCDEs are a powerful approach for modelling real-world data. Building on neural rough differential equations (NRDEs), we introduce Log-NCDEs, a novel and effective method for training NCDEs. The core component of Log-NCDEs is the Log-ODE method, a tool from the study of rough paths for approximating a CDE's solution. On a range of multivariate time series classification benchmarks, Log-NCDEs are shown to achieve a higher average test set accuracy than NCDEs, NRDEs, and two state-of-the-art models, S5 and the linear recurrent unit.
翻訳日:2024-02-29 14:06:38 公開日:2024-02-28
# RNNはトランスフォーマーではない (Yet): In-context Retrieval におけるキーブートネック

RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval ( http://arxiv.org/abs/2402.18510v1 )

ライセンス: Link先を確認
Kaiyue Wen, Xingyu Dang, Kaifeng Lyu(参考訳) 本稿では,アルゴリズム問題の解法におけるリカレントニューラルネットワーク(RNN)とトランスフォーマーの表現力のギャップについて検討する。 我々は,長いシーケンスの処理においてメモリ効率が知られているRNNが,特にChain-of-Thought(CoT)のプロンプトによって強化された場合,トランスフォーマーの性能にマッチするかどうかを理解することに注力する。 理論的解析により、CoTはRNNを改善するが、トランスフォーマーとのギャップを埋めるには不十分であることが判明した。 連想的リコールやグラフが木であるかどうかの判断といった、明示的あるいは暗黙的にこの能力を必要とするいくつかのタスクにおいて、rnnは、トランスフォーマーが容易に解決できる一方で、タスクを解決するのに十分な表現力を持っていないことを証明します。 逆に,Retrieval-Augmented Generation (RAG) や単一トランスフォーマー層の追加など,RNNのコンテキスト内検索能力を向上する手法を採用することにより,CoT による多項式時間解決可能な問題を全て解き、変換器との表現ギャップを埋めることができることを示す。

This paper investigates the gap in representation powers of Recurrent Neural Networks (RNNs) and Transformers in the context of solving algorithmic problems. We focus on understanding whether RNNs, known for their memory efficiency in handling long sequences, can match the performance of Transformers, particularly when enhanced with Chain-of-Thought (CoT) prompting. Our theoretical analysis reveals that CoT improves RNNs but is insufficient to close the gap with Transformers. A key bottleneck lies in the inability of RNNs to perfectly retrieve information from the context, even with CoT: for several tasks that explicitly or implicitly require this capability, such as associative recall and determining if a graph is a tree, we prove that RNNs are not expressive enough to solve the tasks while Transformers can solve them with ease. Conversely, we prove that adopting techniques to enhance the in-context retrieval capability of RNNs, including Retrieval-Augmented Generation (RAG) and adding a single Transformer layer, can elevate RNNs to be capable of solving all polynomial-time solvable problems with CoT, hence closing the representation gap with Transformers.
翻訳日:2024-02-29 14:06:18 公開日:2024-02-28
# Orchid: シーケンスモデリングのためのフレキシブルでデータ依存の畳み込み

Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling ( http://arxiv.org/abs/2402.18508v1 )

ライセンス: Link先を確認
Mahdi Karami and Ali Ghodsi(参考訳) ディープラーニングの急速な発展の中で、表現力と計算効率のバランスをとるモデルの探求は、決して重要ではない。 本稿では,新しいデータ依存畳み込み機構を取り入れ,シーケンスモデリングを再考する新しいアーキテクチャであるorchidを提案する。 Orchidは、長距離依存やコンテキスト内学習をキャプチャする能力を損なうことなく、従来の注意機構、特にその二次的な複雑さの固有の制限に対処するように設計されている。 orchidの中核はデータ依存畳み込み層であり、専用の条件付きニューラルネットワークを使用して、入力データに条件付けられたカーネルを動的に調整する。 適応畳み込み演算においてシフト等分散を維持する2つの単純な条件付きネットワークを設計する。 データ依存型畳み込みカーネルの動的性質は、ゲーティング操作と相まって、オーキッド高表現性を付与し、長いシーケンスの効率性と準線形スケーラビリティを維持する。 言語モデリングや画像分類など,複数の領域にわたるOrchidを厳格に評価し,その性能と汎用性を示す。 実験により,Orchid アーキテクチャは BERT や Vision Transformer などの従来の注目型アーキテクチャよりも小さいモデルサイズで性能を向上するだけでなく,高密度アテンション層の限界を超えて,実行可能なシーケンス長を延長することを示した。 この成果は、シーケンスモデリングのためのより効率的でスケーラブルなディープラーニングモデルに向けた重要なステップである。

In the rapidly evolving landscape of deep learning, the quest for models that balance expressivity with computational efficiency has never been more critical. This paper introduces Orchid, a novel architecture that reimagines sequence modeling by incorporating a new data-dependent convolution mechanism. Orchid is designed to address the inherent limitations of traditional attention mechanisms, particularly their quadratic complexity, without compromising the ability to capture long-range dependencies and in-context learning. At the core of Orchid lies the data-dependent convolution layer, which dynamically adjusts its kernel conditioned on input data using a dedicated conditioning neural network. We design two simple conditioning networks that maintain shift equivariance in the adaptive convolution operation. The dynamic nature of data-dependent convolution kernel, coupled with gating operations, grants Orchid high expressivity while maintaining efficiency and quasilinear scalability for long sequences. We rigorously evaluate Orchid across multiple domains, including language modeling and image classification, to showcase its performance and generality. Our experiments demonstrate that Orchid architecture not only outperforms traditional attention-based architectures such as BERT and Vision Transformers with smaller model sizes, but also extends the feasible sequence length beyond the limitations of the dense attention layers. This achievement represents a significant step towards more efficient and scalable deep learning models for sequence modeling.
翻訳日:2024-02-29 14:05:54 公開日:2024-02-28
# マルチモーダル学習によるシネmr画像からの心後期機械的活性化検出の改善

Multimodal Learning To Improve Cardiac Late Mechanical Activation Detection From Cine MR Images ( http://arxiv.org/abs/2402.18507v1 )

ライセンス: Link先を確認
Jiarui Xing, Nian Wu, Kenneth Bilchick, Frederick Epstein, Miaomiao Zhang(参考訳) 本稿では,高度な画像技術を用いて,日常的に取得される標準画像に強く依存する臨床分析の性能を向上させるマルチモーダル深層学習フレームワークを提案する。 具体的には,DENSE(Displacement Encoding with Stimulated Echo)から得られた心筋ひずみの精度と再現性を初めて活用した共同学習ネットワークを構築し,後期機械的活性化(LMA)検出における心臓磁気共鳴(CMR)画像の解析を指導する。 画像登録ネットワークを用いて、標準シネCMRからひずみ値の重要特徴推定器である心臓運動の知識を取得する。 私たちのフレームワークは2つの主要なコンポーネントで構成されています。 (i)登録ネットワークから学習した潜伏運動の特徴を生かして心筋ストレインを予測する高密度教師付きストレインネットワーク、 (II) 予測ひずみを利用して効率的なLMA検出を行うLMAネットワーク。 実験結果から,DENSEの成果とより密に一致したシネCMR画像からのひずみ解析とLMA検出の性能が大幅に向上することが示唆された。

This paper presents a multimodal deep learning framework that utilizes advanced image techniques to improve the performance of clinical analysis heavily dependent on routinely acquired standard images. More specifically, we develop a joint learning network that for the first time leverages the accuracy and reproducibility of myocardial strains obtained from Displacement Encoding with Stimulated Echo (DENSE) to guide the analysis of cine cardiac magnetic resonance (CMR) imaging in late mechanical activation (LMA) detection. An image registration network is utilized to acquire the knowledge of cardiac motions, an important feature estimator of strain values, from standard cine CMRs. Our framework consists of two major components: (i) a DENSE-supervised strain network leveraging latent motion features learned from a registration network to predict myocardial strains; and (ii) a LMA network taking advantage of the predicted strain for effective LMA detection. Experimental results show that our proposed work substantially improves the performance of strain analysis and LMA detection from cine CMR images, aligning more closely with the achievements of DENSE.
翻訳日:2024-02-29 14:05:30 公開日:2024-02-28
# 対話型AutoMLによる機械学習ワークフローの進化

Evolving machine learning workflows through interactive AutoML ( http://arxiv.org/abs/2402.18505v1 )

ライセンス: Link先を確認
Rafael Barbudo and Aurora Ram\'irez and Jos\'e Ra\'ul Romero(参考訳) 自動ワークフロー合成(AWC)は、機械学習(AutoML)において関連する問題であり、最適なハイパーパラメータとともに、事前処理と予測モデルの適切なシーケンスを見つけることができる。 この問題は進化的アルゴリズム、特に文法誘導遺伝的プログラミング(G3P)を用いて解決することができる。 AWCへの現在のG3Pアプローチは、ワークフロー要素をどのように組み合わせるか、どのアルゴリズムを含めるかを正式に規定する固定文法を定義する。 本稿では,対話型G3Pアルゴリズムである \ourmethodを提案する。 本提案は,g3p手法の利点と,automlの文脈ではほとんど研究されていない,インタラクティブな最適化とヒューマンガイド付き機械学習のアイデアを組み合わせた最初の提案である。 このアプローチを評価するために,20名の参加者が \ourmethod と対話し,好みに応じてワークフローを進化させる実験を行った。 その結果,人間と \ourmethod の協調によって,人間の介入なしに発見されたものよりもチューニング時間が少ない精度でハイパフォーマンスなワークフローを見つけることができた。

Automatic workflow composition (AWC) is a relevant problem in automated machine learning (AutoML) that allows finding suitable sequences of preprocessing and prediction models together with their optimal hyperparameters. This problem can be solved using evolutionary algorithms and, in particular, grammar-guided genetic programming (G3P). Current G3P approaches to AWC define a fixed grammar that formally specifies how workflow elements can be combined and which algorithms can be included. In this paper we present \ourmethod, an interactive G3P algorithm that allows users to dynamically modify the grammar to prune the search space and focus on their regions of interest. Our proposal is the first to combine the advantages of a G3P method with ideas from interactive optimisation and human-guided machine learning, an area little explored in the context of AutoML. To evaluate our approach, we present an experimental study in which 20 participants interact with \ourmethod to evolve workflows according to their preferences. Our results confirm that the collaboration between \ourmethod and humans allows us to find high-performance workflows in terms of accuracy that require less tuning time than those found without human intervention.
翻訳日:2024-02-29 14:05:13 公開日:2024-02-28
# 都市交通ビデオにおけるマイクロモビリティ車両の検出

Detection of Micromobility Vehicles in Urban Traffic Videos ( http://arxiv.org/abs/2402.18503v1 )

ライセンス: Link先を確認
Khalil Sabri, C\'elia Djilali, Guillaume-Alexandre Bilodeau, Nicolas Saunier, Wassim Bouachir(参考訳) 都市交通環境は、特に電動スクーターや自転車のようなマイクロモビリティー車両の存在が増加する中で、物体検出に特有の課題を呈している。 このオブジェクト検出問題に対処するため、本研究では、単一フレームオブジェクト検出の精度と速度と、ビデオオブジェクト検出フレームワークが提供するよりリッチな機能を組み合わせた適応型検出モデルを導入する。 これは、移動フローによって処理された連続フレームから集約された特徴写像をYOLOXアーキテクチャに適用することで実現される。 この融合は、YOLOX検出能力に時間的視点をもたらし、都市移動パターンをよりよく理解し、検出信頼性を大幅に向上させる。 都市マイクロモビリティシナリオ用にキュレートされたカスタムデータセット上でテストした結果,既存の最先端手法よりも大幅に改善され,このような小さく薄い物体を検出するための時空間情報を考慮する必要性が示された。 本手法は, 咬合, 時間的一貫性の確保, 運動のぼかしの効果的緩和など, 困難な条件下での検出性を高める。

Urban traffic environments present unique challenges for object detection, particularly with the increasing presence of micromobility vehicles like e-scooters and bikes. To address this object detection problem, this work introduces an adapted detection model that combines the accuracy and speed of single-frame object detection with the richer features offered by video object detection frameworks. This is done by applying aggregated feature maps from consecutive frames processed through motion flow to the YOLOX architecture. This fusion brings a temporal perspective to YOLOX detection abilities, allowing for a better understanding of urban mobility patterns and substantially improving detection reliability. Tested on a custom dataset curated for urban micromobility scenarios, our model showcases substantial improvement over existing state-of-the-art methods, demonstrating the need to consider spatio-temporal information for detecting such small and thin objects. Our approach enhances detection in challenging conditions, including occlusions, ensuring temporal consistency, and effectively mitigating motion blur.
翻訳日:2024-02-29 14:04:51 公開日:2024-02-28
# フェアネス : LLMのフェアネス・アウェア分類の可能性

Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware Classification ( http://arxiv.org/abs/2402.18502v1 )

ライセンス: Link先を確認
Garima Chhikara, Anurag Sharma, Kripabandhu Ghosh, Abhijnan Chakraborty(参考訳) 分類などの下流の様々なアプリケーションにLLM(Large Language Models)を採用することは、特にモデルを微調整するために必要な専門知識とリソースを欠いている小規模企業にとって重要である。 LLMの公正さは、人種、性別などの要因に基づく平等な表現と、責任あるAIデプロイメントの促進に役立つ。 LLMの使用がますます広まってきており、公平性を考慮した場合、LCMが公正な結果をもたらすかどうかを評価することが不可欠である。 本研究では,様々なフェアネス定義に適合するフェアネス規則を概説し,それぞれの定義を抽象度によって変調する枠組みを提案する。 本稿では,コンテキスト内学習の構成とragを用いたコンテキスト内デモの選択手順について検討し,そのプロセスにフェアネスルールを組み込む。 異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。 この研究は、文脈内学習を通じてLLMを利用して予測タスクの公平性を達成するための初期の試みの1つである。

Employing Large Language Models (LLM) in various downstream applications such as classification is crucial, especially for smaller companies lacking the expertise and resources required for fine-tuning a model. Fairness in LLMs helps ensure inclusivity, equal representation based on factors such as race, gender and promotes responsible AI deployment. As the use of LLMs has become increasingly prevalent, it is essential to assess whether LLMs can generate fair outcomes when subjected to considerations of fairness. In this study, we introduce a framework outlining fairness regulations aligned with various fairness definitions, with each definition being modulated by varying degrees of abstraction. We explore the configuration for in-context learning and the procedure for selecting in-context demonstrations using RAG, while incorporating fairness rules into the process. Experiments conducted with different LLMs indicate that GPT-4 delivers superior results in terms of both accuracy and fairness compared to other models. This work is one of the early attempts to achieve fairness in prediction tasks by utilizing LLMs through in-context learning.
翻訳日:2024-02-29 14:04:33 公開日:2024-02-28
# 1Dギブス状態の条件付き独立と効率的な学習への応用

Conditional Independence of 1D Gibbs States with Applications to Efficient Learning ( http://arxiv.org/abs/2402.18500v1 )

ライセンス: Link先を確認
Paul Gondolf, Samuel O. Scalet, Alberto Ruiz-de-Alarcon, Alvaro M. Alhambra and Angela Capel(参考訳) 熱平衡におけるスピン鎖の相関構造は, 個々の領域が近傍と強く相関していることを示す。 我々はこれを、いわゆるBelavkin-Staszewski相対エントロピーによって定義される条件付き相互情報の代替概念で定量化する。 これらの測度はスピン鎖ハミルトンが変換不変であるという仮定の下で超指数的に減衰する。 これらの測度に付随するリカバリマップを用いて、小さな(準対数的な)大きさの辺数でテンソルネットワーク近似を逐次構築する。 主要な応用として,多項式サンプルの複雑性を伴う局所的な測定から,状態の古典表現を効率的に学習できることを示す。 また,ギブス状態全体の純度について近似分解条件を証明し,少数の局所測定値から小さな乗算誤差に効率的に推定できることを示唆した。 独立関心の技術的なステップとして、条件付き期待の適用によるベラブキン・スタシェウスキー相対エントロピーの崩壊に対する上限を示す。

We show that spin chains in thermal equilibrium have a correlation structure in which individual regions are strongly correlated at most with their near vicinity. We quantify this with alternative notions of the conditional mutual information defined through the so-called Belavkin-Staszewski relative entropy. We prove that these measures decay super-exponentially, under the assumption that the spin chain Hamiltonian is translation-invariant. Using a recovery map associated with these measures, we sequentially construct tensor network approximations in terms of marginals of small (sub-logarithmic) size. As a main application, we show that classical representations of the states can be learned efficiently from local measurements with a polynomial sample complexity. We also prove an approximate factorization condition for the purity of the entire Gibbs state, which implies that it can be efficiently estimated to a small multiplicative error from a small number of local measurements. As a technical step of independent interest, we show an upper bound to the decay of the Belavkin-Staszewski relative entropy upon the application of a conditional expectation.
翻訳日:2024-02-29 14:04:15 公開日:2024-02-28
# Schr\'odinger方程式の正確な解について

On the exact solution for the Schr\"odinger equation ( http://arxiv.org/abs/2402.18499v1 )

ライセンス: Link先を確認
Yair Mulian(参考訳) 約75年間、シュル=オディンガー方程式の一般解はダイソン級数として知られる時間順指数によって生成されると仮定された。 この解のユニタリティが壊れている条件の下で議論し、追加の特異ダイナミクスが出現する。 次に、ハミルトニアンの選択によらず、明らかにユニタリである別の構成を提供し、その影響の様々な側面を研究する。 新しい構成には、非段階的な方法で進化する追加の自己随伴演算子が含まれる。 ゲージ理論の対応するダイナミクスは、測度 0$ で遷移を行う特異なリウヴィル方程式によって支配される集合的対象の振る舞いを示す。 我々の考察は、シュル・オーディンガーとリウヴィルの方程式が実際に同じコインの2つの側面であり、共に量子系の統一的な記述となることを示している。

For almost 75 years, the general solution for the Schr\"odinger equation was assumed to be generated by a time-ordered exponential known as the Dyson series. We discuss under which conditions the unitarity of this solution is broken, and additional singular dynamics emerges. Then, we provide an alternative construction that is manifestly unitary, regardless of the choice of the Hamiltonian, and study various aspects of the implications. The new construction involves an additional self-adjoint operator that might evolve in a non-gradual way. Its corresponding dynamics for gauge theories exhibit the behavior of a collective object governed by a singular Liouville's equation that performs transitions at a measure $0$ set. Our considerations show that Schr\"odinger's and Liouville's equations are, in fact, two sides of the same coin, and together they become the unified description of quantum systems.
翻訳日:2024-02-29 14:03:57 公開日:2024-02-28
# 自己と他者の信念を表す言語モデル

Language Models Represent Beliefs of Self and Others ( http://arxiv.org/abs/2402.18496v1 )

ライセンス: Link先を確認
Wentao Zhu, Zhining Zhang, Yizhou Wang(参考訳) 心の理論 (ToM) として知られる精神状態の理解と帰属は、人間の社会的推論の基本的な能力として現れる。 大きな言語モデル(LLM)は特定のToM能力を持っているように見えるが、これらの能力の基盤となるメカニズムはいまだ解明されていない。 本研究では,言語モデルのニューラルアクティベーションを通じて,様々なエージェントの視点から,自己や他者の信念の内部表現の存在を示す信念状態を線形にデコードすることが可能であることを見出した。 これらの表現を操作することで,モデルのToMパフォーマンスの劇的な変化を観察し,社会的推論プロセスにおけるそれらの重要な役割を明らかにする。 さらに, 因果的推論パターンの異なる多様な社会的推論タスクにも応用し, それらの表現の一般化可能性も示唆した。

Understanding and attributing mental states, known as Theory of Mind (ToM), emerges as a fundamental capability for human social reasoning. While Large Language Models (LLMs) appear to possess certain ToM abilities, the mechanisms underlying these capabilities remain elusive. In this study, we discover that it is possible to linearly decode the belief status from the perspectives of various agents through neural activations of language models, indicating the existence of internal representations of self and others' beliefs. By manipulating these representations, we observe dramatic changes in the models' ToM performance, underscoring their pivotal role in the social reasoning process. Additionally, our findings extend to diverse social reasoning tasks that involve different causal inference patterns, suggesting the potential generalizability of these representations.
翻訳日:2024-02-29 14:03:41 公開日:2024-02-28
# UniMODE:Unified Monocular 3D Object Detection

UniMODE: Unified Monocular 3D Object Detection ( http://arxiv.org/abs/2402.18573v1 )

ライセンス: Link先を確認
Zhuoling Li, Xiaogang Xu, SerNam Lim, Hengshuang Zhao(参考訳) 屋内と屋外の両方のシーンを含む、統一されたモノクル3Dオブジェクト検出を実現することは、ロボットナビゲーションのようなアプリケーションにおいて非常に重要である。 しかし、トレーニングモデルにデータの様々なシナリオを組み込むことは、様々な幾何学的性質や異種領域の分布など、その特性が著しく異なるため、課題を生じさせる。 これらの課題に対処するため,我々は鳥眼視(bird's-eye-view, bev)検出パラダイムに基づいた検出器を構築した。 次に,従来のBEV検出アーキテクチャを2段階に分割し,上記の課題に起因する収束不安定性に対処する不均一なBEVグリッド設計を提案する。 さらに,計算コストを低減させる疎bev特徴投影戦略と,異種ドメインを扱う統一ドメインアライメント手法を開発した。 これらの技術を組み合わせることで、unified detector unimodeが導出され、挑戦的なomni3dデータセット(屋内と屋外の両方を含む大規模データセット)を4.9%ap_3dで上回り、bev検出器を初めて一般化して3dオブジェクト検出に成功した。

Realizing unified monocular 3D object detection, including both indoor and outdoor scenes, holds great importance in applications like robot navigation. However, involving various scenarios of data to train models poses challenges due to their significantly different characteristics, e.g., diverse geometry properties and heterogeneous domain distributions. To address these challenges, we build a detector based on the bird's-eye-view (BEV) detection paradigm, where the explicit feature projection is beneficial to addressing the geometry learning ambiguity when employing multiple scenarios of data to train detectors. Then, we split the classical BEV detection architecture into two stages and propose an uneven BEV grid design to handle the convergence instability caused by the aforementioned challenges. Moreover, we develop a sparse BEV feature projection strategy to reduce computational cost and a unified domain alignment method to handle heterogeneous domains. Combining these techniques, a unified detector UniMODE is derived, which surpasses the previous state-of-the-art on the challenging Omni3D dataset (a large-scale dataset including both indoor and outdoor scenes) by 4.9% AP_3D, revealing the first successful generalization of a BEV detector to unified 3D object detection.
翻訳日:2024-02-29 13:59:56 公開日:2024-02-28
# 多様なユーザ嗜好に対するllmの算術制御:多目的報酬を用いた指向性選好アライメント

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards ( http://arxiv.org/abs/2402.18571v1 )

ライセンス: Link先を確認
Haoxiang Wang, Yong Lin, Wei Xiong, Rui Yang, Shizhe Diao, Shuang Qiu, Han Zhao, Tong Zhang(参考訳) 大きな言語モデル(LLM)のきめ細かい制御は依然として大きな課題であり、多様なユーザニーズへの適応性を妨げている。 Reinforcement Learning from Human Feedback (RLHF)は、LLMの整合性を示すが、スカラー報酬への依存は、現実世界のアプリケーションで多様なユーザの好みを捉える能力を制限することが多い。 この制限に対処するため、DPA(Directional Preference Alignment)フレームワークを導入します。 スカラーワードrlhfとは異なり、dpaは多様な好みプロファイルを表現するために多目的報酬モデリングを取り入れている。 さらに、DPAは報酬空間の方向(すなわち単位ベクトル)としてユーザの好みをモデル化し、ユーザ依存の好み制御を実現する。 Llama 2 で採用されている RLHF 法である Rejection Smpling Finetuning (RSF) の優先条件付き変種を用いて,多目的報酬モデルのトレーニングを行い,LLM を微調整する。 この方法は、様々な報奨目的に対してより良いパフォーマンスのトレードオフをもたらす。 DPA はスカラー・リワード RLHF と比較して、ユーザが LLM 生成を直感的に制御できる。 また,実世界アライメント実験によるdpaの有効性を検証する。 提案手法は,DPO(Direct Preference Optimization)などの強力なベースラインと競合する性能を維持しつつ,有用性と冗長性の間のトレードオフを簡易に算術的に制御する。

Fine-grained control over large language models (LLMs) remains a significant challenge, hindering their adaptability to diverse user needs. While Reinforcement Learning from Human Feedback (RLHF) shows promise in aligning LLMs, its reliance on scalar rewards often limits its ability to capture diverse user preferences in real-world applications. To address this limitation, we introduce the Directional Preference Alignment (DPA) framework. Unlike the scalar-reward RLHF, DPA incorporates multi-objective reward modeling to represent diverse preference profiles. Additionally, DPA models user preferences as directions (i.e., unit vectors) in the reward space to achieve user-dependent preference control. Our method involves training a multi-objective reward model and then fine-tuning the LLM with a preference-conditioned variant of Rejection Sampling Finetuning (RSF), an RLHF method adopted by Llama 2. This method enjoys a better performance trade-off across various reward objectives. In comparison with the scalar-reward RLHF, DPA offers users intuitive control over LLM generation: they can arithmetically specify their desired trade-offs (e.g., more helpfulness with less verbosity). We also validate the effectiveness of DPA with real-world alignment experiments on Mistral-7B. Our method provides straightforward arithmetic control over the trade-off between helpfulness and verbosity while maintaining competitive performance with strong baselines such as Direct Preference Optimization (DPO).
翻訳日:2024-02-29 13:59:31 公開日:2024-02-28
# ブラックホールにおける負の温度圧力

Negative Temperature Pressure in Black Holes ( http://arxiv.org/abs/2402.18570v1 )

ライセンス: Link先を確認
Richard A. Norte(参考訳) 負の温度の概念(T < 0)は量子物理学に特有であり、任意の正の温度系よりも熱い系を記述する。 何十年もの間、多くのスピン系で負の温度が示されてきたが、最近の実験では、その運動の自由度に負の温度を持つ原子アンサンブルが実証された。 このような負の温度アンサンブルの観察された挙動は、任意の数の粒子の間の非常に魅力的な力にもかかわらず、崩壊に対する自己安定化が存在することである。 負の温度は、古典物理学では見られない性質である粒子のエネルギーに上限があるため、量子系においてのみ可能である。 ここでは、事象の地平線がブラックホール内で同様の上限を設定し、事象の地平線内で負の温度系を生じさせるかどうかを考察する。 ブラックホールの熱力学と実験的に観測された負の温度効果の組み合わせは、ブラックホールの量子ベースの外向き圧力を意味する。

The concept of negative temperature (T < 0) is unique to quantum physics and describes systems that are hotter than any positive temperature system. For decades negative temperatures have been shown in a number of spin systems, but experiments only recently demonstrated atomic ensembles with negative temperatures in their motional degrees of freedom. An observed behavior of such negative temperature ensembles is that despite highly attractive forces between an arbitrary number of particles, there is a self-stabilization against collapse. Negative temperatures are only possible in quantum systems because there exists upper bounds on the energy of particles -- a property not found in classical physics. Here we consider whether event horizons set up similar upper limits within black holes, giving rise to negative temperature systems just within event horizons. Combining black hole thermodynamics with experimentally observed negative temperature effects could imply a quantum-based outward pressure in black holes.
翻訳日:2024-02-29 13:59:02 公開日:2024-02-28
# 拡散言語モデルはタンパク質学習者である

Diffusion Language Models Are Versatile Protein Learners ( http://arxiv.org/abs/2402.18567v1 )

ライセンス: Link先を確認
Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu(参考訳) 本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。 我々はまず,タンパク質の言語モデリングを原則的に一般化する自己教師付き離散拡散確率フレームワーク内で,進化規模のタンパク質配列から拡張性DPLMを事前訓練する。 プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。 さらに,提案する拡散生成前トレーニングにより,dplmはタンパク質の理解度が向上し,様々な予測タスクに最適化可能な優れた表現学習者となることを示した(lin et al.,2022)。 Moreover, DPLM can be tailored for various needs, which showcases its prowess of conditional generation in several ways: (1) conditioning on partial peptide sequences, e.g., generating scaffolds for functional motifs with high success rate; (2) incorporating other modalities as conditioner, e.g., structure-conditioned generation for inverse folding; and (3) steering sequence generation towards desired properties, e.g., satisfying specified secondary structures, through a plug-and-play classifier guidance.

This paper introduces diffusion protein language model (DPLM), a versatile protein language model that demonstrates strong generative and predictive capabilities for protein sequences. We first pre-train scalable DPLMs from evolutionary-scale protein sequences within a generative self-supervised discrete diffusion probabilistic framework, which generalizes language modeling for proteins in a principled way. After pre-training, DPLM exhibits the ability to generate structurally plausible, novel, and diverse protein sequences for unconditional generation. We further demonstrate the proposed diffusion generative pre-training makes DPLM possess a better understanding of proteins, making it a superior representation learner, which can be fine-tuned for various predictive tasks, comparing favorably to ESM2 (Lin et al., 2022). Moreover, DPLM can be tailored for various needs, which showcases its prowess of conditional generation in several ways: (1) conditioning on partial peptide sequences, e.g., generating scaffolds for functional motifs with high success rate; (2) incorporating other modalities as conditioner, e.g., structure-conditioned generation for inverse folding; and (3) steering sequence generation towards desired properties, e.g., satisfying specified secondary structures, through a plug-and-play classifier guidance.
翻訳日:2024-02-29 13:58:46 公開日:2024-02-28
# 言語モデルを用いた人間レベル予測へのアプローチ

Approaching Human-Level Forecasting with Language Models ( http://arxiv.org/abs/2402.18563v1 )

ライセンス: Link先を確認
Danny Halawi, Fred Zhang, Chen Yueh-Han, Jacob Steinhardt(参考訳) 将来の出来事を予測することは、政策と意思決定にとって重要である。 本研究では,言語モデル(LM)が競合する人間の予測能力のレベルを予測できるかどうかを検討する。 そこで本研究では,関連情報の自動検索,予測生成,集約予測を行うためのLMシステムを開発した。 そこで本研究では,競争予測プラットフォームから質問の大規模なデータセットを収集する。 LMの知識遮断後に公開されたテストセットでは,人間の予測の集合に対して,システムのエンドツーエンドのパフォーマンスを評価する。 平均すると、システムは競争力のある予測者の群集に近づき、いくつかの設定ではそれを上回る。 本研究は, 将来予測にLMを用いることで, 大規模かつ正確な予測が得られ, 制度的意思決定に役立てられることを示唆している。

Forecasting future events is important for policy and decision making. In this work, we study whether language models (LMs) can forecast at the level of competitive human forecasters. Towards this goal, we develop a retrieval-augmented LM system designed to automatically search for relevant information, generate forecasts, and aggregate predictions. To facilitate our study, we collect a large dataset of questions from competitive forecasting platforms. Under a test set published after the knowledge cut-offs of our LMs, we evaluate the end-to-end performance of our system against the aggregates of human forecasts. On average, the system nears the crowd aggregate of competitive forecasters, and in some settings surpasses it. Our work suggests that using LMs to forecast the future could provide accurate predictions at scale and help to inform institutional decision making.
翻訳日:2024-02-29 13:58:24 公開日:2024-02-28
# スピン-ボーソン模型の過渡動的位相図

Transient dynamical phase diagram of the spin-boson model ( http://arxiv.org/abs/2402.18561v1 )

ライセンス: Link先を確認
Olga Goulko, Hsing-Ta Chen, Moshe Goldstein, Guy Cohen(参考訳) 数値的に精度の高い量子モンテカルロアルゴリズムを用いて, 結合強度の幅の広いサブオヘミックスピンボソンモデルのリアルタイムダイナミクスについて検討した。 初期分離状態から始まる短時間および中間時間ダイナミクスから、局所状態と非局在状態の間のゼロ温度量子相転移のシグネチャを抽出する。 得られた動的位相図は臨界結合の値と関連する臨界指数の値の両方において平衡位相図とは異なることを示す。 また,コヒーレント振動と非コヒーレント崩壊の交叉機構を同定し,定量的に解析した。 サブオーミック・レジームの奥深くでは、クロスオーバーは振動振幅の減衰によって駆動され、オーミック・レジームに近いところでは振動周波数自体が大きなカップリングで鋭くゼロに低下する。

We investigate the real-time dynamics of the sub-Ohmic spin-boson model across a broad range of coupling strengths, using the numerically exact inchworm quantum Monte Carlo algorithm. From short- and intermediate-time dynamics starting from an initially decoupled state, we extract signatures of the zero-temperature quantum phase transition between localized and delocalized states. We show that the dynamical phase diagram thus obtained differs from the equilibrium phase diagram in both the values of critical couplings and the associated critical exponents. We also identify and quantitatively analyze two competing mechanisms for the crossover between coherent oscillations and incoherent decay. Deep in the sub-Ohmic regime, the crossover is driven by the damping of the oscillation amplitude, while closer to the Ohmic regime the oscillation frequency itself drops sharply to zero at large coupling.
翻訳日:2024-02-29 13:58:10 公開日:2024-02-28
# 周期運転時の無調波偏光子

Lossy anharmonic polaritons under periodic driving ( http://arxiv.org/abs/2402.18560v1 )

ライセンス: Link先を確認
Maicol A. Ochoa(参考訳) 散逸ポラリトンの定常エネルギー分布と熱力学における外部周期駆動下でのアンハーモニックシグネチャについて報告する。 まず, 外力や場によるポラリトンのエネルギーの変調を表す一般的な時間-周期相互作用を持つ, 散逸する無調和jaynes-cummingsポラリトンに対する動的モデルを提案する。 我々は, 励起子, フォノン, 相互作用エネルギーがフォノン不調和性, 励起子-フォノン結合強度, および外部場-ポラリトン結合の強度と形状に依存することを特徴とする。 モデルはまた、非可逆的な熱、最大エネルギー、およびプロセスの効率に関連して解析される駆動型ポラリトンの量子熱力学も捉える。 その結果,高調波,中等度,強い非調和ポラリトン間のエネルギー分布と熱力学に有意な差が認められた。 さらに、外部変調をフォノンとエキシトンエネルギーと比較すると、前者はポラリトンのエネルギー貯蔵能力を高め、時折エキシトンにおける干渉効果やエネルギー飽和によって制限されると結論付けている。

We report on the anharmonic signatures in dissipative polaritons' stationary energy distribution and thermodynamics under external periodic driving. First, we introduce a dynamic model for the dissipative anharmonic Jaynes-Cummings polariton with a generic time-periodic interaction representing modulations of the polariton's energy due to an external force or field. We characterize the stationary state in terms of the exciton, phonon, and interaction energy dependence on the phonon anharmonicity, exciton-phonon coupling strength, and intensity and form of the external field-polariton coupling. Our model also captures the quantum thermodynamics of the driven polariton, which we analyze in connection with the irreversible heat, maximum power, and efficiency of the process. We find considerable differences in energy distribution and thermodynamics between harmonic, moderate, and strongly anharmonic polaritons. Moreover, comparing the external modulations to the phonon and exciton energy, we conclude that the former enhances the polariton's energy storage capacity and is occasionally limited by interference effects and energy saturation at the exciton.
翻訳日:2024-02-29 13:57:54 公開日:2024-02-28
# 表現型および精密農業における適切なマルチスペクトルカメラ露光設定と放射計校正手法の選択

Selection of appropriate multispectral camera exposure settings and radiometric calibration methods for applications in phenotyping and precision agriculture ( http://arxiv.org/abs/2402.18553v1 )

ライセンス: Link先を確認
Vaishali Swaminathan, J. Alex Thomasson, Robert G. Hardin, Nithya Rajan(参考訳) データのラジオメトリック精度は、モデリングと意思決定のための信頼性と繰り返し可能なデータを生成するために、量的精度の農業において不可欠である。 露光時間とゲイン設定がマルチスペクトル画像の放射精度に及ぼす影響は十分に検討されなかった。 本研究の目的は,画像取得時の被曝時間(fe)が既定オート露光(ae)設定と比較して画像の放射能精度を向上しているかを判定することであった。 これは、自動露光による誤差の定量化と、ラジオメトリック平均絶対パーセンテージ誤差(MAPE)が最小 ( 5%) である理想的な露光値の決定にかかわる。 その結果, FE整形術はAE整形術よりも接地術(高R2, 低MAPE)に近かった。 露光不足や露光過度の飽和からの情報を失うことなく,天蓋や土の物体を捕捉する理想的な露光範囲が決定された。 aeによる誤差のシミュレーションにより、mape < 5%が青、緑、赤、nir帯で、< 7%が赤の縁帯で理想的な範囲で露光し、理想の露光上限を超える指数関数的に増加した。 さらに,2つの異なる生育期の植生指標(VIs)を用いた総植物窒素摂取量(g/植物)の予測は,AE画像による予測(R2 < 0.13, MAPE = 15 to 18%, p >= 0.05)と比較して,FEを用いた場合の真相(主にR2 > 0.40, MAPE = 12 to 14%, p < 0.05)に近かった。

Radiometric accuracy of data is crucial in quantitative precision agriculture, to produce reliable and repeatable data for modeling and decision making. The effect of exposure time and gain settings on the radiometric accuracy of multispectral images was not explored enough. The goal of this study was to determine if having a fixed exposure (FE) time during image acquisition improved radiometric accuracy of images, compared to the default auto-exposure (AE) settings. This involved quantifying the errors from auto-exposure and determining ideal exposure values within which radiometric mean absolute percentage error (MAPE) were minimal (< 5%). The results showed that FE orthomosaic was closer to ground-truth (higher R2 and lower MAPE) than AE orthomosaic. An ideal exposure range was determined for capturing canopy and soil objects, without loss of information from under-exposure or saturation from over-exposure. A simulation of errors from AE showed that MAPE < 5% for the blue, green, red, and NIR bands and < 7% for the red edge band for exposure settings within the determined ideal ranges and increased exponentially beyond the ideal exposure upper limit. Further, prediction of total plant nitrogen uptake (g/plant) using vegetation indices (VIs) from two different growing seasons were closer to the ground truth (mostly, R2 > 0.40, and MAPE = 12 to 14%, p < 0.05) when FE was used, compared to the prediction from AE images (mostly, R2 < 0.13, MAPE = 15 to 18%, p >= 0.05).
翻訳日:2024-02-29 13:57:36 公開日:2024-02-28
# 次期予測の暗黙のバイアス

Implicit Bias of Next-Token Prediction ( http://arxiv.org/abs/2402.18551v1 )

ライセンス: Link先を確認
Christos Thrampoulidis(参考訳) 大規模言語モデルのトレーニングにおけるトレーニングパラダイムであるNext-token Prediction (NTP)では,次のトークンをシーケンスで予測する。 従来のワンホット分類とは別に、NTPでは、異なる周波数の複数のトークンがそれぞれのコンテキストに従っている。 この作業は、NTPトレーニングを異なる文脈上でのクロスエントロピー最小化として、それぞれ有限語彙にわたるスパース経験的確率ベクトルと関連付ける。 NTPトレーニング損失が下限(エントロピー)に達するにつれて、勾配に基づく最適化者は特定の構造を持つ解に偏りを示すだろうか? 具体的には、勾配降下 (GD) を用いて訓練された線形 NTP モデルに対して、以下の貢献をする: まず、GD が下限に達するようなデータ上の NTP 分離性条件を決定する。 また、これらの条件が過パラメータ化されることを示す。 次に,適切なデータ部分空間上に投影されたgdのパラメータを線形方程式系の一意な解に収束させることにより,各確率の対数比に等しく,in-supportトークンの対数差を求める。 一方、直交部分空間では、パラメータは極大二次プログラムの解の方向に分岐して収束し、 \NTP-分離条件を満たすパラメータのユークリッドノルムを最小化する。 従来の1ホット分類の暗黙のバイアスの研究と同様に、我々の研究は、NTPで訓練されたモデルの最適化、一般化、堅牢性の原則をよりよく理解するための、将来の研究へのエキサイティングな道を開く。

Next-token prediction (NTP), the go-to training paradigm in training large language models, involves predicting the next token in a sequence. Departing from traditional one-hot classification, in NTP, multiple tokens with varying frequencies follow each given context. This work frames NTP training as cross-entropy minimization over distinct contexts, each associated with a sparse empirical probability vector across a finite vocabulary. It then addresses the following question: do gradient-based optimizers exhibit a bias towards solutions with specific structure as the NTP training loss reaches its lower bound (entropy)? Specifically, for linear NTP models trained using gradient descent (GD), we make the following contributions: Firstly, we determine NTP-separability conditions on the data, under which GD can attain its lower bound. We also demonstrate that these conditions hold under overparameterization. Secondly, we establish that the parameters of GD projected onto an appropriate data subspace converge to the unique solution of a system of linear equations, which requires the logits' difference of in-support tokens to be equal to the log-ratio of their respective probabilities. Meanwhile, on the orthogonal subspace, the parameters diverge and converge in the direction of the solution of a max-margin quadratic program, minimizing the Euclidean norm of parameters satisfying the \NTP-separability conditions. Akin to prior research on implicit bias of one-hot classification, our work opens exciting avenues for future research that can lead to better understanding optimization, generalization and robustness principles of models trained with NTP.
翻訳日:2024-02-29 13:57:01 公開日:2024-02-28
# ノイズランダム回路における条件付き相互情報の普遍的拡散

Universal Spreading of Conditional Mutual Information in Noisy Random Circuits ( http://arxiv.org/abs/2402.18548v1 )

ライセンス: Link先を確認
Su-un Lee, Changhun Oh, Yat Wong, Senrui Chen, Liang Jiang(参考訳) 一般開放量子系における条件付き相互情報の進化を考察し,局所雑音を分散した1次元ランダム回路に着目した。 ノイズレス回路とは異なり、条件付き相互情報が光円錐にバウンドされながら線形に拡散する場合と異なり、誤差率$p$を持つノイズ付きランダム回路は条件付き相互情報の超線形伝播を示し、臨界回路深度$t_c \propto p^{-1}$で光円錐をはるかに越えて発散する。 このような急激な拡散のメカニズムは局所雑音とスクランブルユニタリの複合効果であり、長距離相関を保ちながら短距離相関を選択的に除去することを示した。 雑音下ランダム回路における条件付き相互情報のダイナミクスを解析的に捉えるために,粗粒化法を導入し,数値シミュレーションにより解析結果を検証する。 さらに,条件付き相互情報の拡散を規定する普遍的スケーリング法を規定する。

We study the evolution of conditional mutual information in generic open quantum systems, focusing on one-dimensional random circuits with interspersed local noise. Unlike in noiseless circuits, where conditional mutual information spreads linearly while being bounded by the lightcone, we find that noisy random circuits with an error rate $p$ exhibit superlinear propagation of conditional mutual information, which diverges far beyond the lightcone at a critical circuit depth $t_c \propto p^{-1}$. We demonstrate that the underlying mechanism for such rapid spreading is the combined effect of local noise and a scrambling unitary, which selectively removes short-range correlations while preserving long-range correlations. To analytically capture the dynamics of conditional mutual information in noisy random circuits, we introduce a coarse-graining method, and we validate our theoretical results through numerical simulations. Furthermore, we identify a universal scaling law governing the spreading of conditional mutual information.
翻訳日:2024-02-29 13:56:33 公開日:2024-02-28
# センサ故障時の一般化:トークン化+トランスフォーマーでより堅牢な潜在空間を実現する

Generalizability Under Sensor Failure: Tokenization + Transformers Enable More Robust Latent Spaces ( http://arxiv.org/abs/2402.18546v1 )

ライセンス: Link先を確認
Geeling Chau, Yujin An, Ahamed Raffey Iqbal, Soon-Jo Chung, Yisong Yue, Sabera Talukder(参考訳) 神経科学の主要な目標は、一般化する神経データ表現を見つけることである。 この目標は、記録セッション(例えば、環境)、被験者(例えば、様々な神経構造)、センサー(例えば、センサーノイズ)などの変動によって挑戦される。 最近の研究は、セッションや主題間の一般化に対処し始めているが、神経科学実験でよく見られるセンサー障害に対する堅牢性の研究はほとんどない。 これらの一般化可能性次元に対処するために、我々はまず多数のセッション、被験者、センサーで独自の脳波データセットを収集し、次にEEGNet(Lawhern et al., 2018)とTOTEM(Talukder et al., 2024)の2つの時系列モデルを研究します。 EEGNetは広く使われている畳み込みニューラルネットワークであり、TOTEMは離散時系列トークンとトランスフォーマーモデルである。 一般化可能なすべてのケースにおいて、TOTEMがEEGNetを上回ったり、マッチすることがわかった。 最後に、TOTEMの潜在コードブックの分析を通して、トークン化が一般化を可能にすることを観察する。

A major goal in neuroscience is to discover neural data representations that generalize. This goal is challenged by variability along recording sessions (e.g. environment), subjects (e.g. varying neural structures), and sensors (e.g. sensor noise), among others. Recent work has begun to address generalization across sessions and subjects, but few study robustness to sensor failure which is highly prevalent in neuroscience experiments. In order to address these generalizability dimensions we first collect our own electroencephalography dataset with numerous sessions, subjects, and sensors, then study two time series models: EEGNet (Lawhern et al., 2018) and TOTEM (Talukder et al., 2024). EEGNet is a widely used convolutional neural network, while TOTEM is a discrete time series tokenizer and transformer model. We find that TOTEM outperforms or matches EEGNet across all generalizability cases. Finally through analysis of TOTEM's latent codebook we observe that tokenization enables generalization.
翻訳日:2024-02-29 13:56:15 公開日:2024-02-28
# google検索広告でdermatologyイメージをクラウドソーシングする: 現実世界の皮膚状態データセットの作成

Crowdsourcing Dermatology Images with Google Search Ads: Creating a Real-World Skin Condition Dataset ( http://arxiv.org/abs/2402.18545v1 )

ライセンス: Link先を確認
Abbi Ward, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, Pradeep Kumar S, Tiya Tiyasirichokchai, Sunny Virmani, Renee Wong, Yossi Matias, Greg S. Corrado, Dale R. Webster, Dawn Siegel, Steven Lin, Justin Ko, Alan Karthikesalingam, Christopher Semturs and Pooja Rao(参考訳) 背景:臨床資料からの健康データセットは、現実世界の病気の広さや多様性を反映せず、研究、医学教育、人工知能(AI)ツール開発に影響を与える。 皮膚科学は、代表的な健康データセットを作成するための新しいスケーラブルな方法の開発とテストに適した分野である。 方法:我々はGoogle Searchの広告を用いて,皮膚疾患,人口統計,症状情報の画像のオープンアクセスデータセットへのコントリビューションを招待した。 インフォームドコントリビュータの同意を得て、2023年3月から8ヶ月にわたり、米国のインターネットユーザから5,033件のコントリビューションから10,408件の画像を含むデータセットを記述、リリースします。 このデータセットには、皮膚科の条件ラベルと、画像のFitzpatrick Skin Type (eFST)とMonk Skin Tone (eMST)のラベルが含まれる。 結果: 毎日22件(IQR 14~30件)の提出があった。 女性 (66.72%) と若い (52% < 40歳) のコントリビューターは、アメリカの人口よりもデータセットの表現率が高く、32.6%のコントリビューターが非白人の人種または民族のアイデンティティを報告した。 97.5%以上が本物の皮膚状態の画像である。 鑑別診断における皮膚科医の信頼性は, 画像の鮮明度との相関が低かった(SpearmanのP値<0.001, 0.01)。 コントリビューションの大部分は短期(54%が発症7日前)で,89%がアレルギー,感染症,炎症性であった。 eFSTとeMST分布はデータセットの地理的起源を反映している。 データセットはgithub.com/google-research-datasets/scinで入手できる。 結論: 検索広告は健康状態の画像のクラウドソーシングに有効である。 SCINデータセットは、一般的な皮膚状態の代表画像の可用性において重要なギャップを橋渡しする。

Background: Health datasets from clinical sources do not reflect the breadth and diversity of disease in the real world, impacting research, medical education, and artificial intelligence (AI) tool development. Dermatology is a suitable area to develop and test a new and scalable method to create representative health datasets. Methods: We used Google Search advertisements to invite contributions to an open access dataset of images of dermatology conditions, demographic and symptom information. With informed contributor consent, we describe and release this dataset containing 10,408 images from 5,033 contributions from internet users in the United States over 8 months starting March 2023. The dataset includes dermatologist condition labels as well as estimated Fitzpatrick Skin Type (eFST) and Monk Skin Tone (eMST) labels for the images. Results: We received a median of 22 submissions/day (IQR 14-30). Female (66.72%) and younger (52% < age 40) contributors had a higher representation in the dataset compared to the US population, and 32.6% of contributors reported a non-White racial or ethnic identity. Over 97.5% of contributions were genuine images of skin conditions. Dermatologist confidence in assigning a differential diagnosis increased with the number of available variables, and showed a weaker correlation with image sharpness (Spearman's P values <0.001 and 0.01 respectively). Most contributions were short-duration (54% with onset < 7 days ago ) and 89% were allergic, infectious, or inflammatory conditions. eFST and eMST distributions reflected the geographical origin of the dataset. The dataset is available at github.com/google-research-datasets/scin . Conclusion: Search ads are effective at crowdsourcing images of health conditions. The SCIN dataset bridges important gaps in the availability of representative images of common skin conditions.
翻訳日:2024-02-29 13:55:56 公開日:2024-02-28
# 微調整後のLCMのアライメント:プロンプトテンプレートの役割

Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates ( http://arxiv.org/abs/2402.18540v1 )

ライセンス: Link先を確認
Kaifeng Lyu, Haoyu Zhao, Xinran Gu, Dingli Yu, Anirudh Goyal, Sanjeev Arora(参考訳) Llama 2-Chatのような公共のLLMはLLMの研究において大きな活動を促している。 これらのモデルはアライメント訓練を受け、安全と見なされた。 最近、Qi et al. (2023) は、良質な微調整(例えば安全なデータセット)でさえ、モデルに安全でない振る舞いをもたらすと報告した。 本稿は,このようなアライメントの喪失を緩和するための手法とベストプラクティスについて述べる。 いくつかのチャットモデル(metaのllama 2-chat、mistral aiのmistral 7b instruct v0.2、openaiのgpt-3.5 turbo)の広範な実験を通じて、微調整と推論で使用されるプロンプトテンプレートが安全性アライメントを維持する上で重要な役割を担っていることを明らかにし、"pure tuning, safe testing"(ptst)原則を提案する。 GSM8K、ChatDoctor、OpenOrcaの微調整実験では、PTSTは安全でない振る舞いの出現を著しく減少させ、場合によってはほとんど排除する。

Public LLMs such as the Llama 2-Chat have driven huge activity in LLM research. These models underwent alignment training and were considered safe. Recently Qi et al. (2023) reported that even benign fine-tuning (e.g., on seemingly safe datasets) can give rise to unsafe behaviors in the models. The current paper is about methods and best practices to mitigate such loss of alignment. Through extensive experiments on several chat models (Meta's Llama 2-Chat, Mistral AI's Mistral 7B Instruct v0.2, and OpenAI's GPT-3.5 Turbo), this paper uncovers that the prompt templates used during fine-tuning and inference play a crucial role in preserving safety alignment, and proposes the "Pure Tuning, Safe Testing" (PTST) principle -- fine-tune models without a safety prompt, but include it at test time. Fine-tuning experiments on GSM8K, ChatDoctor, and OpenOrca show that PTST significantly reduces the rise of unsafe behaviors, and even almost eliminates them in some cases.
翻訳日:2024-02-29 13:55:24 公開日:2024-02-28
# 変分量子固有解法を用いた密度汎関数理論の強化

Enhancing density functional theory using the variational quantum eigensolver ( http://arxiv.org/abs/2402.18534v1 )

ライセンス: Link先を確認
Evan Sheridan, Lana Mineh, Raul A. Santos, Toby Cubitt(参考訳) 量子コンピュータは、物質や分子の物理的性質をモデル化するための新しい道を開く。 密度汎関数理論 (DFT) は、これらの特性を予測するための金の標準古典的アルゴリズムであるが、未知の普遍汎関数の近似に依存しており、基本的および技術的に関係のある多くのシステムに適用可能である。 本研究では、量子コンピュータから得られたデータを用いて、普遍関数の量子近似を体系的に構築する量子拡張DFT(QEDFT)と呼ばれるハイブリッド量子/古典的アルゴリズムを開発する。 我々はFermi-Hubbardモデル上でQEDFTアルゴリズムを数値的および実量子ハードウェアの実験データ上でベンチマークする。 QEDFTはHartree-Fock DFTから得られた基底状態の質を上回り、VQEのような従来の量子アルゴリズムを直接適用している。 さらに,googleの量子コンピュータから取得したデータに対してアルゴリズムをベンチマークすることにより,ノイズの多い低深さ量子計算が可能であっても,qedftが動作することを示す。 さらに,より小さな系サイズで生成する関数を用いた大規模フェルミ・ハバード系に対して,qedftが強相関mott物理学の量子本質的性質を捉えていることを示す。 以上の結果から,QEDFTは現実的な物質や分子システムに適用可能であり,大規模あるいは完全フォールトトレラントな量子コンピュータを必要とせずに,DFTやVQEの直接的な応用に勝る可能性が示唆された。

Quantum computers open up new avenues for modelling the physical properties of materials and molecules. Density Functional Theory (DFT) is the gold standard classical algorithm for predicting these properties, but relies on approximations of the unknown universal functional, limiting its general applicability for many fundamental and technologically relevant systems. In this work we develop a hybrid quantum/classical algorithm called quantum enhanced DFT (QEDFT) that systematically constructs quantum approximations of the universal functional using data obtained from a quantum computer. We benchmark the QEDFT algorithm on the Fermi-Hubbard model, both numerically and on data from experiments on real quantum hardware. We find that QEDFT surpasses the quality of groundstate results obtained from Hartree-Fock DFT, as well as from direct application of conventional quantum algorithms such as VQE. Furthermore, we demonstrate that QEDFT works even when only noisy, low-depth quantum computation is available, by benchmarking the algorithm on data obtained from Google's quantum computer. We further show how QEDFT also captures quintessential properties of strongly correlated Mott physics for large Fermi-Hubbard systems using functionals generated on much smaller system sizes. Our results indicate that QEDFT can be applied to realistic materials and molecular systems, and has the potential to outperform the direct application of either DFT or VQE alone, without the requirement of large scale or fully fault-tolerant quantum computers.
翻訳日:2024-02-29 13:54:59 公開日:2024-02-28
# 光浮遊ナノ粒子の全電気冷却

All electrical cooling of an optically levitated nanoparticle ( http://arxiv.org/abs/2402.18532v1 )

ライセンス: Link先を確認
Oscar Kremer, Igor Califrer, Daniel Tandeitnik, Jean Pierre von der Weid, Guilherme Tempor\~ao and Thiago Guerreiro(参考訳) 質量運動中心のケルビン下温度に到達可能な光学浮揚ナノ粒子の3次元フィードバック冷却のための全電気制御器を実装した。 制御器は、遅延位置測定により状態推定を行う最適ポリシーに基づいている。 この方法は、ナノ粒子の逆自由度を前冷却し、分離するための簡易な経路を提供する。 数値シミュレーションにより、量子制限検出による改良されたセットアップでは、3次元基底状態冷却と全ての電気量子制御が達成できることが示された。

We implement an all electrical controller for 3D feedback cooling of an optically levitated nanoparticle capable of reaching sub-Kelvin temperatures for the center of mass motion. The controller is based on an optimal policy where state estimation is made by delayed position measurements. The method offers a simplified path for pre-cooling and decoupling the transverse degrees of freedom of the nanoparticle. Numerical simulations show that in an improved setup with quantum limited detection, 3D ground state cooling and all electrical quantum control can be achieved.
翻訳日:2024-02-29 13:54:34 公開日:2024-02-28
# もう一度聞くと失敗する: 大きな言語モデルによる判断の空白

Ask Again, Then Fail: Large Language Models' Vacillations in Judgement ( http://arxiv.org/abs/2310.02174v4 )

ライセンス: Link先を確認
Qiming Xie, Zengzhi Wang, Yi Feng, and Rui Xia(参考訳) 現在の会話言語モデルは、たとえ元の判断が正しいとしても、後続の疑問に直面して判断を揺らぐことが多い。 このウェーブリングは、信頼性の高い応答を生成し、ユーザ信頼を構築する上で大きな課題となる。 この問題を包括的に評価するために,この不整合を定量化するための2つの指標とともに, \textsc{follow-up questioning mechanism} を導入する。 この問題を軽減するため,我々はクローズドソースモデルのための様々なプロンプト戦略を探求する。さらに,高品質な選好データを合成することで,言語モデルに元々正しい判断を維持するためのトレーニングベースのフレームワークである \textsc{unwavering-fq} を開発した。 実験により,我々のフレームワークの有効性と,モデルの汎用能力を高める能力を確認した。

We observe that current conversational language models often waver in their judgements when faced with follow-up questions, even if the original judgement was correct. This wavering presents a significant challenge for generating reliable responses and building user trust. To comprehensively assess this issue, we introduce a \textsc{Follow-up Questioning Mechanism} along with two metrics to quantify this inconsistency, confirming its widespread presence in current language models. To mitigate this issue, we explore various prompting strategies for closed-source models; moreover, we develop a training-based framework \textsc{Unwavering-FQ} that teaches language models to maintain their originally correct judgements through synthesized high-quality preference data. Our experimental results confirm the effectiveness of our framework and its ability to enhance the general capabilities of models.
翻訳日:2024-02-29 12:05:24 公開日:2024-02-28
# 再訪したロバスト単回転平均

Robust Single Rotation Averaging Revisited ( http://arxiv.org/abs/2309.05388v4 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera(参考訳) そこで本研究では, 極端に大きなアウトリアーを効率的に処理できるロバストな単回転平均法を提案する。 我々のアプローチは、測地線距離の総最小二乗偏差(TLUD)コストを最小化することである。 提案手法は3つのステップからなる: まず, 各入力回転をポテンシャル初期解として考慮し, 断続したコード偏差の最小和を求める。 次に、初期解を用いて不整集合を取得し、その和を$L_2$-meanで計算する。 最後に、この推定から始めて、$SO(3)$でWeiszfeldアルゴリズムを用いて、イリヤの測地線$L_1$-meanを反復的に計算する。 広範な評価により,本手法は最大99%の外れ値に対して十分な精度の異常値が得られ,現在の技術に匹敵するロバストであることが示された。

In this work, we propose a novel method for robust single rotation averaging that can efficiently handle an extremely large fraction of outliers. Our approach is to minimize the total truncated least unsquared deviations (TLUD) cost of geodesic distances. The proposed algorithm consists of three steps: First, we consider each input rotation as a potential initial solution and choose the one that yields the least sum of truncated chordal deviations. Next, we obtain the inlier set using the initial solution and compute its chordal $L_2$-mean. Finally, starting from this estimate, we iteratively compute the geodesic $L_1$-mean of the inliers using the Weiszfeld algorithm on $SO(3)$. An extensive evaluation shows that our method is robust against up to 99% outliers given a sufficient number of accurate inliers, outperforming the current state of the art.
翻訳日:2024-02-29 12:05:06 公開日:2024-02-28
# FedSOL: フェデレートラーニングにおける直交学習の安定化

FedSOL: Stabilized Orthogonal Learning in Federated Learning ( http://arxiv.org/abs/2308.12532v5 )

ライセンス: Link先を確認
Gihun Lee, Minchan Jeong, Sangmook Kim, Jaehoon Oh, Se-Young Yun(参考訳) フェデレーション学習(fl)は、グローバルモデルを構築するために個々のクライアントからローカルにトレーニングされたモデルを集約する。 flはデータプライバシでモデルを学ぶことができるが、クライアントが異種データ分散を持つ場合、パフォーマンスが著しく低下する。 このデータの均一性により、モデルは、ローカルデータセットでトレーニングされた後に、以前にサンプリングされたクライアントから得られたグローバルな知識を忘れることになる。 地域更新における近位目標の導入は、グローバル知識の保存に役立つが、地域目標との干渉によって局所学習を阻害することもある。 そこで本研究では,2つの相反する目標のバランスをとるために,直交学習戦略を採用するフェデレート安定化直交学習(federated stabilized orthogonal learning, fedsol)を提案する。 FedSOLは、近位目的に影響を及ぼす方向に対して本質的に直交する局所目的の勾配を特定するように設計されている。 特に、FedSOLは、局所的な目的についての学習が近量摂動の影響を最小限に抑えるパラメータ領域をターゲットにしている。 実験の結果,FedSOLは様々なシナリオで常に最先端のパフォーマンスを実現していることがわかった。

Federated Learning(FL) aggregates locally trained models from individual clients to construct a global model. While FL enables learning a model with data privacy, it often suffers from significant performance degradation when clients have heterogeneous data distributions. This data heterogeneity causes the model to forget the global knowledge acquired from previously sampled clients after being trained on local datasets. Although the introduction of proximal objectives in local updates helps to preserve global knowledge, it can also hinder local learning by interfering with local objectives. To address this problem, we propose a novel method, Federated Stabilized Orthogonal Learning(FedSOL), which adopts an orthogonal learning strategy to balance the two conflicting objectives. FedSOL is designed to identify gradients of local objectives that are inherently orthogonal to directions affecting the proximal objective. Specifically, FedSOL targets parameter regions where learning on the local objective is minimally influenced by proximal weight perturbations. Our experiments demonstrate that FedSOL consistently achieves state-of-the-art performance across various scenarios.
翻訳日:2024-02-29 12:04:49 公開日:2024-02-28
# リアルタイム反復学習の約束と限界を探る

Exploring the Promise and Limits of Real-Time Recurrent Learning ( http://arxiv.org/abs/2305.19044v3 )

ライセンス: Link先を確認
Kazuki Irie, Anand Gopalakrishnan, J\"urgen Schmidhuber(参考訳) シーケンス処理リカレントニューラルネットワーク(rnns)のためのリアルタイムリカレント学習(rtrl)は、バックプロパゲーション時間(bptt)よりも概念上の利点を提供する。 RTRLは過去のアクティベーションやトラッピングコンテキストをキャッシュする必要がなく、オンライン学習を可能にする。 しかし、rtrlの時間と空間の複雑さは実用的でない。 この問題を解決するために、RTRLに関する最近の研究は近似理論に焦点を当てているが、実験は診断設定に限られることが多い。 本稿では,より現実的な環境でのRTRLの実践的可能性について考察する。 DMLab-30, ProcGen, Atari-2600環境のいくつかのサブセットにおいて, RTRLとポリシー勾配を組み合わせたアクタ批判手法を検証した。 DMLabのメモリタスクでは、1.2B未満の環境フレームでトレーニングしたシステムは、よく知られたIMPALAとR2D2のベースラインで10Bフレームでトレーニングしたよりも優れている。 このような困難なタスクにスケールするために、要素毎の繰り返しを伴う既知のニューラルアーキテクチャにフォーカスし、rtrlを近似することなく扱いやすいものにした。 重要なのは、マルチレイヤの場合の複雑さなど、実世界のアプリケーションにおけるRTRLの制限にほとんど対処しないことだ。

Real-time recurrent learning (RTRL) for sequence-processing recurrent neural networks (RNNs) offers certain conceptual advantages over backpropagation through time (BPTT). RTRL requires neither caching past activations nor truncating context, and enables online learning. However, RTRL's time and space complexity make it impractical. To overcome this problem, most recent work on RTRL focuses on approximation theories, while experiments are often limited to diagnostic settings. Here we explore the practical promise of RTRL in more realistic settings. We study actor-critic methods that combine RTRL and policy gradients, and test them in several subsets of DMLab-30, ProcGen, and Atari-2600 environments. On DMLab memory tasks, our system trained on fewer than 1.2 B environmental frames is competitive with or outperforms well-known IMPALA and R2D2 baselines trained on 10 B frames. To scale to such challenging tasks, we focus on certain well-known neural architectures with element-wise recurrence, allowing for tractable RTRL without approximation. Importantly, we also discuss rarely addressed limitations of RTRL in real-world applications, such as its complexity in the multi-layer case.
翻訳日:2024-02-29 12:04:32 公開日:2024-02-28
# CoLo-CAM:弱ラベル非拘束ビデオにおけるオブジェクトのコローカライゼーションのためのクラスアクティベーションマッピング

CoLo-CAM: Class Activation Mapping for Object Co-Localization in Weakly-Labeled Unconstrained Videos ( http://arxiv.org/abs/2303.09044v4 )

ライセンス: Link先を確認
Soufiane Belharbi, Shakeeb Murtaza, Marco Pedersoli, Ismail Ben Ayed, Luke McCaffrey, Eric Granger(参考訳) ビデオにおける時空間情報の活用は、弱教師付きビデオオブジェクトローカライゼーション(WSVOL)タスクにおいて重要である。 しかし、最先端の手法は視覚と運動の手がかりにのみ依存するが、識別情報の破棄は不正確なローカライゼーションを許容する。 近年,時間的クラスアクティベーションマッピング(CAM)法を用いたWSVOLタスクの識別モデルが検討されている。 結果は有望だが、オブジェクトはフレームからフレームへの移動が限られていると仮定され、比較的長期の依存関係でパフォーマンスが低下する。 本稿では、物体の位置を拘束することなく、訓練中の活性化マップの時空間情報を活用できる新しいWSVOLのCAM手法を提案する。 訓練はコローカライゼーションに依存しており、CoLo-CAMという名称である。 フレームのシーケンスが与えられると、オブジェクトが連続するフレームで同様の色を持つと仮定して、対応するマップ全体から抽出されたカラーキューに基づいて、ローカライゼーションを共同で学習する。 CAMアクティベーションは、同様の色を持つピクセルに対して同様の反応を制限され、コローカライゼーションが達成される。 これは、共同学習がすべての画像位置と全フレーム間の直接通信を生成し、ローカライゼーションの転送、集約、修正を可能にするため、ローカライゼーション性能を向上させる。 コローカライゼーションは、条件付きランダムフィールド(CRF)ロスの色項をフレーム/CAMのシーケンス上で最小化することにより、トレーニングに統合される。 制約のないビデオの2つの挑戦的なYouTube-Objectsデータセットに対する大規模な実験は、当社のCoLo-CAMメソッドのメリットと、長期依存に対する堅牢性を示し、WSVOLタスクの新たな最先端パフォーマンスにつながった。

Leveraging spatiotemporal information in videos is critical for weakly supervised video object localization (WSVOL) tasks. However, state-of-the-art methods only rely on visual and motion cues, while discarding discriminative information, making them susceptible to inaccurate localizations. Recently, discriminative models have been explored for WSVOL tasks using a temporal class activation mapping (CAM) method. Although their results are promising, objects are assumed to have limited movement from frame to frame, leading to degradation in performance for relatively long-term dependencies. This paper proposes a novel CAM method for WSVOL that exploits spatiotemporal information in activation maps during training without constraining an object's position. Its training relies on Co-Localization, hence, the name CoLo-CAM. Given a sequence of frames, localization is jointly learned based on color cues extracted across the corresponding maps, by assuming that an object has similar color in consecutive frames. CAM activations are constrained to respond similarly over pixels with similar colors, achieving co-localization. This improves localization performance because the joint learning creates direct communication among pixels across all image locations and over all frames, allowing for transfer, aggregation, and correction of localizations. Co-localization is integrated into training by minimizing the color term of a conditional random field (CRF) loss over a sequence of frames/CAMs. Extensive experiments on two challenging YouTube-Objects datasets of unconstrained videos show the merits of our CoLo-CAM method, and its robustness to long-term dependencies, leading to new state-of-the-art performance for WSVOL task.
翻訳日:2024-02-29 12:04:09 公開日:2024-02-28
# 大振幅光猫状態を決定論的に生成する方法

Method to deterministically generate large-amplitude optical cat states ( http://arxiv.org/abs/2301.02839v3 )

ライセンス: Link先を確認
Zheng-Hong Li, Fei Yu, Zhen-Ya Li, M. Al-Amri, and M. Suhail Zubairy(参考訳) 大振幅光猫状態の決定論的調製法を提案する。 相互作用のない測定と量子ゼノ効果を利用してマクロとマイクロシステムの絡み合いを生成することが鍵となる。 この方法では、量子マイクロシステムと直接相互作用することなく、強い光場を緩やかに操作できる。 直接相互作用は、量子マイクロシステムと相互作用する光子のほんの一部しか持たない複数の相互作用によってバイパスされる。 そこで,本手法では,弱磁場環境内で量子マイクロシステムを完全に機能させることができる。 また,古典デバイスによる光学的損失が低い限り,量子マイクロシステムが大きな光子損失を被った場合でも,猫状態の調製が可能であることを示す。 量子マイクロシステムを説明するためにキャビティと原子のカップリングシステムを用いる。 相互作用の数が増加するにつれて、原子の自発的放出と原子とキャビティの間のデチューニングの両方に対する感度が低下することを示した。 したがって、古典光学系を改良して完全化することにより、猫状態の忠実度を高めることができる。

A deterministic preparation method for large-amplitude optical cat state is proposed. The key ingredient is to generate entanglement between macro and micro systems by utilizing interaction-free measurement and quantum Zeno effect. Our method enables the quantum microsystem to gently manipulate strong light field without directly interacting with it. The direct interaction is bypassed by multiple interactions, each of which has only a small fraction of photons interacting with the quantum microsystem. Therefore, our method allows the quantum microsystem to function entirely within a weak field environment, which is a distinct advantage of our method. Moreover, we also show that the cat state preparation can be achieved even if the quantum microsystem suffers from large photon loss, as long as optical losses from classical devices remain low. We use a cavity-atom coupling system to illustrate the quantum microsystem. We demonstrate that as the number of interactions increases, our scheme becomes less and less sensitive to both atomic spontaneous emission and detuning between the atom and the cavity. Therefore, the fidelity of the cat state can be increased by improving and perfecting the classical optical system.
翻訳日:2024-02-29 12:03:40 公開日:2024-02-28
# 大規模言語モデルのための意思決定と一般化可能なツール利用を目指して

Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models ( http://arxiv.org/abs/2402.16696v2 )

ライセンス: Link先を確認
Anchun Gui, Jian Li, Yong Dai, Nan Du, Han Xiao(参考訳) ツールによる大規模言語モデル(llm)は、最新の知識にアクセスし、幻覚の問題を緩和するときに広く注目を集めている。 今日では、高度なクローズドソース LLM (例:ChatGPT) は、プロンプトやコンテキスト内学習技術を通じて、驚くほどのツール使用能力を実証している。 ツール操作におけるオープンソースのLLM(例えばLLaMA)の機能を強化するため、現在の取り組みはテンプレート駆動またはトークントリガーツールの使用に重点を置いている。 しかしながら、制約されたツールインタラクションによる多様なユーザクエリに対処する、以前のLLMの柔軟性は、ツール使用学習がタスクとツール固有のデータセットに基づいているため、新しいツールを使用する際の一般化性を制限している。 本稿では,これらの懸念を軽減するために,DeER(Decior-aware and generalizable tool-usage framework)を提案する。 具体的には,複数の決定枝を持つツール使用サンプルを自動生成パイプラインで構築し,多様なシナリオにおいてllmの意思決定意識を喚起する。 一方,LLMの非表示ツールに対する一般化性を高めるための新しいツールサンプリング手法を提案する。 広範な実験により,提案するシカは有効性を示し,各種データセットのベースラインを著しく上回っている。

Tool-augmented large language models (LLMs) are attracting widespread attention when accessing up-to-date knowledge and alleviating hallucination issues. Nowadays, advanced closed-source LLMs (e.g., ChatGPT) have demonstrated surprising tool-usage capabilities through prompting and in-context learning techniques. To empower the capabilities of open-source LLMs (e.g., LLaMA) in manipulating tools, current efforts focus on either template-driven or token-triggered tool-usage. However, the former hampers LLMs' flexibility to address diverse user's queries due to constrained tool interactions, while the latter limits the generalizability when engaging with new tools, since tool-usage learning is based on task- and tool-specific datasets. To alleviate these concerns, in this paper, we propose a decision-aware and generalizable tool-usage framework (DEER). Specifically, we first construct the tool-usage samples with multiple decision branches via an automatic generation pipeline, thereby inspiring the decision-making awareness of LLMs under diverse scenarios. Meanwhile, we propose a novel tool sampling strategy to enhance the generalizability of LLMs over unseen tools. Extensive experiments demonstrate that our proposed DEER is effective and significantly outperforms baselines across various datasets.
翻訳日:2024-02-29 12:01:52 公開日:2024-02-28
# StructLM:構造化知識接地のための汎用モデルの構築に向けて

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding ( http://arxiv.org/abs/2402.16671v2 )

ライセンス: Link先を確認
Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen(参考訳) テーブル、グラフ、データベースなどの構造化データソースはユビキタスな知識ソースである。 プレーンテキスト上での大規模言語モデル(LLM)の実証能力にもかかわらず、構造化データの解釈と利用能力は依然として限られている。 我々の研究は、LLMが構造化データを処理する能力に顕著な欠陥があることを明らかにしている。例えば、ChatGPTは最先端(SoTA)モデルに平均35%遅れている。 llmsにおける構造化知識グラウンド(skg)機能を強化するため,111万例からなる包括的命令チューニングデータセットを開発した。 このデータセットを利用して、7Bから34BパラメータのCode-LLaMAアーキテクチャに基づいて、StructLMと呼ばれる一連のモデルをトレーニングする。 我々のStructLMシリーズは、評価された18のデータセットのうち14のタスク固有モデルを超え、7つのSKGタスクに新しいSoTAの成果を確立する。 さらに、StructLMは6つの新しいSKGタスクにまたがる例外的な一般化を示す。 予測とは対照的に,StructLM-34BはStructLM-7Bよりもわずかに改善されている。 これは、構造化知識基盤は依然として困難な課題であり、新しいレベルに進むためにはより革新的な設計が必要であることを示唆している。

Structured data sources, such as tables, graphs, and databases, are ubiquitous knowledge sources. Despite the demonstrated capabilities of large language models (LLMs) on plain text, their proficiency in interpreting and utilizing structured data remains limited. Our investigation reveals a notable deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags behind state-of-the-art (SoTA) model by an average of 35%. To augment the Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a comprehensive instruction tuning dataset comprising 1.1 million examples. Utilizing this dataset, we train a series of models, referred to as StructLM, based on the Code-LLaMA architecture, ranging from 7B to 34B parameters. Our StructLM series surpasses task-specific models on 14 out of 18 evaluated datasets and establishes new SoTA achievements on 7 SKG tasks. Furthermore, StructLM demonstrates exceptional generalization across 6 novel SKG tasks. Contrary to expectations, we observe that scaling model size offers marginal benefits, with StructLM-34B showing only slight improvements over StructLM-7B. This suggests that structured knowledge grounding is still a challenging task and requires more innovative design to push to a new level.
翻訳日:2024-02-29 12:01:29 公開日:2024-02-28
# PCR-99:99%のアウトリーチを持つポイントクラウド登録の実践的方法

PCR-99: A Practical Method for Point Cloud Registration with 99% Outliers ( http://arxiv.org/abs/2402.16598v2 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera, Patrick Vandewalle(参考訳) 本稿では,未知のスケールと極端外周比の両方を扱える点雲登録法を提案する。 本手法はpcr-99と呼ばれる決定論的3点サンプリング手法を用いて,(1)ペアワイズスケールの一貫性に基づくサンプルの順序付けの改善,(2)イリアーになりやすい点対応の優先順位付け,(2)トリプルトスケールの一貫性に基づく効率的な外れ値拒否スキーム,悪いサンプルの事前スクリーニング,およびテストすべき仮説の数を減らす,という2つの新しい機構を用いる。 評価の結果, 提案手法は, 最大98%の異常率で, 最先端技術に匹敵する性能が得られることがわかった。 しかし、99%のアウトラヤ比では、既知のスケールと未知のスケールの両方の問題で芸術の状態を上回ります。 特に後者では、ロバスト性と速度の観点から明らかな優位性を観察する。

We propose a robust method for point cloud registration that can handle both unknown scales and extreme outlier ratios. Our method, dubbed PCR-99, uses a deterministic 3-point sampling approach with two novel mechanisms that significantly boost the speed: (1) an improved ordering of the samples based on pairwise scale consistency, prioritizing the point correspondences that are more likely to be inliers, and (2) an efficient outlier rejection scheme based on triplet scale consistency, prescreening bad samples and reducing the number of hypotheses to be tested. Our evaluation shows that, up to 98% outlier ratio, the proposed method achieves comparable performance to the state of the art. At 99% outlier ratio, however, it outperforms the state of the art for both known-scale and unknown-scale problems. Especially for the latter, we observe a clear superiority in terms of robustness and speed.
翻訳日:2024-02-29 12:01:02 公開日:2024-02-28
# 大規模言語モデルのドメイン固有グラフデータベースへのアライメント

Aligning Large Language Models to a Domain-specific Graph Database ( http://arxiv.org/abs/2402.16567v2 )

ライセンス: Link先を確認
Yuanyuan Liang, Keren Tan, Tingyu Xie, Wenbiao Tao, Siyuan Wang, Yunshi Lan, Weining Qian(参考訳) グラフデータベース(Graph DB)は金融、ソーシャルネットワーク、医療など様々な分野で広く利用されている。 しかしながら、自然言語(NL)をグラフクエリ言語(GQL)に変換することは、NL2GQLとして知られているが、その固有の複雑さと特殊性のため、難しいことが証明されている。 大規模言語モデル(LLM)を使ってtext2SQLのような類似タスクに対処するアプローチもある。 それでも、特定のドメインでのNL2GQLタスクに関しては、ドメイン固有のNL-GQLデータペアが存在しないため、LLMとグラフDBの整合性を確立するのは難しい。 この課題に対処するために,我々は明確に定義されたパイプラインを提案する。 具体的には、ChatGPTを使用して、自己命令付きグラフDBに基づいて、NL-GQLデータペアを作成する。 次に、作成したデータを用いてLLMを微調整し、LLMとグラフDBの整合性を実現する。 さらに, 推定中に, クエリされたnlのスキーマを入力コンテキストとして抽出し, llmをガイドして正確なgqlを生成する手法を提案し, 金融領域のグラフdbと医学領域のグラフdb, fingqlとmedigqlから導出した2つのデータセットについて評価を行った。 実験の結果,EMでは5.90点,EMでは6.36点,EXでは6.00点,EXでは7.09点,それぞれ改良された。

Graph Databases (Graph DB) are widely applied in various fields, including finance, social networks, and medicine. However, translating Natural Language (NL) into the Graph Query Language (GQL), commonly known as NL2GQL, proves to be challenging due to its inherent complexity and specialized nature. Some approaches have sought to utilize Large Language Models (LLMs) to address analogous tasks like text2SQL. Nevertheless, when it comes to NL2GQL taskson a particular domain, the absence of domain-specific NL-GQL data pairs makes it difficult to establish alignment between LLMs and the graph DB. To address this challenge, we propose a well-defined pipeline. Specifically, we utilize ChatGPT to create NL-GQL data pairs based on the given graph DB with self-instruct. Then, we use the created data to fine-tune LLMs, thereby achieving alignment between LLMs and the graph DB. Additionally, during inference, we propose a method that extracts relevant schema to the queried NL as the input context to guide LLMs for generating accurate GQLs.We evaluate our method on two constructed datasets deriving from graph DBs in finance domain and medicine domain, namely FinGQL and MediGQL. Experimental results demonstrate that our method significantly outperforms a set of baseline methods, with improvements of 5.90 and 6.36 absolute points on EM, and 6.00 and 7.09 absolute points on EX, respectively.
翻訳日:2024-02-29 12:00:21 公開日:2024-02-28
# 単一原子を用いた整数プログラミング

Integer Programming Using A Single Atom ( http://arxiv.org/abs/2402.16541v2 )

ライセンス: Link先を確認
Kapil Goswami, Peter Schmelcher, Rick Mukherjee(参考訳) 整数型プログラミング(英: Integer Programming、IP)は、実世界の最適化問題を制約で定式化するために一般的に用いられる整数変数ベースの手法である。 現在、量子アルゴリズムは、間接的かつリソース消費の方法であるバイナリ変数を用いることで、IPを制約のない形式に再構成している。 我々は,十分な精度で制御可能な多数の内部自由度を持つ量子システムに対して,ip問題を元の形式でマップし,解決するアルゴリズムを開発した。 1つのRydberg原子を例として、整数値を異なる多様体に属する電子状態に関連付け、これらの異なる状態の選択的重ね合わせを実装して完全なIP問題を解く。 最適解は、最大8変数と最大4つの制約を持つプロトタイプIP問題に対して数マイクロ秒以内に見つかる。 これはまた、線形ip問題を含み、線形ip問題と比較して古典アルゴリズムでは解くのが通常困難である。 IP を解くアルゴリズムは、解の収束に必要なステップの数の観点から、よく知られた古典的アルゴリズム(ブランチとバウンド)より優れている。 提案手法は,古典的アルゴリズムと比較して,より大きな問題に対する解のバウンダリを改善する可能性を秘めている。

Integer programming (IP), as the name suggests is an integer-variable-based approach commonly used to formulate real-world optimization problems with constraints. Currently, quantum algorithms reformulate the IP into an unconstrained form through the use of binary variables, which is an indirect and resource-consuming way of solving it. We develop an algorithm that maps and solves an IP problem in its original form to any quantum system that possesses a large number of accessible internal degrees of freedom that can be controlled with sufficient accuracy. Using a single Rydberg atom as an example, we associate the integer values to electronic states belonging to different manifolds and implement a selective superposition of these different states to solve the full IP problem. The optimal solution is found within a few microseconds for prototypical IP problems with up to eight variables and a maximum number of four constraints. This also includes non-linear IP problems, which are usually harder to solve with classical algorithms when compared to their linear counterparts. Our algorithm for solving IP outperforms a well-known classical algorithm (branch and bound) in terms of the number of steps needed for convergence to the solution. Our approach carries the potential to improve bounds on the solution for larger problems when compared to the classical algorithms.
翻訳日:2024-02-29 11:59:52 公開日:2024-02-28
# メモリGAPS: LLMはTulving Testに合格するのか?

Memory GAPS: Would LLMs pass the Tulving Test? ( http://arxiv.org/abs/2402.16505v2 )

ライセンス: Link先を確認
Jean-Marie Chauvet(参考訳) Tulving Testは、認識およびリコールタスクにおけるメモリパフォーマンスを調査するために設計された。 この結果は、記憶の「シンナージスティック・エフォリー・モデル」と類似したrkパラダイムの人間のパフォーマンスとの関連性を評価するのに役立つ。 本稿は,44年以上のフレームワークがLLMの記憶行動に光を当てているかどうかを考察する。

The Tulving Test was designed to investigate memory performance in recognition and recall tasks. Its results help assess the relevance of the "Synergistic Ecphory Model" of memory and similar RK paradigms in human performance. This paper starts investigating whether the more than forty-year-old framework sheds some light on LLMs' acts of remembering.
翻訳日:2024-02-29 11:59:33 公開日:2024-02-28
# LLM推論が明らかに:サーベイとルーフラインモデル

LLM Inference Unveiled: Survey and Roofline Model Insights ( http://arxiv.org/abs/2402.16363v2 )

ライセンス: Link先を確認
Zhihang Yuan, Yuzhang Shang, Yang Zhou, Zhen Dong, Chenhao Xue, Bingzhe Wu, Zhikai Li, Qingyi Gu, Yong Jae Lee, Yan Yan, Beidi Chen, Guangyu Sun, Kurt Keutzer(参考訳) 効率的な大規模言語モデル(llm)推論の分野は急速に進化しており、機会と課題のユニークなブレンドを示している。 フィールドは拡張され、活気があるが、このドメインを明確に理解するために、LLM推論の様々なメソッドを分析する簡潔なフレームワークは存在していない。 本調査は,研究の現状を要約するだけでなく,LLM推論手法の系統解析のための屋上モデルに基づく枠組みを導入することで,従来の文献レビューから際立っている。 このフレームワークは、LLMをハードウェアデバイスにデプロイする際のボトルネックを特定し、LCMがメモリバウンドである理由、必要なメモリと計算量、適切なハードウェアを選択する方法など、実用的な問題を明確に理解する。 我々は、効率的なllm推論における最新の進歩を体系的に調整し、モデル圧縮(例えば、知識の蒸留と量子化)、アルゴリズムの改善(例えば、アーリーエグジットとミキシング・オブ・エキスパート)、ハードウェアとシステムレベルの強化といった重要な領域をカバーする。 本調査では,これらの手法を屋上モデルで解析し,メモリアクセスと計算への影響を明らかにする。 この独特なアプローチは、現在の研究状況を示すだけでなく、我々の研究をこの分野に新たに参入した研究者や、効率的なLLMデプロイメントの理解を深めようとする研究者にとって欠かせない資源として位置づける、実践的な実践のための貴重な洞察を提供する。 LLM-Viewerはオープンソースである。

The field of efficient Large Language Model (LLM) inference is rapidly evolving, presenting a unique blend of opportunities and challenges. Although the field has expanded and is vibrant, there hasn't been a concise framework that analyzes the various methods of LLM Inference to provide a clear understanding of this domain. Our survey stands out from traditional literature reviews by not only summarizing the current state of research but also by introducing a framework based on roofline model for systematic analysis of LLM inference techniques. This framework identifies the bottlenecks when deploying LLMs on hardware devices and provides a clear understanding of practical problems, such as why LLMs are memory-bound, how much memory and computation they need, and how to choose the right hardware. We systematically collate the latest advancements in efficient LLM inference, covering crucial areas such as model compression (e.g., Knowledge Distillation and Quantization), algorithm improvements (e.g., Early Exit and Mixture-of-Expert), and both hardware and system-level enhancements. Our survey stands out by analyzing these methods with roofline model, helping us understand their impact on memory access and computation. This distinctive approach not only showcases the current research landscape but also delivers valuable insights for practical implementation, positioning our work as an indispensable resource for researchers new to the field as well as for those seeking to deepen their understanding of efficient LLM deployment. The analyze tool LLM-Viewer is open-sourced.
翻訳日:2024-02-29 11:59:26 公開日:2024-02-28
# アノテーション効率の良いNucleus InstanceセグメンテーションのためのFew-Shot Learning

Few-Shot Learning for Annotation-Efficient Nucleus Instance Segmentation ( http://arxiv.org/abs/2402.16280v2 )

ライセンス: Link先を確認
Yu Ming, Zihao Wu, Jie Yang, Danyi Li, Yuan Gao, Changxin Gao, Gui-Song Xia, Yuanqing Li, Li Liang and Jin-Gang Yu(参考訳) 病理組織像からの核インスタンスセグメンテーションは、非常に退屈で専門家に依存した核インスタンスのアノテーションに悩まされている。 この課題に対する有望な解決策として、アノテーション効率のよいディープラーニングパラダイムは、弱い/半教師付き学習、生成的敵対的学習など、近年多くの研究関心を集めている。 本稿では,マイズショット学習(fsl)の観点から,アノテーション効率の高い核インスタンスセグメンテーションを提案する。 私たちの研究は、計算病理学の隆盛とともに、注釈付きデータセットの数が増加しており、これらの外部データセットを利用して、非常に限定的なアノテーションしか持たないターゲットデータセットのnucleusインスタンスセグメンテーションを支援したいと考えています。 この目標を達成するためには、メタラーニングに基づくFSLパラダイムを採用していますが、タスクに適応する前には、2つの実質的な側面で調整する必要があります。 まず、新規クラスは外部データセットと矛盾する可能性があるため、FSIS( few-shot instance segmentation)の基本定義を一般化したGFSIS( few-shot instance segmentation)に拡張する。 第2に, 隣接細胞間の接触, 細胞不均一性など, 核セグメンテーションの本質的な課題に対処するため, さらに構造誘導機構をGFSISネットワークに導入し, 最終的に構造誘導型汎用Few-Shot Instance Segmentation (SGFSIS) フレームワークを実現する。 公開データセットの大規模な実験により、SGFSISは、半教師付き学習、単純な転送学習など、アノテーションを5%未満で完全に教師付き学習に匹敵するパフォーマンスで、他のアノテーション効率のよい学習ベースラインを上回ります。

Nucleus instance segmentation from histopathology images suffers from the extremely laborious and expert-dependent annotation of nucleus instances. As a promising solution to this task, annotation-efficient deep learning paradigms have recently attracted much research interest, such as weakly-/semi-supervised learning, generative adversarial learning, etc. In this paper, we propose to formulate annotation-efficient nucleus instance segmentation from the perspective of few-shot learning (FSL). Our work was motivated by that, with the prosperity of computational pathology, an increasing number of fully-annotated datasets are publicly accessible, and we hope to leverage these external datasets to assist nucleus instance segmentation on the target dataset which only has very limited annotation. To achieve this goal, we adopt the meta-learning based FSL paradigm, which however has to be tailored in two substantial aspects before adapting to our task. First, since the novel classes may be inconsistent with those of the external dataset, we extend the basic definition of few-shot instance segmentation (FSIS) to generalized few-shot instance segmentation (GFSIS). Second, to cope with the intrinsic challenges of nucleus segmentation, including touching between adjacent cells, cellular heterogeneity, etc., we further introduce a structural guidance mechanism into the GFSIS network, finally leading to a unified Structurally-Guided Generalized Few-Shot Instance Segmentation (SGFSIS) framework. Extensive experiments on a couple of publicly accessible datasets demonstrate that, SGFSIS can outperform other annotation-efficient learning baselines, including semi-supervised learning, simple transfer learning, etc., with comparable performance to fully supervised learning with less than 5% annotations.
翻訳日:2024-02-29 11:58:57 公開日:2024-02-28
# オントロジー推定のためのアノテーション埋め込みモデルを用いた自己整合学習法

A Self-matching Training Method with Annotation Embedding Models for Ontology Subsumption Prediction ( http://arxiv.org/abs/2402.16278v2 )

ライセンス: Link先を確認
Yukihiro Shiraishi, Ken Kaneiwa(参考訳) 近年、低次元空間における実体を表すオントロジー埋め込みがオントロジー完備化のために提案されている。 しかし、概念仮定予測のためのオントロジー埋め込みは類似し孤立した実体の難しさに対処せず、注釈公理の全体的情報をオントロジーから取り出すことに失敗している。 本稿では,InME(Inverted-index Matrix Embedding)とCoME(Co-occurrence Matrix Embedding)の2つのオントロジー埋め込みモデルの自己マッチング学習手法を提案する。 この2つの埋め込みは、各単語の公理における発生した位置と各公理における単語の共起によって、グローバルおよびローカル情報をアノテーション公理でキャプチャする。 自己マッチング訓練法は、予測されたスーパークラスがサブクラスに類似し、オントロジーにおいて他のエンティティに分離された場合に、概念推定のロバスト性を高める。 評価実験により,InMEを用いた自己マッチング学習法は,GOおよびFoodOnオントロジーの既存のオントロジー埋め込みよりも優れており,CoMEとOWL2Vec*の結合による手法の方がHeLiSオントロジーよりも優れていることが示された。

Recently, ontology embeddings representing entities in a low-dimensional space have been proposed for ontology completion. However, the ontology embeddings for concept subsumption prediction do not address the difficulties of similar and isolated entities and fail to extract the global information of annotation axioms from an ontology. In this paper, we propose a self-matching training method for the two ontology embedding models: Inverted-index Matrix Embedding (InME) and Co-occurrence Matrix Embedding (CoME). The two embeddings capture the global and local information in annotation axioms by means of the occurring locations of each word in a set of axioms and the co-occurrences of words in each axiom. The self-matching training method increases the robustness of the concept subsumption prediction when predicted superclasses are similar to subclasses and are isolated to other entities in an ontology. Our evaluation experiments show that the self-matching training method with InME outperforms the existing ontology embeddings for the GO and FoodOn ontologies and that the method with the concatenation of CoME and OWL2Vec* outperforms them for the HeLiS ontology.
翻訳日:2024-02-29 11:58:23 公開日:2024-02-28
# UniRetriever: コンテキスト適応型会話検索のためのマルチタスク候補選択

UniRetriever: Multi-task Candidates Selection for Various Context-Adaptive Conversational Retrieval ( http://arxiv.org/abs/2402.16261v2 )

ライセンス: Link先を確認
Hongru Wang, Boyang Xue, Baohang Zhou, Rui Wang, Fei Mi, Weichao Wang, Yasheng Wang, Kam-Fai Wong(参考訳) 会話検索とは、ユーザと効果的に関わり、対話を成功させるために、ペルソナ、知識、さらには応答といった様々な外部リソースの検索を必要とする反復的かつ対話的な方法で動作する情報検索システムである。 しかし、これまでのほとんどの作業では、個々のリソースに対して独立したレトリバーを訓練し、結果として準最適性能と低効率を実現した。 そこで本研究では,対話中の3つの支配的検索タスク(ペルソナ選択,知識選択,応答選択)の共通検索機能としてマルチタスクフレームワーク機能を提案する。 そこで本研究では,コンテキスト適応型対話エンコーダと候補エンコーダからなるデュアルエンコーダアーキテクチャを設計し,長文対話から関連するコンテキストに注意を向け,ドット積だけで適切な候補を検索する。 さらに, 歴史的に選択された候補をハードネガとして扱うことにより, 対話コンテキストと候補間の微妙な関係を捉えるために, 二つの損失制約を導入する。 広範な実験と分析により,学習領域内外において最先端の検索品質が確立され,異なる候補選択タスクの普遍的検索として機能するモデルの有望な可能性と一般化能力が明らかにされた。

Conversational retrieval refers to an information retrieval system that operates in an iterative and interactive manner, requiring the retrieval of various external resources, such as persona, knowledge, and even response, to effectively engage with the user and successfully complete the dialogue. However, most previous work trained independent retrievers for each specific resource, resulting in sub-optimal performance and low efficiency. Thus, we propose a multi-task framework function as a universal retriever for three dominant retrieval tasks during the conversation: persona selection, knowledge selection, and response selection. To this end, we design a dual-encoder architecture consisting of a context-adaptive dialogue encoder and a candidate encoder, aiming to attention to the relevant context from the long dialogue and retrieve suitable candidates by simply a dot product. Furthermore, we introduce two loss constraints to capture the subtle relationship between dialogue context and different candidates by regarding historically selected candidates as hard negatives. Extensive experiments and analysis establish state-of-the-art retrieval quality both within and outside its training domain, revealing the promising potential and generalization capability of our model to serve as a universal retriever for different candidate selection tasks simultaneously.
翻訳日:2024-02-29 11:57:59 公開日:2024-02-28
# 機械学習資産管理における課題の実証的研究

An Empirical Study of Challenges in Machine Learning Asset Management ( http://arxiv.org/abs/2402.15990v2 )

ライセンス: Link先を確認
Zhimin Zhao, Yihao Chen, Abdul Ali Bangash, Bram Adams, Ahmed E. Hassan(参考訳) 機械学習(ML)では、MLモデル、データセット、アルゴリズム、ツールを含む効率的な資産管理が、リソースの最適化、一貫したパフォーマンス、開発ライフサイクルの合理化に不可欠である。 これにより、イテレーションの迅速化、適応性、開発からデプロイまでの時間短縮、信頼性の高いアウトプットが可能になる。 既存の研究にもかかわらず、MLプロジェクトの成功に不可欠なモデルバージョニング、データトレーサビリティ、コラボレーションといった運用上の課題には、大きな知識ギャップが残っている。 本研究の目的は,開発者フォーラムやプラットフォームから15,065件の投稿を分析し,質問を分類し,BERTopicを用いて課題を抽出し,オープンカードソートやBERTopicクラスタリングによるソリューションの同定を行うことである。 我々は,アセットマネジメントの課題に関連する133のトピックを,ソフトウェアの依存性,モデル展開,モデルトレーニングなど16のマクロトピックに分類した。 また、79のソリューショントピックを見つけ、18のマクロトピックに分類し、ソフトウェア依存性、機能開発、ファイル管理を重要ソリューションとして強調します。 この研究は、特定された痛点のさらなる探究の必要性と、学界、産業、研究コミュニティにおける協力的努力の重要性を基礎としている。

In machine learning (ML), efficient asset management, including ML models, datasets, algorithms, and tools, is vital for resource optimization, consistent performance, and a streamlined development lifecycle. This enables quicker iterations, adaptability, reduced development-to-deployment time, and reliable outputs. Despite existing research, a significant knowledge gap remains in operational challenges like model versioning, data traceability, and collaboration, which are crucial for the success of ML projects. Our study aims to address this gap by analyzing 15,065 posts from developer forums and platforms, employing a mixed-method approach to classify inquiries, extract challenges using BERTopic, and identify solutions through open card sorting and BERTopic clustering. We uncover 133 topics related to asset management challenges, grouped into 16 macro-topics, with software dependency, model deployment, and model training being the most discussed. We also find 79 solution topics, categorized under 18 macro-topics, highlighting software dependency, feature development, and file management as key solutions. This research underscores the need for further exploration of identified pain points and the importance of collaborative efforts across academia, industry, and the research community.
翻訳日:2024-02-29 11:57:38 公開日:2024-02-28
# MATHWELL: 教育用数学語を大規模に生成する

MATHWELL: Generating Educational Math Word Problems at Scale ( http://arxiv.org/abs/2402.15861v2 )

ライセンス: Link先を確認
Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen(参考訳) 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、ドメインの専門知識を必要とする。 我々は,K-8の数学教育を支援する言語モデルを提案する。 教育的であり 生み出す問題は 1)解決可能。 2)正確で,かつ 3) 適当。 既存のデータセットはこれらの基準にラベルを付けておらず、問題発生器のトレーニングに適していない。 我々は,専門家アノテーションから得られたデータを用いて,K-8数学語問題を生成するために繰り返し微調整されたLlama-2 (70B)モデルMATHWELLを紹介する。 MATHWELLを用いて、20,490個の問題を含むPoT(Program of Thought)論理を用いた最大英語単語問題データセットを生成する。 3.484 は、MATHWELL が実行可能解を持ち、代替案よりも全ての基準を満たす問題の割合が40%高く、実行可能解の74%が解決可能で正確で適切である、というドメインの専門家によって評価されている。 私たちはモデル、データ、アノテーションをリリースします。

Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems at scale. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. We introduce MATHWELL, a Llama-2 (70B) model iteratively finetuned to generate K-8 math word problems using data from expert annotation. Using MATHWELL, we generate the largest English word problem dataset with Program of Thought (PoT) rationales to date, containing 20,490 problems. 3,484 are scored by domain experts who find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than alternatives, with 74% of its problems with executable solutions being solvable, accurate, and appropriate. We release our model, data, and annotations.
翻訳日:2024-02-29 11:56:41 公開日:2024-02-28
# PolypNextLSTM:ConvNextとConvLSTMを用いた軽量かつ高速なPolypビデオセグメンテーションネットワーク

PolypNextLSTM: A lightweight and fast polyp video segmentation network using ConvNext and ConvLSTM ( http://arxiv.org/abs/2402.11585v3 )

ライセンス: Link先を確認
Debayan Bhattacharya, Konrad Reuter, Finn Behrendt, Lennart Maack, Sarah Grube, Alexander Schlaefer(参考訳) ポリプセグメンテーションで一般的に用いられる単一の画像unetアーキテクチャは、ポリープの診断においてビデオデータから得られる時間的洞察が欠如している。 臨床実践をより忠実に反映するために,提案手法であるPolypNextLSTMは,映像に基づく深層学習を活用し,時間的情報を利用して,最小パラメータオーバーヘッドでセグメンテーション性能を向上させる。 PolypNextLSTMは、UNetライクな構造で、ConvNext-Tinyをバックボーンとして、パラメータオーバーヘッドを減らすために、最後の2つのレイヤを戦略的に省略する。 我々の時間融合モジュールであるConvLSTM(Convolutional Long Short Term Memory)は、時間的特徴を効果的に活用する。 我々の主な特徴はPolypNextLSTMであり、パラメータの最もリーンで最速のモデルであり、5つの最先端の画像モデルとビデオベースのディープラーニングモデルの性能を上回っている。 sun-segデータセットの評価は、高速モーションやオクルージョンのような挑戦的なアーティファクトを含むビデオとともに、検出が容易で検出が難しいポリプシナリオにまたがる。 5つの画像ベースモデルと5つのビデオベースモデルを比較すると、PolypNextLSTMの優位性が示され、画像ベース PraNet (0.7519) とビデオベース PNSPlusNet (0.7486) を上回った。 特にこのモデルは,ゴーストやオクルージョンなどの複雑なアーティファクトを特徴とするビデオに優れている。 Pruned ConvNext-TinyとConvLSTMを統合したPolypNextLSTMは、セグメンテーション性能が優れているだけでなく、評価モデルの中でも最高フレームを維持している。 アクセスコード https://github.com/mtec-tuhh/polypnextlstm

Commonly employed in polyp segmentation, single image UNet architectures lack the temporal insight clinicians gain from video data in diagnosing polyps. To mirror clinical practices more faithfully, our proposed solution, PolypNextLSTM, leverages video-based deep learning, harnessing temporal information for superior segmentation performance with the least parameter overhead, making it possibly suitable for edge devices. PolypNextLSTM employs a UNet-like structure with ConvNext-Tiny as its backbone, strategically omitting the last two layers to reduce parameter overhead. Our temporal fusion module, a Convolutional Long Short Term Memory (ConvLSTM), effectively exploits temporal features. Our primary novelty lies in PolypNextLSTM, which stands out as the leanest in parameters and the fastest model, surpassing the performance of five state-of-the-art image and video-based deep learning models. The evaluation of the SUN-SEG dataset spans easy-to-detect and hard-to-detect polyp scenarios, along with videos containing challenging artefacts like fast motion and occlusion. Comparison against 5 image-based and 5 video-based models demonstrates PolypNextLSTM's superiority, achieving a Dice score of 0.7898 on the hard-to-detect polyp test set, surpassing image-based PraNet (0.7519) and video-based PNSPlusNet (0.7486). Notably, our model excels in videos featuring complex artefacts such as ghosting and occlusion. PolypNextLSTM, integrating pruned ConvNext-Tiny with ConvLSTM for temporal fusion, not only exhibits superior segmentation performance but also maintains the highest frames per speed among evaluated models. Access code here https://github.com/mtec-tuhh/PolypNextLSTM
翻訳日:2024-02-29 11:56:06 公開日:2024-02-28
# 自動運転車: 人工知能と学習アルゴリズムの進化

Autonomous Vehicles: Evolution of Artificial Intelligence and Learning Algorithms ( http://arxiv.org/abs/2402.17690v2 )

ライセンス: Link先を確認
Divya Garikapati and Sneha Sudhir Shetiya(参考訳) 自動運転車の出現は交通の変革の時代を告げ、最先端技術による移動の風景を形作り変えた。 この進化の中心は人工知能(AI)と学習アルゴリズムの統合であり、前例のない自律性の領域に車両を推進している。 本稿では,自律走行車におけるAIの進化軌道を包括的に探求し,基礎原理から最新の進歩への道程をたどる。 現状を概観すると、この論文は、自動運転車の自律的な意思決定能力を形作る上で、AIの基本的な役割を掘り下げている。 自動運転車のAI駆動ソフトウェア開発における倫理的考慮と偏見に対処するため、自動車のAI駆動開発ライフサイクルに関わるステップを解明する。 この研究は、長年にわたるAI/学習アルゴリズムの使用状況とタイプに関する統計的な洞察を示し、自動車業界における研究の展望を示している。 さらに,トラックと車両の精錬アルゴリズムにおけるパラメータの役割を強調し,車両が時間とともに適応し,学習し,性能を向上させることを可能にした。 さまざまなレベルの自律性を概説し、AIと学習アルゴリズムの微妙な使用を解明し、各レベルで重要なタスクを自動化することで締めくくっている。 さらに、この文書では、さまざまな自律レベルにわたるソフトウェアパッケージサイズの変化について論じている。

The advent of autonomous vehicles has heralded a transformative era in transportation, reshaping the landscape of mobility through cutting-edge technologies. Central to this evolution is the integration of Artificial Intelligence (AI) and learning algorithms, propelling vehicles into realms of unprecedented autonomy. This paper provides a comprehensive exploration of the evolutionary trajectory of AI within autonomous vehicles, tracing the journey from foundational principles to the most recent advancements. Commencing with a current landscape overview, the paper delves into the fundamental role of AI in shaping the autonomous decision-making capabilities of vehicles. It elucidates the steps involved in the AI-powered development life cycle in vehicles, addressing ethical considerations and bias in AI-driven software development for autonomous vehicles. The study presents statistical insights into the usage and types of AI/learning algorithms over the years, showcasing the evolving research landscape within the automotive industry. Furthermore, the paper highlights the pivotal role of parameters in refining algorithms for both trucks and cars, facilitating vehicles to adapt, learn, and improve performance over time. It concludes by outlining different levels of autonomy, elucidating the nuanced usage of AI and learning algorithms, and automating key tasks at each level. Additionally, the document discusses the variation in software package sizes across different autonomy levels
翻訳日:2024-02-29 11:50:56 公開日:2024-02-28
# DAGnosis: 構造を用いたデータ不整合の局所的同定

DAGnosis: Localized Identification of Data Inconsistencies using Structures ( http://arxiv.org/abs/2402.17599v2 )

ライセンス: Link先を確認
Nicolas Huynh, Jeroen Berrevoets, Nabeel Seedat, Jonathan Crabb\'e, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 機械学習モデルを確実に使用するためには,デプロイメント時のデータ不整合の識別と適切な処理が不可欠である。 最近のデータセントリックな手法は、トレーニングセットに関してこのような矛盾を識別できるが、(1)圧縮表現の使用による特徴が統計的に無依存である設定における非最適性、(2)サンプルが一貫性に欠ける可能性がある理由をピンポイントで特定できない、という2つの重要な制限に苦しめられている。 本研究では、有向非巡回グラフ(DAG)を用いて、トレーニングセットの特徴分布と非依存性を構造として符号化する。 dagnosisと呼ばれるこの手法は、これらの構造的相互作用を利用して、価値と洞察に富んだデータ中心の結論をもたらす。 DAGnosisは、従来のアプローチで見過ごされた側面であるDAG上の不整合の原因の局所化を解き放つ。 さらに,これらの相互作用を活用することにより,(1)不整合の検出におけるより正確な結論が得られ,(2)サンプルのフラグ付けについてより詳細な知見が得られた。

Identification and appropriate handling of inconsistencies in data at deployment time is crucial to reliably use machine learning models. While recent data-centric methods are able to identify such inconsistencies with respect to the training set, they suffer from two key limitations: (1) suboptimality in settings where features exhibit statistical independencies, due to their usage of compressive representations and (2) lack of localization to pin-point why a sample might be flagged as inconsistent, which is important to guide future data collection. We solve these two fundamental limitations using directed acyclic graphs (DAGs) to encode the training set's features probability distribution and independencies as a structure. Our method, called DAGnosis, leverages these structural interactions to bring valuable and insightful data-centric conclusions. DAGnosis unlocks the localization of the causes of inconsistencies on a DAG, an aspect overlooked by previous approaches. Moreover, we show empirically that leveraging these interactions (1) leads to more accurate conclusions in detecting inconsistencies, as well as (2) provides more detailed insights into why some samples are flagged.
翻訳日:2024-02-29 11:50:35 公開日:2024-02-28
# 地磁気摂動予測のためのスパース変分汚染ノイズガウス過程回帰

Sparse Variational Contaminated Noise Gaussian Process Regression for Forecasting Geomagnetic Perturbations ( http://arxiv.org/abs/2402.17570v2 )

ライセンス: Link先を確認
Daniel Iong, Matthew McAnear, Yuezhou Qu, Shasha Zou, Gabor Toth, Yang Chen(参考訳) ガウス過程(GP)は、複雑な共分散構造を持つデータセットに基づくカーネルベース学習の一般的な機械学習手法となっている。 本稿では,汚染された正規確率関数を用いたGPフレームワークの新たな拡張について述べる。 本研究では,sparse variational gaussian process (svgp) 法に基づくスケーラブルな推定アルゴリズムを提案する。 本研究では,最先端予測モデルがニューラルネットワークに基づく地磁気摂動への適用について検討する。 提案手法は, 人工ニューラルネットワークベースラインと比較して, 類似のカバレッジと精度の予測間隔が短いことを示す。

Gaussian Processes (GP) have become popular machine learning methods for kernel based learning on datasets with complicated covariance structures. In this paper, we present a novel extension to the GP framework using a contaminated normal likelihood function to better account for heteroscedastic variance and outlier noise. We propose a scalable inference algorithm based on the Sparse Variational Gaussian Process (SVGP) method for fitting sparse Gaussian process regression models with contaminated normal noise on large datasets. We examine an application to geomagnetic ground perturbations, where the state-of-art prediction model is based on neural networks. We show that our approach yields shorter predictions intervals for similar coverage and accuracy when compared to an artificial dense neural network baseline.
翻訳日:2024-02-29 11:50:14 公開日:2024-02-28
# 画像品質評価モデルに対するブラックボックス広告攻撃

Black-box Adversarial Attacks Against Image Quality Assessment Models ( http://arxiv.org/abs/2402.17533v2 )

ライセンス: Link先を確認
Yu Ran, Ao-Xiang Zhang, Mingjie Li, Weixuan Tang, Yuan-Gen Wang(参考訳) No-Reference Image Quality Assessment (NR-IQA)の目標は、画像の知覚的品質を主観的評価に従って予測することである。 NR-IQAモデルを実践するためには、モデル改良のための潜在的な抜け穴を研究することが不可欠である。 本稿では,NR-IQAモデルに対するブラックボックス攻撃を初めて検討する。 具体的には、まず、視覚品質保存のための摂動画像歪みを制限しつつ、原画像と摂動画像の推定品質スコアの偏差を最大化する攻撃問題を定式化する。 このような定式化の下では,最大偏差のある反対方向に向けて,敵例の推定品質スコアを誤解させる双方向損失関数を設計する。 そこで我々はNR-IQAモデルに対する効率的かつ効果的なブラックボックス攻撃法を開発した。 実験の結果,評価されたNR-IQAモデルはすべて攻撃法に弱いことがわかった。 生成された摂動は伝達不可能であり、異なるIQAモデルの特殊性の調査に役立てることができる。

The goal of No-Reference Image Quality Assessment (NR-IQA) is to predict the perceptual quality of an image in line with its subjective evaluation. To put the NR-IQA models into practice, it is essential to study their potential loopholes for model refinement. This paper makes the first attempt to explore the black-box adversarial attacks on NR-IQA models. Specifically, we first formulate the attack problem as maximizing the deviation between the estimated quality scores of original and perturbed images, while restricting the perturbed image distortions for visual quality preservation. Under such formulation, we then design a Bi-directional loss function to mislead the estimated quality scores of adversarial examples towards an opposite direction with maximum deviation. On this basis, we finally develop an efficient and effective black-box attack method against NR-IQA models. Extensive experiments reveal that all the evaluated NR-IQA models are vulnerable to the proposed attack method. And the generated perturbations are not transferable, enabling them to serve the investigation of specialities of disparate IQA models.
翻訳日:2024-02-29 11:50:02 公開日:2024-02-28
# 周術期ケアのための大規模言語モデルの作成:事前学習モデルに適切な用法は何か?

Prescribing Large Language Models for Perioperative Care: What's The Right Dose for Pre-trained Models? ( http://arxiv.org/abs/2402.17493v2 )

ライセンス: Link先を確認
Bing Xue, Charles Alba, Joanna Abraham, Thomas Kannampallil, Chenyang Lu(参考訳) 術後のリスク予測は、効果的な周術期ケア管理と計画に影響を及ぼす。 臨床大言語モデル (LLM) が術後のリスクを予測できるかどうかを, 様々なトレーニング戦略を用いて評価することを目的とした。 2018年から2021年の間、バーンズ・ユダヤ人病院(BJH)の84,875件の記録を保有していた。 方法はベス・イスラエル・デコネスのMIMICデータセットで再現された。 両研究とも術後のICU持続期間は7日以内であった。 BJHデータセットでは,30日間の死亡,肺塞栓症(PE),肺炎が認められた。 BioGPT, ClinicalBERT, BioClinicalBERTの3つのドメイン適応および微調整戦略が, 自己指導目的, ラベルを半教師付き微調整, マルチタスク学習による基礎的モデリングによって実現された。 モデル性能は,受信者の動作特性曲線 (auroc) の下の領域と, 分類タスクの精度リコール曲線 (auprc) の領域, 回帰タスクの平均二乗誤差 (mse) と r2 を用いて比較した。 事前訓練されたLLMは従来の単語埋め込みよりも優れており、AUROCは38.3%、AUPRCは14%だった。 適応モデルの性能はさらに向上した:(1)aurocでは3.2%、auprcでは1.5%、(2)aurocでは1.8%、auprcでは2%、(3)aurocでは3.6%、auprcでは2.6%の自己教師付き微調整である。 事前訓練された臨床LSMは、周術期医療におけるLSMの一般化可能性に対するタスク非依存学習の可能性を示す基礎モデルにおいて、予期せぬデータにおける術後リスク予測の機会を提供する。

Postoperative risk predictions can inform effective perioperative care management and planning. We aimed to assess whether clinical large language models (LLMs) can predict postoperative risks using clinical texts with various training strategies. The main cohort involved 84,875 records from Barnes Jewish Hospital (BJH) system between 2018 and 2021. Methods were replicated on Beth Israel Deaconess's MIMIC dataset. Both studies had mean duration of follow-up based on the length of postoperative ICU stay less than 7 days. For the BJH dataset, outcomes included 30-day mortality, pulmonary embolism (PE) and pneumonia. Three domain adaptation and finetuning strategies were implemented for BioGPT, ClinicalBERT and BioClinicalBERT: self-supervised objectives; incorporating labels with semi-supervised fine-tuning; and foundational modelling through multi-task learning. Model performance was compared using the area under the receiver operating characteristic curve (AUROC) and the area under the precision recall curve (AUPRC) for classification tasks, and mean squared error (MSE) and R2 for regression tasks. Pre-trained LLMs outperformed traditional word embeddings, with absolute maximal gains of 38.3% for AUROC and 14% for AUPRC. Adapting models further improved performance: (1) self-supervised finetuning by 3.2% for AUROC and 1.5% for AUPRC; (2) semi-supervised finetuning by 1.8% for AUROC and 2% for AUPRC, compared to self-supervised finetuning; (3) foundational modelling by 3.6% for AUROC and 2.6% for AUPRC, compared to self-supervised finetuning. Pre-trained clinical LLMs offer opportunities for postoperative risk predictions in unforeseen data, with peaks in foundational models indicating the potential of task-agnostic learning towards the generalizability of LLMs in perioperative care.
翻訳日:2024-02-29 11:49:42 公開日:2024-02-28
# 事前学習したコントラスト型EEG-Text Masked Autoencoderからの伝達可能な表現によるEEG-to-Textデコーディングの強化

Enhancing EEG-to-Text Decoding through Transferable Representations from Pre-trained Contrastive EEG-Text Masked Autoencoder ( http://arxiv.org/abs/2402.17433v2 )

ライセンス: Link先を確認
Jiaqi Wang, Zhenxi Song, Zhengyu Ma, Xipeng Qiu, Min Zhang, Zhiguo Zhang(参考訳) 非侵襲的脳波から自然言語を再構築することは、bcis(brain-computer interface)のための言語デコード技術として大きな期待を抱いている。 しかし、EEGベースの言語デコーディングはまだ初期段階にあり、次のような技術的な問題に直面している。 1) 脳波の特徴又はテクストシーケンスのモダリティ内自己構築と(脳波とテキストの間の)相互モダリティを効果的に統合できるハイブリッド戦略の欠如 2) 大規模言語モデル(llms)の過小利用によるeegに基づく言語デコーディングの強化。 以上の課題に対処するため,コントラスト型脳波テキストマスケドオートエンコーダ(CET-MAE)を提案する。 さらに、CET-MAEからのEEGストリームと並行してトレーニング済みのモジュールを活用できるE2T-PTR(Pretrained Transferable Representationsを用いたEEG-to-Text decoding)というフレームワークを開発し、さらにLLM(特にBART)がEEGシーケンスからテキストをデコードできるようにする。 一般的なテキスト誘発脳波データベースであるzucoを用いた包括的な実験により、e2t-ptrはrouge-1 f1とbleu-4のスコアをそれぞれ8.34%、32.21%で上回っている。 これらの結果はこの分野の大きな進歩を示し、より強力で広範なbciアプリケーションを可能にするフレームワークの可能性を強調している。

Reconstructing natural language from non-invasive electroencephalography (EEG) holds great promise as a language decoding technology for brain-computer interfaces (BCIs). However, EEG-based language decoding is still in its nascent stages, facing several technical issues such as: 1) Absence of a hybrid strategy that can effectively integrate cross-modality (between EEG and text) self-learning with intra-modality self-reconstruction of EEG features or textual sequences; 2) Under-utilization of large language models (LLMs) to enhance EEG-based language decoding. To address above issues, we propose the Contrastive EEG-Text Masked Autoencoder (CET-MAE), a novel model that orchestrates compound self-supervised learning across and within EEG and text through a dedicated multi-stream encoder. Furthermore, we develop a framework called E2T-PTR (EEG-to-Text decoding using Pretrained Transferable Representations), which leverages pre-trained modules alongside the EEG stream from CET-MAE and further enables an LLM (specifically BART) to decode text from EEG sequences. Comprehensive experiments conducted on the popular text-evoked EEG database, ZuCo, demonstrate the superiority of E2T-PTR, which outperforms the state-of-the-art in ROUGE-1 F1 and BLEU-4 scores by 8.34% and 32.21%, respectively. These results indicate significant advancements in the field and underscores the proposed framework's potential to enable more powerful and widespread BCI applications.
翻訳日:2024-02-29 11:49:04 公開日:2024-02-28
# ViTaL:視覚変換器と線形投影を用いた葉画像中の植物病自動識別のための高度なフレームワーク

ViTaL: An Advanced Framework for Automated Plant Disease Identification in Leaf Images Using Vision Transformers and Linear Projection For Feature Reduction ( http://arxiv.org/abs/2402.17424v2 )

ライセンス: Link先を確認
Abhishek Sebastian, Annis Fathima A, Pragna R, Madhan Kumar S, Yaswanth Kannan G, Vinay Murali(参考訳) 本稿では,植物葉画像中の疾患の自動識別のための堅牢な枠組みを提案する。 このフレームワークは、病気認識の精度を高めるためにいくつかの重要な段階を組み込んでいる。 プリプロセッシング段階では、画像のリサイズにサムネイルリサイズ技術が用いられ、重要な画像詳細の損失を最小限に抑えつつ、計算効率を確保できる。 特徴抽出の前に画像データの標準化に正規化手順を適用する。 画像解析における最先端のアプローチであるvision transformers上に構築された新しいフレームワークによって、機能抽出が容易になる。 さらに、線形射影とブロックワイズ線形射影の追加層を持つフレームワークの代替バージョンも検討されている。 この比較分析により、線形射影が特徴抽出および全体モデル性能に与える影響を評価することができる。 提案手法の有効性を評価するために,様々な畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて,線形射影が鍵評価指標に与える影響を包括的に評価する。 その結果, 提案手法の有効性が示され, トップパフォーマンスモデルではハミングの損失が0.054。 さらに,病葉を全方位的にスキャンするための新しいハードウェア設計を提案する。 ハードウェア実装では、Raspberry Pi Compute Moduleを使用して低メモリ構成に対応し、実用性と手頃さを確保する。 この革新的なハードウェアソリューションは、提案する自動疾患識別システムの全体的な実現可能性とアクセシビリティを高める。 この研究は、植物病の早期発見と管理のための貴重な洞察とツールを提供することで、農業の分野で貢献し、収穫量の向上と食料安全保障の向上に繋がる可能性がある。

Our paper introduces a robust framework for the automated identification of diseases in plant leaf images. The framework incorporates several key stages to enhance disease recognition accuracy. In the pre-processing phase, a thumbnail resizing technique is employed to resize images, minimizing the loss of critical image details while ensuring computational efficiency. Normalization procedures are applied to standardize image data before feature extraction. Feature extraction is facilitated through a novel framework built upon Vision Transformers, a state-of-the-art approach in image analysis. Additionally, alternative versions of the framework with an added layer of linear projection and blockwise linear projections are explored. This comparative analysis allows for the evaluation of the impact of linear projection on feature extraction and overall model performance. To assess the effectiveness of the proposed framework, various Convolutional Neural Network (CNN) architectures are utilized, enabling a comprehensive evaluation of linear projection's influence on key evaluation metrics. The findings demonstrate the efficacy of the proposed framework, with the top-performing model achieving a Hamming loss of 0.054. Furthermore, we propose a novel hardware design specifically tailored for scanning diseased leaves in an omnidirectional fashion. The hardware implementation utilizes a Raspberry Pi Compute Module to address low-memory configurations, ensuring practicality and affordability. This innovative hardware solution enhances the overall feasibility and accessibility of the proposed automated disease identification system. This research contributes to the field of agriculture by offering valuable insights and tools for the early detection and management of plant diseases, potentially leading to improved crop yields and enhanced food security.
翻訳日:2024-02-29 11:48:36 公開日:2024-02-28
# DiffuseKrona: 個人化拡散モデルのためのパラメータ効率の良い微調整法

DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Models ( http://arxiv.org/abs/2402.17412v2 )

ライセンス: Link先を確認
Shyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen(参考訳) 近年のDreamBoothやBLIP-Diffusionのような対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルでは、複雑な微調整要求とかなりのパラメータ要求により、限界に遭遇した。 DreamBooth内のローランク適応(LoRA)モジュールはトレーニング可能なパラメータの削減を提供するが、ハイパーパラメータに顕著な感度を導入し、パラメータ効率とT2Iパーソナライズされた画像合成の品質の妥協につながった。 これらの制約に対処し,lora-dreambooth および original dreambooth と比較してパラメータ数を35\%,99.947\%と大幅に減少させるだけでなく,画像合成のクオリティを高める新しいクロネッカー積に基づく適応モジュールである \textbf{\textit{diffusekrona}} を導入する。 重要なことに、 \textit{DiffuseKronA} はハイパーパラメータ感度の問題を緩和し、幅広いハイパーパラメータにわたって一貫した高品質な世代を提供する。 さらに、より制御可能な分解により、 \textit{diffusekrona} はより解釈しやすくなり、lora-dreambooth に匹敵する結果で最大 50\% 削減できる。 多様な複雑な入力画像やテキストプロンプトに対して評価された \textit{DiffuseKronA} は、既存のモデルよりも一貫して優れており、改良された忠実さとオブジェクトのより正確な色分布を持つ高品質の多様な画像を生成する。 私たちのプロジェクトページは、コードへのリンクと事前訓練されたチェックポイントで構成されています。

In the realm of subject-driven text-to-image (T2I) generative models, recent developments like DreamBooth and BLIP-Diffusion have led to impressive results yet encounter limitations due to their intensive fine-tuning demands and substantial parameter requirements. While the low-rank adaptation (LoRA) module within DreamBooth offers a reduction in trainable parameters, it introduces a pronounced sensitivity to hyperparameters, leading to a compromise between parameter efficiency and the quality of T2I personalized image synthesis. Addressing these constraints, we introduce \textbf{\textit{DiffuseKronA}}, a novel Kronecker product-based adaptation module that not only significantly reduces the parameter count by 35\% and 99.947\% compared to LoRA-DreamBooth and the original DreamBooth, respectively, but also enhances the quality of image synthesis. Crucially, \textit{DiffuseKronA} mitigates the issue of hyperparameter sensitivity, delivering consistent high-quality generations across a wide range of hyperparameters, thereby diminishing the necessity for extensive fine-tuning. Furthermore, a more controllable decomposition makes \textit{DiffuseKronA} more interpretable and even can achieve up to a 50\% reduction with results comparable to LoRA-Dreambooth. Evaluated against diverse and complex input images and text prompts, \textit{DiffuseKronA} consistently outperforms existing models, producing diverse images of higher quality with improved fidelity and a more accurate color distribution of objects, all the while upholding exceptional parameter efficiency, thus presenting a substantial advancement in the field of T2I generative modeling. Our project page, consisting of links to the code, and pre-trained checkpoints, is available at https://diffusekrona.github.io/.
翻訳日:2024-02-29 11:48:11 公開日:2024-02-28
# キャラクタGen:マルチビューポーズ正準化を用いた単一画像からの効率的な3次元キャラクタ生成

CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization ( http://arxiv.org/abs/2402.17214v2 )

ライセンス: Link先を確認
Hao-Yang Peng, Jia-Peng Zhang, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu(参考訳) デジタルコンテンツ作成の分野では、特に身体の複雑度や自己排除の問題やあいまいさを考えると、単一画像から高品質な3D文字を生成することは困難である。 本稿では,3D文字を効率よく生成するフレームワークである characterGen を提案する。 charactergenは、画像条件付きマルチビュー拡散モデルとともに、合理化された生成パイプラインを導入する。 このモデルは、入力画像のキー属性を保持しながら、入力ポーズを標準形式で効果的に校正し、多様なポーズによって生じる課題に対処する。 変換器ベースで一般化可能なスパースビュー再構成モデルは,マルチビュー画像から詳細な3Dモデルを作成する上で,我々のアプローチの中核となるコンポーネントである。 また,高品質なテクスチャマップを作成するためにテクスチャバックプロジェクション戦略も採用した。 さらに、モデルのトレーニングと評価のために、複数のポーズとビューでレンダリングされたアニメ文字のデータセットをキュレートしました。 提案手法は定量的・定性的な実験を通じて徹底的に評価され,高品質な形状とテクスチャを持つ3dキャラクタの生成に熟練しており,リギングやアニメーションなどの下流アプリケーションに対応している。

In the field of digital content creation, generating high-quality 3D characters from single images is challenging, especially given the complexities of various body poses and the issues of self-occlusion and pose ambiguity. In this paper, we present CharacterGen, a framework developed to efficiently generate 3D characters. CharacterGen introduces a streamlined generation pipeline along with an image-conditioned multi-view diffusion model. This model effectively calibrates input poses to a canonical form while retaining key attributes of the input image, thereby addressing the challenges posed by diverse poses. A transformer-based, generalizable sparse-view reconstruction model is the other core component of our approach, facilitating the creation of detailed 3D models from multi-view images. We also adopt a texture-back-projection strategy to produce high-quality texture maps. Additionally, we have curated a dataset of anime characters, rendered in multiple poses and views, to train and evaluate our model. Our approach has been thoroughly evaluated through quantitative and qualitative experiments, showing its proficiency in generating 3D characters with high-quality shapes and textures, ready for downstream applications such as rigging and animation.
翻訳日:2024-02-29 11:47:32 公開日:2024-02-28
# 生成モデル評価の向上:OCRシステムにおける実写画像合成と比較のための新しいアルゴリズム

Advancing Generative Model Evaluation: A Novel Algorithm for Realistic Image Synthesis and Comparison in OCR System ( http://arxiv.org/abs/2402.17204v2 )

ライセンス: Link先を確認
Majid Memari, Khaled R. Ahmed, Shahram Rahimi, Noorbakhsh Amiri Golilarz(参考訳) 本研究は、生成モデル分野における重要な課題、特に合成画像の生成と評価について論じる。 生成モデルの固有の複雑さとそれらの比較のための標準化された手順の欠如を考えると、本研究は合成画像のリアリズムを客観的に評価するための先駆的アルゴリズムを提案する。 このアプローチは、Fr'echet Inception Distance(FID)スコアを精細化し、画像品質をより正確かつ主観的に評価することで、評価手法を大幅に強化する。 このアルゴリズムは,画像生成における現実主義の主観的性質から,従来ほとんど不可能であったアラビア文字の現実的画像の生成と評価の課題に対処するために,特に調整されている。 体系的かつ客観的なフレームワークを提供することにより, 異なる生成モデルの比較を可能にするだけでなく, 設計と出力の改善への道を開く。 この評価と比較のブレークスルーは、OCRの分野、特に特異な複雑さを示すスクリプトの進歩に不可欠であり、高品質な合成画像の生成と評価において新しい標準を設定している。

This research addresses a critical challenge in the field of generative models, particularly in the generation and evaluation of synthetic images. Given the inherent complexity of generative models and the absence of a standardized procedure for their comparison, our study introduces a pioneering algorithm to objectively assess the realism of synthetic images. This approach significantly enhances the evaluation methodology by refining the Fr\'echet Inception Distance (FID) score, allowing for a more precise and subjective assessment of image quality. Our algorithm is particularly tailored to address the challenges in generating and evaluating realistic images of Arabic handwritten digits, a task that has traditionally been near-impossible due to the subjective nature of realism in image generation. By providing a systematic and objective framework, our method not only enables the comparison of different generative models but also paves the way for improvements in their design and output. This breakthrough in evaluation and comparison is crucial for advancing the field of OCR, especially for scripts that present unique complexities, and sets a new standard in the generation and assessment of high-quality synthetic images.
翻訳日:2024-02-29 11:47:11 公開日:2024-02-28
# OSCaR:オブジェクト状態のキャプションと状態変化の表現

OSCaR: Object State Captioning and State Change Representation ( http://arxiv.org/abs/2402.17128v2 )

ライセンス: Link先を確認
Nguyen Nguyen, Jing Bi, Ali Vosoughi, Yapeng Tian, Pooyan Fazli, Chenliang Xu(参考訳) 物体の状態の変化を外挿し、理解するインテリジェントなモデルの能力は、AI研究の重要な側面であり、特に現実世界における人間のインタラクションのレンズを通してである。 このタスクは複雑な視覚環境を記述し、アクティブなオブジェクトを識別し、言語を通して伝達される変化を解釈する。 オブジェクトキャプションと状態変化検出を分離する従来の方法は、動的環境の限られたビューを提供する。 さらに、変化を表すために小さな象徴的な単語セットに依存することは、言語の表現力を制限する。 本稿では,これらの課題に対処するため,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。 OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。 マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。 我々の実験では、MLLMはある程度のスキルを持っているが、オブジェクトの状態の変化を完全に理解していない。 ベンチマークには、初期機能にもかかわらず、これらの変更を効果的に理解するために、精度と一般化能力を著しく改善する必要がある微調整モデルが含まれている。 私たちのコードとデータセットはhttps://github.com/nguyennm1024/OSCaR.orgで公開されています。

The capability of intelligent models to extrapolate and comprehend changes in object states is a crucial yet demanding aspect of AI research, particularly through the lens of human interaction in real-world settings. This task involves describing complex visual environments, identifying active objects, and interpreting their changes as conveyed through language. Traditional methods, which isolate object captioning and state change detection, offer a limited view of dynamic environments. Moreover, relying on a small set of symbolic words to represent changes has restricted the expressiveness of language. To address these challenges, in this paper, we introduce the Object State Captioning and State Change Representation (OSCaR) dataset and benchmark. OSCaR consists of 14,084 annotated video segments with nearly 1,000 unique objects from various egocentric video collections. It sets a new testbed for evaluating multimodal large language models (MLLMs). Our experiments demonstrate that while MLLMs show some skill, they lack a full understanding of object state changes. The benchmark includes a fine-tuned model that, despite initial capabilities, requires significant improvements in accuracy and generalization ability for effective understanding of these changes. Our code and dataset are available at https://github.com/nguyennm1024/OSCaR.
翻訳日:2024-02-29 11:46:51 公開日:2024-02-28
# Latent Transparency を用いた透過層拡散

Transparent Image Layer Diffusion using Latent Transparency ( http://arxiv.org/abs/2402.17113v2 )

ライセンス: Link先を確認
Lvmin Zhang, Maneesh Agrawala(参考訳) 本研究では,大規模事前学習された潜在拡散モデルを用いて透明画像を生成する手法である layerdiffusion を提案する。 単一の透明な画像や複数の透明な層を生成することができる。 この方法は、事前訓練された潜在拡散モデルの潜在多様体にアルファチャネルの透明性を符号化する「相対透過性」を学習する。 事前訓練されたモデルの本来の潜伏分布に最小限の変更を加えて、付加された透明性を潜伏オフセットとして調節することにより、大規模な拡散モデルの生産可能な品質を維持する。 このようにして、任意の潜在拡散モデルは、調整された潜在空間で微調整することで透明な画像生成器に変換できる。 我々は,1mの透明な画像層ペアを用いて,ループ内人間収集方式を用いてモデルを訓練する。 異なるオープンソースイメージジェネレータに適用したり,様々な条件制御システムに適用して,フォアグラウンド/バックグラウンドコンディショニング層生成,ジョイント層生成,レイヤコンテンツの構造制御などを実現することができる。 ユーザ調査によると、ほとんどのケース(97%)のユーザは、生成やマッチングといった従来のアドホックなソリューションよりも、ネイティブに生成された透明なコンテンツを好む。 ユーザが生成した透明な画像の品質は、Adobe Stockのような本物の商用透明な資産に匹敵する。

We present LayerDiffusion, an approach enabling large-scale pretrained latent diffusion models to generate transparent images. The method allows generation of single transparent images or of multiple transparent layers. The method learns a "latent transparency" that encodes alpha channel transparency into the latent manifold of a pretrained latent diffusion model. It preserves the production-ready quality of the large diffusion model by regulating the added transparency as a latent offset with minimal changes to the original latent distribution of the pretrained model. In this way, any latent diffusion model can be converted into a transparent image generator by finetuning it with the adjusted latent space. We train the model with 1M transparent image layer pairs collected using a human-in-the-loop collection scheme. We show that latent transparency can be applied to different open source image generators, or be adapted to various conditional control systems to achieve applications like foreground/background-conditioned layer generation, joint layer generation, structural control of layer contents, etc. A user study finds that in most cases (97%) users prefer our natively generated transparent content over previous ad-hoc solutions such as generating and then matting. Users also report the quality of our generated transparent images is comparable to real commercial transparent assets like Adobe Stock.
翻訳日:2024-02-29 11:46:31 公開日:2024-02-28
# 後処理手法による欧州電力システム評価への気候変動の影響の組み入れ

Incorporating climate change effects into the European power system adequacy assessment using a post-processing method ( http://arxiv.org/abs/2402.17039v2 )

ライセンス: Link先を確認
In\`es Harang, Fabian Heymann, Laurens P. Stoop(参考訳) 電力システムの需給バランスは、基本的に気候条件と結びついている。 そこで本研究では,気候変動が欧州の電力システム,特に長期信頼性に与える影響をモデル化することを目的としている。 電力供給が需要を覆っているシステムであるリソースの適切な電力システムは、発電能力、需要パターン、ネットワーク構造と容量に敏感である。 気候変動はこれらの構成要素に影響を与えやすい。 本研究では,電力系統の温度変化が電力需要に与える影響,水流入が水力発電に与える影響の2つの要因に着目した。 文献から得られた結果に基づいて, 後処理手法を用いて, 欧州地域をカバーする大規模電力市場モデルの入力を改良した。 その結果、気候変動によりヨーロッパにおける総LOLE (Loss of Load expectation) 時間は50%以上減少し、冬季の気温上昇により需要が大幅に減少する可能性が示唆された。 その結果,需要に対する気候変動の影響はlole値の低下傾向にあり,水文環境における気候変動の影響はlole値の上昇傾向にあった。 この研究は限られた量のオープンソースデータに基づいており、様々な仮定を柔軟に組み込むことができる。 結果は、気候変動が電力系統の適切性に与える影響を確実にモデル化する現在の困難さも示している。 概して,提案手法は,電力ネットワーク研究における気候変動の影響の関連性を示す。

The demand-supply balance of electricity systems is fundamentally linked to climate conditions. In light of this, the present study aims to model the effect of climate change on the European electricity system, specifically on its long-term reliability. A resource adequate power system -- a system where electricity supply covers demand -- is sensitive to generation capacity, demand patterns, and the network structure and capacity. Climate change is foreseen to affect each of these components. In this analysis, we focused on two drivers of power system adequacy: the impact of temperature variations on electricity demand, and of water inflows changes on hydro generation. Using a post-processing approach, based on results found in the literature, the inputs of a large-scale electricity market model covering the European region were modified. The results show that climate change may decrease total LOLE (Loss of Load Expectation) hours in Europe by more than 50%, as demand will largely decrease because of a higher temperatures during winter. We found that the climate change impact on demand tends to decrease LOLE values, while the climate change effects on hydrological conditions tend to increase LOLE values. The study is built on a limited amount of open-source data and can flexibly incorporate various sets of assumptions. Outcomes also show the current difficulties to reliably model the effects of climate change on power system adequacy. Overall, our presented method displays the relevance of climate change effects in electricity network studies.
翻訳日:2024-02-29 11:46:12 公開日:2024-02-28
# REのためのデータ処理: NLPとジェネレーティブAIを用いた課題の緩和

Dealing with Data for RE: Mitigating Challenges while using NLP and Generative AI ( http://arxiv.org/abs/2402.16977v2 )

ライセンス: Link先を確認
Smita Ghaisas and Anmol Singhal(参考訳) 今日の動的なビジネスの状況の中で、企業はますます多くの課題に直面している。 これには、絶えず進化する規制環境、ソフトウェアアプリケーション内のパーソナライゼーションに対する需要の増加、ガバナンスの強調などが含まれる。 このような多面的な要求に応えて、大企業はコアビジネスプロセスの最適化から顧客エクスペリエンスの向上に至るまで、自動化を採用してきました。 実際、人工知能(AI)は現代のソフトウェアシステムの重要な要素として現れています。 この文脈では、データは必須の役割を果たす。 ai中心のソフトウェアシステム 教師付き学習と産業規模での運用は、効果的に実行するために大量のトレーニングデータを必要とする。 さらに、生成AIの組み入れにより、適切な評価ベンチマークの需要が高まっている。 この分野での経験から,大規模データセットのトレーニングと評価の要件には,多くの複雑な課題があることが分かりました。 本書の章は、ソフトウェアエンジニアリング(se)の一般的な進化の風景と、特にai統合によって特徴づけられたこの時代の要件工学(re)を探求する。 自然言語処理(NLP)と生成AIをエンタープライズクリティカルなソフトウェアシステムに統合する際に生じる課題について論じる。 この章は、読者にnlpで効果的にソリューションを構築するために必要な知識とツールを提供するための実践的な洞察、ソリューション、サンプルを提供する。 また、これらのテキストデータ中心のタスクが従来のREプロセスとどのように連携するかを反映しています。 また、ソフトウェアシステムの開発に関わる重要なテキストデータ中心性を扱うために必要な新しいREタスクを強調します。

Across the dynamic business landscape today, enterprises face an ever-increasing range of challenges. These include the constantly evolving regulatory environment, the growing demand for personalization within software applications, and the heightened emphasis on governance. In response to these multifaceted demands, large enterprises have been adopting automation that spans from the optimization of core business processes to the enhancement of customer experiences. Indeed, Artificial Intelligence (AI) has emerged as a pivotal element of modern software systems. In this context, data plays an indispensable role. AI-centric software systems based on supervised learning and operating at an industrial scale require large volumes of training data to perform effectively. Moreover, the incorporation of generative AI has led to a growing demand for adequate evaluation benchmarks. Our experience in this field has revealed that the requirement for large datasets for training and evaluation introduces a host of intricate challenges. This book chapter explores the evolving landscape of Software Engineering (SE) in general, and Requirements Engineering (RE) in particular, in this era marked by AI integration. We discuss challenges that arise while integrating Natural Language Processing (NLP) and generative AI into enterprise-critical software systems. The chapter provides practical insights, solutions, and examples to equip readers with the knowledge and tools necessary for effectively building solutions with NLP at their cores. We also reflect on how these text data-centric tasks sit together with the traditional RE process. We also highlight new RE tasks that may be necessary for handling the increasingly important text data-centricity involved in developing software systems.
翻訳日:2024-02-29 11:45:50 公開日:2024-02-28
# 信頼性のある衝突型多視点学習

Reliable Conflictive Multi-View Learning ( http://arxiv.org/abs/2402.16897v2 )

ライセンス: Link先を確認
Cai Xu, Jiajun Si, Ziyu Guan, Wei Zhao, Yue Wu, Xiyue Gao(参考訳) マルチビュー学習は、より包括的なデータ記述を実現するために複数の機能を組み合わせることを目的としている。 以前の作品の多くは、複数の視点が厳密に一致していると仮定している。 しかし、現実のマルチビューデータには低品質の矛盾するインスタンスが含まれており、異なる視点で矛盾する情報を示す。 この問題に対するこれまでの方法は、主に矛盾するデータインスタンスを削除したり、矛盾するビューを置き換えることによって排除することに焦点を当てていた。 それにもかかわらず、現実世界のアプリケーションは、通常はそれらを取り除くだけでなく、矛盾するインスタンスの意思決定を必要とする。 この問題を解決するために、我々は、競合する多視点データに対して決定結果と付随する信頼度をモデルに要求する、信頼性の高い競合多視点学習(RCML)問題を指摘した。 本稿では,この問題に対するエビデンシャル・コンフリクト・マルチビュー・ラーニング(ECML)手法を提案する。 ECMLはまずビュー固有のエビデンスを学び、これはデータから収集された各カテゴリに対するサポートの量と表現できる。 そして、意思決定結果と信頼性からなるビュー固有の意見を構築することができる。 多視点融合の段階では、矛盾する意見集約戦略を提案し、この戦略が多視点共通性および視点固有性の関係を正確にモデル化できることを理論的に証明する。 6つのデータセットで実施された実験は、ECMLの有効性を検証する。

Multi-view learning aims to combine multiple features to achieve more comprehensive descriptions of data. Most previous works assume that multiple views are strictly aligned. However, real-world multi-view data may contain low-quality conflictive instances, which show conflictive information in different views. Previous methods for this problem mainly focus on eliminating the conflictive data instances by removing them or replacing conflictive views. Nevertheless, real-world applications usually require making decisions for conflictive instances rather than only eliminating them. To solve this, we point out a new Reliable Conflictive Multi-view Learning (RCML) problem, which requires the model to provide decision results and attached reliabilities for conflictive multi-view data. We develop an Evidential Conflictive Multi-view Learning (ECML) method for this problem. ECML first learns view-specific evidence, which could be termed as the amount of support to each category collected from data. Then, we can construct view-specific opinions consisting of decision results and reliability. In the multi-view fusion stage, we propose a conflictive opinion aggregation strategy and theoretically prove this strategy can exactly model the relation of multi-view common and view-specific reliabilities. Experiments performed on 6 datasets verify the effectiveness of ECML.
翻訳日:2024-02-29 11:45:26 公開日:2024-02-28